2つのガウス、一つの信号と一つの背景を、私は仕事にそれを得ることができない:私はかなり最小限pyhf例を構築しようとしています。私のPythonのコードは次のとおりです。
import pyhf.readxml
import os
from ROOT import TH1F, TFile, TF1
mygaus = TF1("mygaus","TMath::Gaus(x,100,.5)",95, 115)
mygaus2 = TF1("mygaus2","TMath::Gaus(x,110,.2)",95, 115)
mygaus_data = TF1("mygaus_data","TMath::Gaus(x,110,.2)+TMath::Gaus(x,100,.5)",95, 115)
bkg_nominal = TH1F('bkg_nominal', '', 80, 95, 115)
bkg_nominal.FillRandom("mygaus", 10000)
sig_nominal = TH1F('sig_nominal', '', 80, 95, 115)
sig_nominal.FillRandom("mygaus2", 5000)
data_nominal = TH1F('data_nominal', '', 80, 95, 115)
data_nominal.FillRandom("mygaus_data", 10000)
meas = TFile('meas.root', 'RECREATE')
bkg_nominal.Write()
sig_nominal.Write()
data_nominal.Write()
meas.Close()
spec = pyhf.readxml.parse('meas.xml', os.getcwd())
workspace = pyhf.Workspace(spec)
pdf = workspace.model(measurement_name='meas')
data = workspace.data(pdf)
workspace.get_measurement(measurement_name='meas')
best_fit = pyhf.infer.mle.fit(data, pdf)
私は基本的に文書での例からコピーされたXMLファイルは、次のように書かれています
meas.xml
<!DOCTYPE Combination SYSTEM 'HistFactorySchema.dtd'>
<Combination OutputFilePrefix="workspace" >
<Input>./meas_channel1.xml</Input>
<Measurement Name="meas" Lumi='1' LumiRelErr='0.1' ExportOnly="False" >
<POI>signorm</POI>
</Measurement>
</Combination>
meas_channel1.xml
<!DOCTYPE Channel SYSTEM 'HistFactorySchema.dtd'>
<Channel Name="channel1" InputFile="" >
<Data HistoName="data_nominal" InputFile="meas.root" />
<StatErrorConfig RelErrorThreshold="0.05" ConstraintType="Gaussian" />
<Sample Name="bkg" HistoName="bkg_nominal" InputFile="meas.root" NormalizeByTheory="True" >
<NormFactor Name="bkgnorm" Val="1" High="3" Low="0" Const="False" />
</Sample>
<Sample Name="sig" HistoName="sig_nominal" InputFile="meas.root" NormalizeByTheory="True" >
<NormFactor Name="signorm" Val="1" High="3" Low="0" Const="False" />
</Sample>
</Channel>
それはすべての非常にシンプルに見えると私はヒストグラムをプロットすることができています。しかし、ときに私は、このエラーメッセージが表示されます:
ERROR:pyhf.optimize.opt_scipy: fun: nan
jac: array([nan, nan, nan])
message: 'Inequality constraints incompatible'
nfev: 5
nit: 1
njev: 1
status: 4
success: False
x: array([1., 1., 1.])
---------------------------------------------------------------------------
AssertionError Traceback (most recent call last)
<ipython-input-14-54e7c2f0a645> in <module>
2 data = workspace.data(pdf)
3 workspace.get_measurement(measurement_name='meas')
----> 4 best_fit = pyhf.infer.mle.fit(data, pdf)
/usr/local/lib/python3.7/site-packages/pyhf/infer/mle.py in fit(data, pdf, init_pars, par_bounds, **kwargs)
34 init_pars = init_pars or pdf.config.suggested_init()
35 par_bounds = par_bounds or pdf.config.suggested_bounds()
---> 36 return opt.minimize(twice_nll, data, pdf, init_pars, par_bounds, **kwargs)
37
38
/usr/local/lib/python3.7/site-packages/pyhf/optimize/opt_scipy.py in minimize(self, objective, data, pdf, init_pars, par_bounds, fixed_vals, return_fitted_val)
45 )
46 try:
---> 47 assert result.success
48 except AssertionError:
49 log.error(result)
AssertionError:
これは私がすべての不等式制約を持っていないので、奇妙です。私はあなたが助けを喜ばことができ、私は馬鹿に何かをやっていると思いますか?ありがとうございました!
robsol90 @良い質問をお寄せいただきありがとうございます。
我々は、視覚的にモデルの内容を調べる(中historgramsでROOTファイルと表情を開いた場合TBrowser
)、または単に(JSONにXML + ROOTを変換した後)の内容をプリントアウト
>>> import json
>>> with open("meas.json") as spec_file:
... spec = json.load(spec_file)
...
>>> print(json.dumps(spec, indent=2, sort_keys=True))
私たちはそこにあることがわかり、多くのモデルではゼロでビンが。HistFactoryがポアソンベースであるので、これは問題であり、ポアソンPMFが0よりもレートパラメータ大きいため、厳密に定義されているように、これらの真の0ビンは、エラーが発生します(と彼らが行います)。しかし、我々は単に仕様を解析し、追加する場合、非常に小さなオフセット(epsilon
)その後、フィット感は問題なく進むことができます。この問題は、実際には(この質問に非常によく似なってしまうので、小信号モデルのpyhfでフィット収束失敗、それはすぐに明らかにされることなく)。
私たちは、おもちゃのモデルあなたのセットアップを最小限かつ簡単になるはずだったことを理解し、現実のように、あなたはこのおもちゃの問題が困難になるなど、スパース解析領域に遭遇することはほとんどないでしょう。自動的に完全にユーザーのために、この問題を回避するためのモデルで真のゼロですビンをマスクするのに今後も努力がかかります。
私はまた、いくつかのコードの下にあげるフィックス、あなたは上記の持っている問題だけでなく、いくつかの追加のサンプルコード。
まず、非常に明確であることを、私たちの環境を構築しましょう
環境
$ "$(which python3)" --version
Python 3.7.5
$ python3 -m venv "${HOME}/.venvs/question"
$ . "${HOME}/.venvs/question/bin/activate"
(question) $ cat requirements.txt
pyhf[xmlio]~=0.4.0
black
(question) $ python -m pip install -r requirements.txt
(question) $ root-config --version
6.18/04
コード
のは、コードの複数のステップに離れて物事を壊してみましょう。私は、モデルのより合理的なサンプリングがあることを変更したROOTのコードスニペットにXMLで最初に見てみましょうは、観測データに表示された(これに必要はありませんでしたあなたの元のコードがあまりにもここで働いように)。
# XML_to_ROOT.py
from ROOT import TH1F, TFile, TF1
def main():
left_bound = 95
right_bound = 115
n_bins = 80
# Model makeup
frac_bkg = 0.95
frac_sig = round(1.0 - frac_bkg, 2)
bkg_model = TF1("bkg_model", "TMath::Gaus(x,100,0.5,true)", left_bound, right_bound)
sig_model = TF1("sig_model", "TMath::Gaus(x,105,0.2,true)", left_bound, right_bound)
obs_model = TF1(
"obs_model",
f"({frac_bkg}*bkg_model)+({frac_sig}*sig_model)",
left_bound,
right_bound,
)
# Samples from model
n_sample = 10000
n_bkg = int(frac_bkg * n_sample)
n_sig = int(frac_sig * n_sample)
bkg_nominal = TH1F("bkg_nominal", "", n_bins, left_bound, right_bound)
bkg_nominal.FillRandom("bkg_model", n_bkg)
sig_nominal = TH1F("sig_nominal", "", n_bins, left_bound, right_bound)
sig_nominal.FillRandom("sig_model", n_sig)
data_nominal = TH1F("data_nominal", "", n_bins, left_bound, right_bound)
data_nominal.FillRandom("obs_model", n_sample)
meas = TFile("meas.root", "RECREATE")
bkg_nominal.Write()
sig_nominal.Write()
data_nominal.Write()
meas.Close()
if __name__ == "__main__":
main()
今すぐ簡単に物事は後で聞かせて私たちのXMLとROOTファイルを生成し、JSONの仕様に変換作ります
(question) $ python XML_to_ROOT.py
(question) $ pyhf xml2json --output-file meas.json meas.xml
さて、最後に、のモデルにはビンが真含まれていないことを確認するためにあなたの質問にコードを適応させて0
オフセットしてすべてのビンをパディングすることにより、Sを1e-20
(ちょうど唯一重要なことは、彼らが非ゼロであることであることを実証するために)
# answer.py
import os
import json
import pyhf.readxml
import numpy as np
def main():
with open("meas.json") as spec_file:
spec = json.load(spec_file)
# Pad true zeros to avoid error with evaluating Poisson(x|0)
epsilon = 1e-20
bkg = np.asarray(spec["channels"][0]["samples"][0]["data"]) + epsilon
sig = np.asarray(spec["channels"][0]["samples"][1]["data"]) + epsilon
spec["channels"][0]["samples"][0]["data"] = bkg.tolist()
spec["channels"][0]["samples"][1]["data"] = sig.tolist()
workspace = pyhf.Workspace(spec)
model = workspace.model(measurement_name="meas")
data = workspace.data(model)
best_fit_pars = pyhf.infer.mle.fit(data, model)
print(f"initialization parameters: {model.config.suggested_init()}")
print(
f"best fit parameters:\
\n * signal strength: {best_fit_pars[0]}\
\n * nuisance parameters: {best_fit_pars[1:]}"
)
if __name__ == "__main__":
main()
今、私たちが得るランニング
(question) $ python answer.py
initialization parameters: [1.0, 1.0, 1.0]
best fit parameters:
* signal strength: 1.000000316044688
* nuisance parameters: [0.99884051 1.02202245]
これがあると、余分なデモンストレーションとして、本当に真のゼロにちょうど起因する、あなたのエラーで失敗するように設計されて、次の2ビンの例を考えてみましょう。
# fail.py
import os
import json
import pyhf.readxml
import numpy as np
def main():
with open("meas.json") as spec_file:
spec = json.load(spec_file)
# Fails
bkg = np.asarray([0, 0])
sig = np.asarray([0, 1])
obs = np.asarray([1, 1])
# # Fails
# bkg = np.asarray([1, 0])
# sig = np.asarray([0, 0])
# obs = np.asarray([1, 1])
# # Fails
# bkg = np.asarray([0, 0])
# sig = np.asarray([0, 0])
# obs = np.asarray([1, 1])
# # Pass
# bkg = np.asarray([1e-9, 0])
# sig = np.asarray([0, 1e-9])
# obs = np.asarray([1, 1])
spec["channels"][0]["samples"][0]["data"] = bkg.tolist()
spec["channels"][0]["samples"][1]["data"] = sig.tolist()
spec["observations"][0]["data"] = obs.tolist()
workspace = pyhf.Workspace(spec)
model = workspace.model(measurement_name="meas")
data = workspace.data(model)
best_fit_pars = pyhf.infer.mle.fit(data, model)
if __name__ == "__main__":
main()