ナイーブベイズ基盤
基本的な概念:
条件付き確率:イベントを指す A 別のイベントにおける Bの 確率状態が発生しました
ベイズの定理:P (B )= P (A | B )* P (B )--->
事前確率:事前確率(事前確率)は、過去の経験と分析に基づいて得られる確率を意味します。例えば、上記式で P (A )、P (B )、P(A)、P(B)、もう一つの例:X -は 明らかに過去の経験に基づいてもテクスチャコイン、上方陽性の確率、投票を表します次の、我々は検討する Xの確率 P (X )= 0.5 P(X)= 0.5。ここで、 P (X- )= 0.5 P(X-)が先験的確率= 0.5です。
事後確率:;すなわち、得られたベイズ式によって事前確率に基づいて、条件付き確率を逆事後確率(事後確率)が入射要求の逆条件付き確率です。例えば、式 P(B | A)は事前確率経由で P (A )およびP (B )事後確率P(B)を得た、と人気の話がで「ので」「なぜなら執行の果実を求めて」されます。
ナイーブベイズ:
ナイーブベイズはその予測が個々のプロパティは互いに独立であると仮定した、すなわち独立した状態、「シンプル」で、各プロパティ独立予測データにプロパティを解決し、予測データの分類結果に影響が表示されます各カテゴリの発生確率、クラス予測データとして大きな値のカテゴリの確率
アルゴリズム:
"""生成示例数据 """ import pandas as pd def create_data(): data = {"x": ['r', 'g', 'r', 'b', 'g', 'g', 'r', 'r', 'b', 'g', 'g', 'r', 'b', 'b', 'g'], "y": ['m', 's', 'l', 's', 'm', 's', 'm', 's', 'm', 'l', 'l', 's', 'm', 'm', 'l'], "labels": ['A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B', 'B', 'B']} data = pd.DataFrame(data, columns=["labels", "x", "y"]) return data
data = create_data()
data
参数估计
根据朴素贝叶斯的原理,最终分类的决策因素是比较 P(类别1∣特征),P(类别2∣特征),…,P(类别m∣特征) 各个概率的大小,根据贝叶斯公式得知每一个概率计算的分母 P(特征)P(特征) 都是相同的,只需要比较分子 P(类别)和 P(特征∣类别)乘积的大小。
那么如何得到 P(类别),以及 P(特征∣类别)呢?在概率论中,可以应用极大似然估计法以及贝叶斯估计法来估计相应的概率。
极大似然估计
设甲箱中有99个白球,1个黑球;乙箱中有1个白球.99个黑球。现随机取出一箱,再从抽取的一箱中随机取出一球,结果是黑球,这一黑球从乙箱抽取的概率比从甲箱抽取的概率大得多,这时我们自然更多地相信这个黑球是取自乙箱的。一般说来,事件A发生的概率与某一未知参数 有关, 取值不同,则事件A发生的概率 也不同,当我们在一次试验中事件A发生了,则认为此时的 值应是t的一切可能取值中使 达到最大的那一个,极大似然估计法就是要选取这样的t值作为参数t的估计值,使所选取的样本在被选的总体中出现的可能性为最大
目的就是利用已知样本结果,反推最有可能造成这个结果的参数值。
极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:「模型已定,参数未知」。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。