目次
分類モデルの評価
モデルの最適化と選択
1. 相互検証
相互検証: 評価したモデルをより正確で信頼できるものにするため
相互検証: 取得したデータをトレーニング セットと検証セットに分割します。次の図は例です。データを 5 つの部分に分割し、そのうちの 1 つを検証セットとして使用します。その後、5 回 (グループ) のテストが行われるたびに、異なる検証セットが置き換えられます。つまり、5 グループのモデルの結果が得られ、その平均値が最終結果となります。5 分割交差検証とも呼ばれます。
2. グリッド検索
通常、手動で指定する必要があるパラメーター (k 最近傍アルゴリズムの K 値など) が多数あり、これらはハイパーパラメーターと呼ばれます。ただし、手動プロセスは複雑であるため、いくつかのハイパーパラメータの組み合わせをモデルに事前設定する必要があります。ハイパーパラメーターの各セットは、相互検証を使用して評価されました。最後に、最適なパラメーターの組み合わせを選択してモデルを構築します。
knn = KNeighborsClassifier()
# # fit, predict 预测, score 得出准确率
# knn.fit(x_train, y_train)
# # 得出预测结果
# y_predict = knn.predict(x_test)
# print("预测的目标签到位置为:", y_predict)
# # 得出准确率
# print("预测的准确率:", knn.score(x_test, y_test))
# 构造一些参数的值进行搜索
param = {
"n_neighbors": [3, 5, 10]}
# 进行网格搜索
gc = GridSearchCV(knn, param_grid=param, cv=2)#二折交叉验证
gc.fit(x_train, y_train)
# 预测准确率
print("在测试集上准确率:", gc.score(x_test, y_test))
print("在交叉验证当中最好的结果:", gc.best_score_)
print("选择最好的模型是:", gc.best_estimator_)
print("每个超参数每次交叉验证的结果:", gc.cv_results_)
【分類】K 最近傍アルゴリズム
sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')
kの値は何ですか? 効果は何ですか?
- kの値が小さい:異常点の影響を受けやすい
- k の値が非常に大きいため、最近のデータが多すぎることによる比率の変化の影響を受けやすくなります。
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
if __name__ == "__main__":
decision()
def knncls():
"""
K-近邻预测用户签到位置
:return:None
"""
# 读取数据
data = pd.read_csv("./data/FBlocation/train.csv")
# print(data.head(10))
# 处理数据
# 1、缩小数据,查询数据晒讯
data = data.query("x > 1.0 & x < 1.25 & y > 2.5 & y < 2.75")
# 处理时间的数据
time_value = pd.to_datetime(data['time'], unit='s')
print(time_value)
# 把日期格式转换成 字典格式
time_value = pd.DatetimeIndex(time_value)
# 构造一些特征
data['day'] = time_value.day
data['hour'] = time_value.hour
data['weekday'] = time_value.weekday
# 把时间戳特征删除
data = data.drop(['time'], axis=1)#1表示列,0表示行
print(data)#没有时间戳特征的数据
# 把签到数量少于n个目标位置删除
place_count = data.groupby('place_id').count()
tf = place_count[place_count.row_id > 3].reset_index()#分组后逆操作,重新设置索引
data = data[data['place_id'].isin(tf.place_id)]
# 取出数据当中的特征值和目标值
y = data['place_id']#取目标值
x = data.drop(['place_id'], axis=1)#删除特征值就得到目标值
# 进行数据的分割训练集合测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)
# 特征工程(标准化)
std = StandardScaler()
# 对测试集和训练集的特征值进行标准化
x_train = std.fit_transform(x_train)
x_test = std.transform(x_test)
# 进行算法流程 # 超参数
knn = KNeighborsClassifier()
# # fit, predict 预测, score 得出准确率
# knn.fit(x_train, y_train)
#
# # 得出预测结果
# y_predict = knn.predict(x_test)
#
# print("预测的目标签到位置为:", y_predict)
#
# # 得出准确率
# print("预测的准确率:", knn.score(x_test, y_test))
# 构造一些参数的值进行搜索
param = {
"n_neighbors": [3, 5, 10]}
# 进行网格搜索
gc = GridSearchCV(knn, param_grid=param, cv=2)
gc.fit(x_train, y_train)
# 预测准确率
print("在测试集上准确率:", gc.score(x_test, y_test))
print("在交叉验证当中最好的结果:", gc.best_score_)
print("选择最好的模型是:", gc.best_estimator_)
print("每个超参数每次交叉验证的结果:", gc.cv_results_)
return None
[分類] ナイーブベイズ - テキスト分類
アドバンテージ:
- 素朴ベイジアン モデルは古典的な数学理論に由来しており、安定した分類効率を持っています。
- データの欠損の影響が少なく、アルゴリズムが比較的単純なので、テキストの分類によく使用されます。
- 高い分類精度と高速な分類
欠点:
- 事前確率 P(F1,F2,…|C) を知る必要があるため、ある時点で、想定されている事前モデルが原因で予測が不十分になります。
例: ニュースデータの分類
from sklearn.datasets import load_iris, fetch_20newsgroups, load_boston
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
import numpy as pd
def naviebayes():
"""
朴素贝叶斯进行文本分类
:return: None
"""
news = fetch_20newsgroups(subset='all')
# 进行数据分割
x_train, x_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25)
# 对数据集进行特征抽取
tf = TfidfVectorizer()
# 以训练集当中的词的列表进行每篇文章重要性统计['a','b','c','d']
x_train = tf.fit_transform(x_train)
print(tf.get_feature_names())
x_test = tf.transform(x_test)
# 进行朴素贝叶斯算法的预测
mlt = MultinomialNB(alpha=1.0)
print(x_train)
mlt.fit(x_train, y_train)
y_predict = mlt.predict(x_test)
print("预测的文章类别为:", y_predict)
# 得出准确率
print("准确率为:", mlt.score(x_test, y_test))
print("每个类别的精确率和召回率:", classification_report(y_test, y_predict, target_names=news.target_names))
return None
if __name__ == "__main__":
naviebayes()
[分類] ディシジョンツリーとランダムフォレスト
1. デシジョンツリー
1. 情報
理論 情報理論の創始者であるシャノンは、ミシガン大学で学士号を取得し、マサチューセッツ工科大学で博士号を取得しています。
1948 年にシャノンは、現代の情報理論の基礎を築いたコミュニケーションの数学的原理という画期的な論文を発表しました
情報の単位: ビット
32 チーム、log32=5 ビット
64 チーム、log64=6 ビット
2. 決定木のアルゴリズム
最大のID3情報利得
の基準
C4.5
最大の情報利得比の基準
CART
回帰木: 最小二乗誤差 分類
木: 最小ジニ係数の基準 除算の原理は sklearn で選択可能
ジニ係数: 詳細慎重な分割
3. コードの実装
アドバンテージ:
- 理解しやすく説明しやすい、ツリーの視覚化。
- データの準備はほとんど必要ありませんが、他の手法ではデータの正規化が必要になることがよくあります。
欠点:
- デシジョン ツリー学習者は、データに対して適切に一般化できない過度に複雑なツリーを作成することがあります。これは過剰適合として知られています。
- データの小さな変更によってまったく異なるツリーが生成される可能性があるため、デシジョン ツリーは不安定になる可能性があります
向上:
- プルーニング カート アルゴリズム (デシジョン ツリー API にすでに実装されています)
- ランダムフォレスト
例: タイタニック号の生死を予測する
タイタニック データ
titanic および titanic2 データ フレームは、タイタニック号の個々の乗客の生存状況を記述します。タイタニック号のデータ フレームには乗組員からの情報は含まれていませんが、乗客の半数の実年齢は含まれています。タイタニック号の乗客に関する主なデータ源は、百科事典「タイタニカ」です。ここで使用されるデータセットは、さまざまな研究者によって開始されました。これらには、多数の研究者によって作成され、マイケル A. フィンドレーによって編集された乗客リストが含まれます。
抽出したデータセットの特徴は、チケット カテゴリ、生存、乗車クラス、年齢、着陸、自宅.目的地、部屋、チケット、ボート、性別です。乗車クラスとは、社会経済階級を代表する乗客クラス(1、2、3)を指します。
年齢データがありません。
from sklearn.model_selection import train_test_split, GridSearchCV
import pandas as pd
from sklearn.tree import DecisionTreeClassifier, export_graphviz
def dieornot():
"""
泰坦尼克生与死
:return: None
"""
data=pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")
# print(data.info())
x=data[['pclass', 'age', 'sex']]
y=data['survived']
#缺失年龄数据处理
x["age"].fillna(x["age"].mean(),inplace=True)
# print(x)
#划分训练和测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)
# 进行处理(特征工程)特征-》类别-》one_hot编码
from sklearn.feature_extraction import DictVectorizer
dict = DictVectorizer(sparse=False)
x_train = dict.fit_transform(x_train.to_dict(orient="records"))
# print(x_train)
print(dict.get_feature_names())#输出编码后的特征
x_test = dict.fit_transform(x_test.to_dict(orient="records"))
##########################################
# # 用决策树进行预测
# dec = DecisionTreeClassifier()
# dec.fit(x_train, y_train)
# # 预测准确率
# print("预测的准确率:", dec.score(x_test, y_test))
# # 导出决策树的结构
# export_graphviz(dec, out_file="./tree.dot", feature_names=['年龄', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', '女性', '男性'])
###########################################
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier()
param = {
"n_estimators": [120, 200, 300, 500, 800, 1200], "max_depth": [5, 8, 15, 25, 30]}
# 网格搜索与交叉验证
gc = GridSearchCV(rf, param_grid=param, cv=2)
gc.fit(x_train, y_train)
print("准确率:", gc.score(x_test, y_test))
print("查看选择的参数模型:", gc.best_params_)
return None
if __name__ == "__main__":
dieornot()
【総合学習】ランダムフォレスト
1.総合的な学習
アンサンブル学習では、複数のモデルを組み合わせて構築することで、単一の予測問題を解決します。これは、個別に学習して予測を行う複数の分類子/モデルを生成することで機能します。これらの予測は最終的に 1 つの予測に結合されるため、単一クラスの予測よりも優れています。
2. ランダムフォレスト
定義: 機械学習において、ランダム フォレストは複数の決定木を含む分類器であり、その出力カテゴリは個々のツリーによって出力されるカテゴリのモードによって決定されます。
3. 学習アルゴリズム
4. コードの実装
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier()
param = {
"n_estimators": [120, 200, 300, 500, 800, 1200], "max_depth": [5, 8, 15, 25, 30]}
# 网格搜索与交叉验证
gc = GridSearchCV(rf, param_grid=param, cv=2)
gc.fit(x_train, y_train)
print("准确率:", gc.score(x_test, y_test))
print("查看选择的参数模型:", gc.best_params_)
return None
5. 利点
デシジョンツリーの改善:
- プルーニング カート アルゴリズム (デシジョン ツリー API にすでに実装されています)
- ランダムフォレスト
アドバンテージ:
- 現在のすべてのアルゴリズムの中で優れた精度
- 大規模なデータセットを効率的に実行できる
- 次元を削減せずに高次元の特徴を持つ入力サンプルを処理する機能
- 分類問題における個々の特徴の重要性を評価する能力
- デフォルト値問題でも良好な結果が得られています
[分類] ロジスティック回帰 - 2 つの分類
どのカテゴリが小さいか、このカテゴリに値する確率値を決定します (悪性: 肯定的な例、良性: 否定的な例)
用途:広告のクリック率予測、ECショッピングのマッチングレコメンド
長所:分類確率を取得する必要があるシナリオに適している
短所:特徴空間が大きい場合、ロジスティック回帰の性能があまり良くない(ハードウェアに依存する)能力)
例: 良性/悪性乳がんデータ
元データダウンロードアドレス:
https ://archive.ics.uci.edu/ml/machine-learning-databases/
データ説明
(1) 699 サンプル、合計 11 列のデータ。最初の列は用語によって取得された ID、最後の 9 列は腫瘍に関連する医学的特徴、最後の列は腫瘍の値を示します。タイプ。
(2) 16 個の欠損値が含まれており、「?」でマークされています。
from sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, classification_report
from sklearn.externals import joblib
import pandas as pd
import numpy as np
def ljhg():
"""
逻辑回归预测肿瘤的分类问题
:return: None
"""
# 获取数据
column = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size','Uniformity of Cell Shape', 'Marginal Adhesion', 'Single Epithelial Cell Size','Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']
lb = pd.read_csv(r"F:\python\data\breast-cancer-wisconsin.data",names=column)
print(lb.shape[1])
#缺失数据处理
lb=lb.replace(to_replace="?", value =np.nan)
lb.dropna(inplace=True)
# 分割数据集到训练集和测试集 # 按照列名取数据
x_train, x_test, y_train, y_test = train_test_split(lb[column[1:10]], lb[column[10]], test_size=0.25)
# 进行标准化处理 ## 不需要对目标值进行标准化
std = StandardScaler()
x_train = std.fit_transform(x_train)
x_test = std.transform(x_test)
lj=LogisticRegression(C = 1.0)
lj.fit(x_train, y_train)
print(lj.coef_)
y_predict = lj.predict(x_test)
print("准确率为:", lj.score(x_test, y_test))
print("每个类别的精确率和召回率:", classification_report(y_test, y_predict,labels=[2, 4], target_names=["良性", "恶性"]))
return None
if __name__ == '__main__':
ljhg()
【分類】SVMモデル
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
kernel='rbf', max_iter=-1, probability=False, random_state=None,
shrinking=True, tol=0.001, verbose=False)
## 加载所需的函数,
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
cancer = load_breast_cancer()
cancer_data = cancer['data']
cancer_target = cancer['target']
cancer_names = cancer['feature_names']
## 将数据划分为训练集测试集
cancer_data_train,cancer_data_test, \
cancer_target_train,cancer_target_test = \
train_test_split(cancer_data,cancer_target,
test_size = 0.2,random_state = 22)
## 数据标准化
stdScaler = StandardScaler().fit(cancer_data_train)
cancer_trainStd = stdScaler.transform(cancer_data_train)
cancer_testStd = stdScaler.transform(cancer_data_test)
## 建立SVM模型
svm = SVC().fit(cancer_trainStd,cancer_target_train)
print('建立的SVM模型为:\n',svm)
## 预测训练集结果
cancer_target_pred = svm.predict(cancer_testStd)
print('预测前20个结果为:\n',cancer_target_pred[:20])
## 求出预测和真实一样的数目
true = np.sum(cancer_target_pred == cancer_target_test )
print('预测对的结果数目为:', true)
print('预测错的的结果数目为:', cancer_target_test.shape[0]-true)
print('预测结果准确率为:', true/cancer_target_test.shape[0])
分類モデルを評価する
#接上页,评价分类模型
from sklearn.metrics import accuracy_score,precision_score, \
recall_score,f1_score,cohen_kappa_score
print('使用SVM预测breast_cancer数据的准确率为:',
accuracy_score(cancer_target_test,cancer_target_pred))
print('使用SVM预测breast_cancer数据的精确率为:',
precision_score(cancer_target_test,cancer_target_pred))
print('使用SVM预测breast_cancer数据的召回率为:',
recall_score(cancer_target_test,cancer_target_pred))
print('使用SVM预测breast_cancer数据的F1值为:',
f1_score(cancer_target_test,cancer_target_pred))
print('使用SVM预测breast_cancer数据的Cohen’s Kappa系数为:',
cohen_kappa_score(cancer_target_test,cancer_target_pred))
#输出分类模型评价报告函数
from sklearn.metrics import classification_report
print('使用SVM预测iris数据的分类报告为:','\n',
classification_report(cancer_target_test,
cancer_target_pred))
from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt
## 求出ROC曲线的x轴和y轴
fpr, tpr, thresholds = \
roc_curve(cancer_target_test,cancer_target_pred)
plt.figure(figsize=(10,6))
plt.xlim(0,1) ##设定x轴的范围
plt.ylim(0.0,1.1) ## 设定y轴的范围
plt.xlabel('False Postive Rate')
plt.ylabel('True Postive Rate')
plt.plot(fpr,tpr,linewidth=2, linestyle="-",color='red')
plt.show()
import pandas as pd
from sklearn.svm import SVC
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
abalone = pd.read_csv('F:\\python\\abalone.data',sep=',')
## 将数据和标签拆开
abalone_data = abalone.iloc[:,:8]
abalone_target = abalone.iloc[:,8]
## 连续型特征离散化
sex = pd.get_dummies(abalone_data['sex'])
abalone_data = pd.concat([abalone_data,sex],axis = 1 )
abalone_data.drop('sex',axis = 1,inplace = True)
## 划分训练集,测试集
abalone_train,abalone_test, \
abalone_target_train,abalone_target_test = \
train_test_split(abalone_data,abalone_target,
train_size = 0.8,random_state = 42)
## 标准化
stdScaler = StandardScaler().fit(abalone_train)
abalone_std_train = stdScaler.transform(abalone_train)
abalone_std_test = stdScaler.transform(abalone_test)
## 建模
svm_abalone = SVC(kernel = 'linear',C=1).fit(abalone_std_train,abalone_target_train)
#改变核函数的方法
print('建立的SVM模型为:','\n',svm_abalone )
# 代码 6-23
abalone_target_pred = svm_abalone.predict(abalone_std_test)
print('abalone数据集的SVM分类报告为:\n',
classification_report(abalone_target_test,abalone_target_pred))