記事ディレクトリ
1.実験目的
Hiring.csvには、候補者の実務経験、筆記試験の結果、個人面接の結果など、会社の採用情報が含まれています。これら3つの要素に基づいて、人事部門が賃金を決定します。このデータを使用して、人事部門が将来の候補者の給与を決定できるように、機械学習モデルを構築する必要があります。この予測給与を使用して、次の候補者の給与を予測します。
(1)2年の実務経験、テストスコア9、面接スコア6
(2)12年の実務経験、テストスコア10、面接スコア10
2.必要なモジュールをインポートしてデータを読み取る
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from word2number import w2n
df = pd.read_csv('hiring.csv')
df
3.データを処理する
3.1。現場でのデジタル化
df.experience = df.experience.fillna('zero') #NaN统一替换为zero
df
df.experience = df.experience.apply(w2n.word_to_num) #运用w2n.word_to_num将字母转化为数字
df
3.2。Test_score(10のうち)フィールドNaNは平均に置き換えられます
import math
median_test_score = math.floor(df['test_score(out of 10)'].mean()) #取平均数并向下取整
median_test_score
#输出
7
df['test_score(out of 10)'] = df['test_score(out of 10)'].fillna(median_test_score) #用平均数填充NaN
df
4.トレーニング+予測
reg = LinearRegression() #实例化模型
reg.fit(df[['experience','test_score(out of 10)','interview_score(out of 10)']],df['salary($)']) #训练
reg.coef_ #系数
reg.intercept_ #截距
reg.predict([[2,9,6]]) #预测一
reg.predict([[12,10,10]]) #预测二