案例:该数据集的是一个关于每个学生成绩的数据集,接下来我们对该数据集进行分析,判断学生是否适合继续深造
数据集特征展示
1GRE 成绩 (290to 340)
2TOEFL 成绩(92to 120)
3学校等级 (1to 5)
4自身的意愿 (1to 5)
5推荐信的力度 (1to 5)
6CGPA成绩 (6.8to 9.92)
7是否有研习经验 (0or1)
8读硕士的意向 (0.34to 0.97)
导入包
导入并查看数据集
df = pd.read_csv("D:\\machine-learning\\score\\Admission_Predict.csv",sep = ",")<br>print('There are ',len(df.columns),'columns')<br>for c in df.columns:<br> sys.stdout.write(str(c)+', '
There are 9columns
Serial No., GRE Score, TOEFL Score, University Rating, SOP, LOR , CGPA, Research, Chance of Admit , <br>一共有9列特征
df.info()
<class'pandas.core.frame.DataFrame'>
RangeIndex: 400entries, 0to 399
Data columns (total 9columns):
Serial No. 400non-null int64
GRE Score 400non-null int64
TOEFL Score 400non-null int64
University Rating 400non-null int64
SOP 400non-null float64
LOR 400non-null float64
CGPA 400non-null float64
Research 400non-null int64
Chance of Admit 400non-null float64
dtypes: float64(4), int64(5)
memory usage: 28.2KB<br><br>数据集信息:<br>1.数据有9个特征,分别是学号,GRE分数,托福分数,学校等级,SOP,LOR,CGPA,是否参加研习,进修的几率<br>2.数据集中没有空值<br>3.一共有400条数据
# 整理列名称
df =df.rename(columns={'Chance of Admit ':'Chance of Admit'})<br># 显示前5列数据<br>df.head()
3.查看每个特征的相关性
结论:
1.最有可能影响是否读硕士的特征是GRE,CGPA,TOEFL成绩
2.影响相对较小的特征是LOR,SOP,和Research
4.数据可视化,双变量分析
4.1 进行Research的人数
结论:进行research的人数是219,本科没有research人数是181
4.2 学生的托福成绩
结论:最低分92分,最高分满分,进修学生的英语成绩很不错
4.3 GRE成绩
结论:310和330的分值的学生居多
4.4 CGPA和学校等级的关系
结论:学校越好,学生的GPA可能就越高
4.5 GRE成绩和CGPA的关系
结论:GPA基点越高,GRE分数越高,2者的相关性很大
4.6 托福成绩和GRE成绩的关系
结论:多数情况下GRE和托福成正相关,但是GRE分数高,托福一定高。
4.6 学校等级和是否读硕士的关系
结论:排名靠前的学校的学生,进修的可能性更大
4.7 SOP和GPA的关系
结论: GPA很高的学生,选择读硕士的自我意愿更强烈
4.8 SOP和GRE的关系
结论:读硕士意愿强的学生,GRE分数较高
5.模型
5.1 准备数据集
5.2 回归
5.2.1 线性回归