Python根据成绩分析系统浅析

案例:该数据集的是一个关于每个学生成绩的数据集,接下来我们对该数据集进行分析,判断学生是否适合继续深造

数据集特征展示

1GRE 成绩 (290to 340)

2TOEFL 成绩(92to 120)

3学校等级 (1to 5)

4自身的意愿 (1to 5)

5推荐信的力度 (1to 5)

6CGPA成绩 (6.8to 9.92)

7是否有研习经验 (0or1)

8读硕士的意向 (0.34to 0.97)

导入包

导入并查看数据集

df = pd.read_csv("D:\\machine-learning\\score\\Admission_Predict.csv",sep = ",")<br>print('There are ',len(df.columns),'columns')<br>for c in df.columns:<br> sys.stdout.write(str(c)+', '

There are 9columns

Serial No., GRE Score, TOEFL Score, University Rating, SOP, LOR , CGPA, Research, Chance of Admit , <br>一共有9列特征

df.info()

<class'pandas.core.frame.DataFrame'>

RangeIndex: 400entries, 0to 399

Data columns (total 9columns):

Serial No.   400non-null int64

GRE Score   400non-null int64

TOEFL Score   400non-null int64

University Rating 400non-null int64

SOP     400non-null float64

LOR     400non-null float64

CGPA     400non-null float64

Research    400non-null int64

Chance of Admit  400non-null float64

dtypes: float64(4), int64(5)

memory usage: 28.2KB<br><br>数据集信息:<br>1.数据有9个特征,分别是学号,GRE分数,托福分数,学校等级,SOP,LOR,CGPA,是否参加研习,进修的几率<br>2.数据集中没有空值<br>3.一共有400条数据

# 整理列名称

df =df.rename(columns={'Chance of Admit ':'Chance of Admit'})<br># 显示前5列数据<br>df.head()

3.查看每个特征的相关性

结论:

1.最有可能影响是否读硕士的特征是GRE,CGPA,TOEFL成绩

2.影响相对较小的特征是LOR,SOP,和Research

4.数据可视化,双变量分析

4.1 进行Research的人数

结论:进行research的人数是219,本科没有research人数是181

4.2 学生的托福成绩

结论:最低分92分,最高分满分,进修学生的英语成绩很不错

4.3 GRE成绩

结论:310和330的分值的学生居多

4.4 CGPA和学校等级的关系

结论:学校越好,学生的GPA可能就越高

4.5 GRE成绩和CGPA的关系

结论:GPA基点越高,GRE分数越高,2者的相关性很大

4.6 托福成绩和GRE成绩的关系

结论:多数情况下GRE和托福成正相关,但是GRE分数高,托福一定高。

4.6 学校等级和是否读硕士的关系

结论:排名靠前的学校的学生,进修的可能性更大

4.7 SOP和GPA的关系

结论: GPA很高的学生,选择读硕士的自我意愿更强烈

4.8 SOP和GRE的关系

结论:读硕士意愿强的学生,GRE分数较高

5.模型

5.1 准备数据集

5.2 回归

5.2.1 线性回归

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/89738173