1.下列代码中绘制饼状图的是(D)。
A.plt.boxplot()
B.plt.plot()
C.plt.bar()
D.plt.pie()
解析:
A.boxplot()用于绘制箱线图;
B.plot()绘制折线图;
C.bar()绘制柱状图;
D.pie()绘制饼状图;
故正确答案选D。
2.造成缺失值的因素有哪些(D)。
①信息暂时无法获取 ②因人为因素没有被记录 ③获取这些信息的代价太大
④有些对象的某个或某些属性是不可用的 ⑤系统实时性能要求较高
A.①②③
B.①③④
C.③④⑤
D.①②③④⑤
解析:
缺失值产生的原因:
信息暂时无法获取。如某种产品的收益等具有滞后效应;
数据因人为因素没有被记录、遗漏或丢失,这个是数据缺失的主要原因;
数据采集设备的故障、存储介质、传输媒体故障而造成数据丢失;
获取这些信息的代价太大;
有些对象的某个或某些属性是不可用的;如:未婚者的配偶姓名、儿童的固定收入状况等;
系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策。
3.plt.title("right bottom", y=0, loc='right')其中,loc代表的是什么(C)。
A.标题文本颜色
B.标题尺寸
C.标题位置
D.字体属性
解析:
plt.title()函数中存在两个控制位置的参数,一个是y,另外一个就是loc参数。y参数控制标题在子图中的垂直距离,单位为子图高度的百分比,1.0为子图最顶部,0为子图最底部。loc参数控制取值范围为左、中、右,默认值为中;fontdict参数的类型为字典,控制文本的字体属性,包文本颜色、文本尺寸等信息。
4.两变量之间线性相关程度越强,则相关系数r(A)。
A绝对值越接近1
B绝对值越接近0
C越接近1
D越接近0
解析:
两个线性相关变量之间的相关系数r,r的绝对值越接近于1,表示两个变量的线性相关性越强。当r为1是表示完全相关;当r=0时,表示完全不相关;当r为正数时,表示两个变量为正相关,当r为负数时,表示两个变量为负相关;因此正确答案应该选择A。
5.以下为DataFrame类型数据df:
Name |
Goodlabel |
|
0 | Xiaoming |
001 |
1 | Liming |
003 |
2 | Daming |
005 |
3 | Zhongming |
006 |
4 | Liming |
011 |
5 | Lining |
002 |
选项中哪种操作不能够实现将列名’Goodlabel’换为’label’(D)。
A.df.columns=['Name','label']
B.df=pd.read_excel("C:/.../工作簿1.xlsx",columns=['Name','label'])
C.df.rename(columns={'Goodlabel':’label’})
D.df.rename(columns={'Goodlabel':’label’},inplace=True)
解析:
A.直接通过暴力手段修改df的列名称;
B.在pandas读取excle数据列表的时候,直接在读取时更改列名;
C.和D.选项是一样的方法,使用rename函数修改指定列的列名,但是后面的需要使用inplace参数,并设置为True,因此选择D选项。