1.以下哪个不是主成分分析的作用(D)。
A.降低所研究数据空间的维度
B.用主成分分析法构建回归模型
C.用主成分分析筛选回归变量
D.可以对输入数据做线性变换和非线性变换
解析:
主成分分析方法的主要作用:降低所研究数据空间的维度;用主成分分析法构建回归模型;用主成分分析筛选回归变量;多维数据的一种图形表示方法;可以通过因子负荷aij的结论,弄清X变量间的某些关系;选项D:主成分分析法只能做线性变换,所以D项错误。
2.对列表listname中元素进行删除操作,哪个是根据元素值来进行删除操作的方法或函数(C)。
A.del listname[]
B.listname.pop()
C.listname.remove()
D.listname.clear()
解析:
A选项和B选项都是根据列表中的索引值来删除元素的操作;
D选项,则是删除列表中的所有元素的操作;
C选项,是根据列表中的元素值来进行元素的删除;所以选择C选项。
3.以下为DataFrame类型数据df:
Name |
Goodlabel |
|
0 | Xiaoming |
001 |
1 | Liming |
003 |
2 | Daming |
005 |
3 | Zhongming |
006 |
4 | Liming |
011 |
5 | Lining |
002 |
选项中哪个不能够提取出Name列中含有姓名为"Liming"的行(D)。
A.df[df['Name']=='Liming']
B.df[df['Name'].str.contains('Liming')]
C.df[df['Name'].str.contains('Lim*')]
D.df[df['name'].str.startswith('Li')]
解析:
A. 使用完全匹配操作符:首先“==”获取为True的pandas.Series,然后再提取为True的行;
B.部分匹配操作符:str.contains()包含一个特定字符串,返回bool数据,再提取为True的行;
C.和B的方式一样,只是搜索方式转换为正则表达式搜索;
D.str.startswith()可以获取以特定字符串开头的pandas.Series;
故正确答案选择D。
4.下列哪个选项不是处理数据中缺失值的方法(C)。
A.df.dropna()
B.df.fillna()
C.np.empty()
D.sklearn.impute.SimpleImputer()
解析:
A选项,采用pandas库中的dropna()函数来丢掉DataFrame数据中存在缺失值的样本;
B选项,采用pandas库中的fillna() 函数来填充缺失值;
C选项,np.empty()函数创建未初始化的数组,并不是处理缺失值的方法;
D选项,采用的用sklearn包中的impute的SimpleImputer();
函数来对缺失值进行填充;因此选择不正确的应该选择C选项。
5.以下选项中哪项不是数据标准化的方法(B)。
A.Z-score方法
B.PCA方法
C.Min-Max标准化
D.极大化法
解析:
经常使用的标准化方法包括:极差标准化法(min-max方法);Z-score标准化法;线性比例标准化法:极大化法、极小值法、log函数标准化法和反正切函数标准化法;PCA方法又名主成分分析方法,是一种数据降维方法,并不是标准化方法。