牛客网专项练习Pytnon分析库(四)

1.存在一组DataFrame类型数据df,如下所示,需要删除数据中的索引标签为’b’和’d’的行,以下选项中操作有误的是哪个(B)。

Index/columns

X Y Z
a 0 5 10
b 1

NaN

11
c 2 7 12
d 3 8 NaN
e 4 9 14

A.df.drop(['b',’d’])

B.df.drop(df.index[[2,4]])

C.df.drop(['b','d'],axis=0)

D.df.dropna()

解析:

       drop()函数用来数据清洗的一种操作,删除dataFrame中的行或者列,dropna()函数是用来删除数据中存在空缺值的行或者列。

       A选项是根据索引名的方式对数据行的删除操作,A描述正确;

       B选项是采用索引值的的方式对数据进行删除,但是在DataFrame数据中行的索引号是从0开始计数,因此正确写法应该是.df.drop(df.index[[1,3]]),因此B项描述错误;

       C选项和A选项描述的是一种意思,drop()函数默认axis参数就为0,因此C描述正确;

       D选项是是删除含有空缺值的行,因此D选项描述正确。


2.在相关性分析中需要相关的两个变量(A)。

A.因变量是随机的量,自变量也是随机的量

B.因变量是随机的量,自变量是控制的量

C.因变量是控制的量,自变量是随机的量

D.因变量是控制的量,自变量也是控制的量

解析:

       进行相关性分析时,不必事先确定两个变量中哪个是自变量哪个是因变量,相关性分析中两个变量都是随机的变量。


3.存在一组numpy.ndarrry类型数据a=np.array([1,2,3,4])和各个数值的权重w=np.array([4,3,2,1]),以下哪种方法可以求得权重平均值(C)

A.np.mean()

B.np.nanmean()

C.np.average()

D.np.std()

解析:

       A. mean()的功能是求取平均值;

       B. nanmean()的功能是计算忽略NaN值的数组平均值。如果数组具有NaN值,我们可以找出不受NaN值影响的均值;

       C. mean() 和 average()都有取平均数的意思, 在不考虑加权平均的前提下,两者的输出是一样的 ,但是考虑权重的情况下, np.average(a,weights=w) 还可以计算加权平均值;

       D.std()计算矩阵或者数组的标准差;

       故正确答案选C。


4.进行数据预处理时,使用pandas模块中去重函数drop_duplicates,代码如下,选项中说法不正确的是(B)

df.drop_duplicates(subset=['A','B','C'],keep= ,inplace= )

A.参数subset用于指定要去重的列名

B.keep指定要保留行,有两个可选参数first和last

C.inplace表示是否要在原数据操作或者存为副本

D.去重后行标签不变,如需改变可使用df.reset_index()重置索引

解析:

       subset:表示要进行去重的列名,A项正确;

       keep:有三个可选参数,分别是 first、last、False,默认为 first,表示只保留第一次出现的重复项,删除其余重复项,last 表示只保留最后一次出现的重复项,False 则表示删除所有重复项;B项错误;

       inplace:布尔值参数,默认为 False 表示删除重复项后返回一个副本,若为 Ture 则表示直接在原数据上删除重复项;C项正确;

       重置索引函数为reset_index(),因此D正确;

       故正确答案选B。


5.下列关于sklearn中的train_test_split函数说法正确的是(D)。

A.数据集划分的比例是固定不变的

B.从样本中随机的按比例选取训练集、验证集和测试集

C.train_test_split函数是随机选取样本,所以无法保证每次数据一样

D.设置stratify参数,可以处理数据不平衡问题

解析:

       A项,数据集划分的比例可以通过test_size样本占比参数进行指定;

       B项,通过train_test_split函数只能划分训练集和测试集两个集合;

       C项,虽然train_test_split函数是从样本中随机的按比例选取训练数据和测试数据,但是可以通过random_state随机数的种子参数进行固定划分;

       D项,参数stratify可以处理数据类型不平衡问题,依据标签y,按原数据y中各类比例,分配给train和test,使得train和test中各类数据的比例与原数据集一致;

       故正确答案选D。

猜你喜欢

转载自blog.csdn.net/u013157570/article/details/129100312