牛客网专项练习Pytnon分析库(八)

1.以下选项中哪些是数据离散程度的衡量指标(D)。

①极差 ②四分位差 ③方差 ④标准差 ⑤平均差 ⑥变异系数 ⑦众数

A.①②③④

B.①②③④⑤⑦

C.①③④⑤

D.①②③④⑤⑥

解析:

       用来衡量数据离散程度的指标包括:极差、四分位差、方差、标准差、平均差和变异系数;A和C选项包含不完整,因此错误;众数不是衡量数据离散程度的指标,所以B选项错误。


2.Python Pandas处理缺失值,以下选项中哪个是将缺失值NaN用前一组数据进行填充(C)。

A.df.fillna(0)

B.df.fillna(1)

C.df.fillna(method='ffill')

D.df.fillna(method='bfill')

解析:

       在Python Pandas处理缺失值操作中,fillna()函数是用来填充空缺值NaN时使用。Fillna(0)和fillna(1)表示分别使用0和1填充空缺值;fillna()中method参数用来控制向前和向后填充NaN,method=’ffill’表示向前填充,bfill() 表示向后填充。因此选择C选项。


3.进行数据处理过程中,需要对DataFrame数据进行排序,以下哪种方法是按值排序从大到小顺序排列的(B)。

A.sort_index(, ascending=False)

B.sort_values(, ascending=False)

C.sort_index(, ascending=True)

D.sort_values(, ascending=True)

解析:

       Pands 提供两种排序方法,分别是按标签排序和按数值排序。按照标签排序的话采用的是sort_index()函数;按照值排序的话采用sort_values() 函数;两个函数都有一个控制排序顺序参数ascending,ascending=False时由大到小排序,ascending=True时由小到大排序。故选择B选项。


4.使用箱线图四分位距(IQR)对异常进行检测,下列哪种说法是错误的(D)。

A.第一四分位数与第三四分位数的差距称四分位距

B.值大于上四分位+1.5*IQR为异常值

C.值小于"下四分位-1.5*IQR"为异常值

D.中位数必然等于第三四分位数与第一四分位数的算术平均数

解析:

       A项,四分位距(IQR)定义:第一四分位数与第三四分位数的差距称四分位距;

       B、C项,处理异常值时候,一般使用IQR的1.5倍为标准,值大于上四分位+1.5*IQR为异常值,值小于"下四分位-1.5*IQR"为异常值;

      D项:对一个对称性分布数据,中位数必然等于第三四分位数与第一四分位数的算术平均数,选项描述前提条件不完整,故选D。


5.以下选项中哪个是numpy库中的拼接函数(B)。

A.join()

B.concatenate()

C.concat()

D.merge()

解析:

       join()方法、concat() 方法和merge()方法都是属于pandas库中的拼接函数;concatenate()方法属于numpy库中的拼接的方法,除此之外numpy库中拼接的方法还有np.append() 、np.stack()、 np. Hstack()、np.vstack()和np.vstack()等操作。

猜你喜欢

转载自blog.csdn.net/u013157570/article/details/129100701