牛客网专项练习Pytnon分析库（八）

1.以下选项中哪些是数据离散程度的衡量指标（D）。

①极差 ②四分位差 ③方差 ④标准差 ⑤平均差 ⑥变异系数 ⑦众数

A.①②③④

B.①②③④⑤⑦

C.①③④⑤

D.①②③④⑤⑥

解析：

用来衡量数据离散程度的指标包括：极差、四分位差、方差、标准差、平均差和变异系数；A和C选项包含不完整，因此错误；众数不是衡量数据离散程度的指标，所以B选项错误。

2.Python Pandas处理缺失值，以下选项中哪个是将缺失值NaN用前一组数据进行填充（C）。

A.df.fillna(0)

B.df.fillna(1)

C.df.fillna(method='ffill')

D.df.fillna(method='bfill')

解析：

在Python Pandas处理缺失值操作中，fillna()函数是用来填充空缺值NaN时使用。Fillna(0)和fillna(1)表示分别使用0和1填充空缺值；fillna()中method参数用来控制向前和向后填充NaN，method=’ffill’表示向前填充，bfill() 表示向后填充。因此选择C选项。

3.进行数据处理过程中，需要对DataFrame数据进行排序，以下哪种方法是按值排序从大到小顺序排列的（B）。

A.sort_index(, ascending=False)

B.sort_values(, ascending=False)

C.sort_index(, ascending=True)

D.sort_values(, ascending=True)

解析：

Pands 提供两种排序方法，分别是按标签排序和按数值排序。按照标签排序的话采用的是sort_index()函数；按照值排序的话采用sort_values() 函数；两个函数都有一个控制排序顺序参数ascending，ascending=False时由大到小排序，ascending=True时由小到大排序。故选择B选项。

4.使用箱线图四分位距(IQR)对异常进行检测，下列哪种说法是错误的（D）。

A.第一四分位数与第三四分位数的差距称四分位距

B.值大于上四分位+1.5*IQR为异常值

C.值小于"下四分位-1.5*IQR"为异常值

D.中位数必然等于第三四分位数与第一四分位数的算术平均数

解析：

A项，四分位距(IQR)定义：第一四分位数与第三四分位数的差距称四分位距；

B、C项，处理异常值时候，一般使用IQR的1.5倍为标准，值大于上四分位+1.5*IQR为异常值，值小于"下四分位-1.5*IQR"为异常值；

D项:对一个对称性分布数据，中位数必然等于第三四分位数与第一四分位数的算术平均数，选项描述前提条件不完整，故选D。

5.以下选项中哪个是numpy库中的拼接函数（B）。

A.join()

B.concatenate()

C.concat()

D.merge()

解析：

join()方法、concat() 方法和merge()方法都是属于pandas库中的拼接函数；concatenate()方法属于numpy库中的拼接的方法，除此之外numpy库中拼接的方法还有np.append() 、np.stack()、 np. Hstack()、np.vstack()和np.vstack()等操作。

牛客网专项练习Pytnon分析库（八）

猜你喜欢