url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_1d = np.genfromtxt(url, delimiter=',', dtype=None)

#方法1
iris_2d = np.array([row.tolist()[:4] for row in iris_1d])
iris_2d[:4]

#方法2
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
iris_2d[:4]

28、求numpy.ndarray的均值、中位数、标准差

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
sepallength = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0])

mu, med, sd = np.mean(sepallength), np.median(sepallength), np.std(sepallength)
print(mu, med, sd)

29、归一化numpy.ndarray使其值分布在0到1之间

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
sepallength = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0])

#方法1
Smax, Smin = sepallength.max(), sepallength.min()
S = (sepallength - Smin)/(Smax - Smin)
#方法2
S = (sepallength - Smin)/sepallength.ptp() 
S

30、求numpy.ndarray的softmax score

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = np.genfromtxt(url, delimiter=',', dtype='object')
sepallength = np.array([float(row[0]) for row in iris])

def softmax(x):
    """Compute softmax values for each sets of scores in x.
    https://stackoverflow.com/questions/34968722/how-to-implement-the-softmax-function-in-python"""
    e_x = np.exp(x - np.max(x))
    return e_x / e_x.sum(axis=0)

print(softmax(sepallength))

31、求numpy.ndarray的分位数

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
sepallength = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0])

np.percentile(sepallength, q=[5, 95])

32、numpy.ndarray的随机位置插入值

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='object')

#方法1
i, j = np.where(iris_2d)


np.random.seed(100)
iris_2d[np.random.choice((i), 20), np.random.choice((j), 20)] = np.nan

#方法2
np.random.seed(100)
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

print(iris_2d[:10])

33、提取numpy.ndarray缺省值坐标

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

print("Number of missing values: \n", np.isnan(iris_2d[:, 0]).sum())
print("Position of missing values: \n", np.where(np.isnan(iris_2d[:, 0])))

34、按多个条件过滤numpy.ndarray

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])

condition = (iris_2d[:, 2] > 1.5) & (iris_2d[:, 0] < 5.0)
iris_2d[condition]

35、过滤numpy.ndarray中包含缺省值得行

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris_2d = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0,1,2,3])
iris_2d[np.random.randint(150, size=20), np.random.randint(4, size=20)] = np.nan

#方法1
any_nan_in_row = np.array([~np.any(np.isnan(row)) for row in iris_2d])
iris_2d[any_nan_in_row][:5]

#方法2
iris_2d[np.sum(np.isnan(iris_2d), axis = 1) == 0][:5]

数据分析打工人常用NumPy 70个高频操作（上篇）

目录

1、numpy导入、查看版本

2、numpy创建1维数组

3、numpy创建布尔型数组

4、取出numpy.ndarray中满足条件的元素

5、用新值替换numpy.ndarray中满足条件的元素（数组本身已被修改）

6、用新值替换numpy.ndarray中满足条件的元素（数组本身不被修改）

7、numpy.ndarray从1维变换为2维

8、垂直方向堆积两个numpy.ndarray

9、水平方向堆积两个numpy.ndarray

10、numpy函数输出指定数组

11、两个numpy.ndarray提取交集

12、两个numpy.ndarray去除另外一个中出现的元素

13、提取两个numpy.ndarray相同元素的索引

14、提取numpy.ndarray中满足某个条件的元素

15、定义函数操作numpy.ndarray中元素

16、改变numpy.ndarray中两列顺序

17、改变numpy.ndarray中两行顺序

18、颠倒numpy.ndarray中各行顺序

19、颠倒numpy.ndarray中各列顺序

20、创建一个包含随机浮点数的numpy.ndarray

21、numpy.ndarray中所有元素保留三位小数

22、numpy.ndarray中所有元素使用科学计数法

23、大numpy.ndarray省略部分元素

24、大numpy.ndarray输出所有元素

25、numpy.ndarray导入数据

26、取出numpy.ndarray中某列

27、一维numpy.ndarray转2维

28、求numpy.ndarray的均值、中位数、标准差

29、归一化numpy.ndarray使其值分布在0到1之间

30、求numpy.ndarray的softmax score

31、求numpy.ndarray的分位数

32、numpy.ndarray的随机位置插入值

33、提取numpy.ndarray缺省值坐标

34、按多个条件过滤numpy.ndarray

35、过滤numpy.ndarray中包含缺省值得行

猜你喜欢