python DataScience数据分析笔记day06

day06-矩阵-矢量函数转换-加法、除法、取余通用函数-三角函数-线性代数-傅里叶变换
       19、矩阵
           1、numpy.matrix 继承自 numpy.ndarray
               任何针对多维数值的操作，对矩阵同样有效，
               但作为子类矩阵又结合自身的特点，做了必要的
               扩充，比如：乘法、求逆
           2、矩阵对象三种创建方式：
               1、numpy.matrix(任何被解释为矩阵的二维容器，
                           copy=是否复制(默认为True))
                           返回矩阵对象
                           copy = False, 所得矩阵与源容器共享一份数据
                           copy = True，所得矩阵各自独立数据
               2、numpy.mat(...) <==> numpy.matrix (..., copy=False
                   mat不同于matrix之处在于其只能获取已有矩阵视图，
                   而无法得到拷贝。
               3、numpy.bmat(拼块规则)
                   函数可以将已定义的矩阵逐块拼接。
                   将小块矩阵拼接为大块矩阵
                   拼接块的维度必须相同
               以上三个都可接受字符串形式的矩阵描述，即：
                   数据项用空格分隔，数据行用分号分隔。
                                                                               |1 2 3|
                   例如：'1 2 3; 4 5 6;7 8 9'<==> |4 5 6|
                                                                               |7 8 9|
               数组相乘：对应元素相乘
               矩阵相乘：Amp * Bpn = Cmn
                                   计算第C[m,n]位置的元素值为：
                                   [Am行]*[Bn列]对应元素相乘后之和
                       如：求C[2,3]元素的值，则为
                               A第2行乘以 B第3列后的值
               求逆矩阵：矩阵.I
               代码：mat.py
               示例：
                   import numpy as np
                   a = np.array([[1,2,6],
                                               [3,5,7],
                                               [4,8,9]])
                   b = np.matrix(a)
                   c = np.mat('1 4 7;2 5 8;3 6 9')
                   d = np.bmat('c b')
                   print(np.bmat('c b ; b c'))
                   print(a * b)
                   print(b.I)
       20.通用函数
           1、frompyfunc转为矢量函数
               numpy.frompyfunc(标量函数,参数个数，返回值个数)
               转为矢量函数
               与17、矢量函数基本一致：numpy.vectorize(标量函数)(矢量)
               frompyfunc与vectorize比，比较早期应用。
           2.加法的通用函数add
               numpy.add.reduce() - 累加
               numpy.add.accumulate - 累加过程
               numpy.add.reduceat - 分段累加
               numpy.add.outer - 外和
               注意：numpy.outer - 外积
               代码：add.py
               示例：
                   import numpy as np
                   a = np.arange(1,7)
                   print(a)
                   b = np.add(a,a) # <==> a + a
                   print(np.add.reduce(a)) # 输出：21
                   print(np.add.accumulate(a)) #每次累加的过程：[ 1 3 6 10 15 21]
                   #按a的下标分为三段累加：第一段：a[0]及后面；第二段：a[2]及后面；第三段：a[4]及以后
                   print(np.add.reduceat(a,[0,2,4]))#分段累加，输出：[3 7 11]
                   #以下外和,输出：
                   #[11 12 13 14 15 16]
                   #[21 22 23 24 25 26]
                   #[31 32 33 34 35 36]]
                   print(np.add.outer([10,20,30],a))#外和
                   print(np.outer([10,20,30],a)) #外积
           3.除法的通用函数
               1)真除：numpy.divide、true_divide、/
                   无论运算数是整型还是浮点，运算结果都是浮点数，
                   保留小数。
               2)地板除(向下去整)：floor_divide、//
                   运算数是整型，运算结果也是整型，运算数是浮点，
                   运算结果也是浮点，向下去整。
               3)天花板取整
                   numpy.ceil()
               4)天花板除
                   先真除，然后天花板取整
                   numpy.ceil(numpy.divide(a))
               5)截断取整
                   numpy.trunc()
               6)截断除，也就是取整除
                   先真除，然后截断取整
                   numpy.trunc(numpy.divide(a))
               示例：
                   import numpy as np
                   a = np.array([5,5,-5,-5])
                   b = np.array([2,-2,2,-2])
                   print(np.true_divide(a,b)) #真除输出：[ 2.5 -2.5 -2.5 2.5]
                   print(np.divide(a,b)) #真除输出：[ 2.5 -2.5 -2.5 2.5]
                   print(a / b) #真除输出：[ 2.5 -2.5 -2.5 2.5]
                   print(np.floor_divide(a,b)) #地板除输出：[ 2 -3 -3 2]
                   print(a // b) #地板除输出：[ 2 -3 -3 2]
                   print(np.ceil(a/b)) #天花板取整输出：[ 3. -2. -2. 3.]
                   print(np.trunc(a / b)) #截断取整输出：[ 2. -2. -2. 2.]
           4.取余的通用函数
               1)取余numpy.remainder
               2)取模numpy.mod
               3)python取模： %
               4)获得截断除的模numpy.fmod
               示例：
                   import numpy as np
                   a = np.array([5,5,-5,-5])
                   b = np.array([2,-2,2,-2])
                   print(np.remainder(a , b)) #取余，输出：[ 1 -1 1 -1]
                   print(np.mod(a,b)) #取余，输出：[ 1 -1 1 -1]
                   print(a % b) #取余，输出：[ 1 -1 1 -1]
                   print(np.fmod(a , b)) #截断除后取余，输出：[ 1 1 -1 -1]
           5.Numpy将Python语言中针对标量的运算符，
               通过通用函数加以重载定义，以支持数组的矢量运算。
               斐波那契数列
               1 1 2 3 5 8 13 ...
               Fn = Fn-1 + Fn-2, n>=3
               示例：
                   import numpy as np
                   n = 35
                   #方法一：递归
                   def fibo(n):
                           return 1 if n<3 else fibo(n-1) + fibo(n-2)
                   #方法二：循环
                   def fiboFor(n):
                           fn1,fn2=0,1
                           for i in range(n):
                                   fn = fn1 + fn2
                                   fn1,fn2 = fn,fn1
                           return int(fn)
                   #方法三：numpy矩阵
                   def fiboNumpy(n):
                           E = np.mat('1. 1. ; 1. 0.')
                           fibo = int((E ** (n-1))[0,0])
                           return fibo
                   #方法四：公式法
                   def fibogs(n):
                           r = np.sqrt(5)
                           return int((((1+r)/2) ** n - ((1-r)/2) ** n) / r)
                   print(fibogs(n))
                   print(fiboNumpy(n))
                   print(fiboFor(n))
                   print(fibo(n))
           6.三角函数
               在numpy中所有的标准三角函数都是通用函数，
               可对数组或矩阵中的每个元素求取其三角函数的值，
               构成值数组或值矩阵。
               李萨如曲线：
               x = Asin(at+pi/2) A:正负，a:角频率, pi/2:初相位
               y = Bsin(bt)
               代码：lissa.py
               示例李萨如：
                   import numpy as np
                   import matplotlib.pyplot as mp
                   t = np.linspace(0,2 * np.pi,201)
                   A,a,B,b = 10,1,5,2
                   x = A * np.sin(a * t + np.pi/2 )
                   y = B * np.sin(b * t)
                   mp.figure('Lissajous',facecolor='lightgray')
                   mp.title('Lissajous',fontsize=20)
                   mp.xlabel('x',fontsize=14)
                   mp.ylabel('y',fontsize=14)
                   mp.tick_params(labelsize=10)
                   mp.grid(linestyle=':')
                   mp.plot(x,y,c='orangered',label='Lissajous')
                   mp.legend()
                   mp.show()
               信号发生器方波：若干不同频率的正玄波叠加，就会形成方波
               y1 = 4/pi * sin(x)
               y2 = 4/(3pi) * sin(3x)
               yn...4/(奇数pi) * sin(奇数x)
               y1+y2+..+yn
                           将方波分解成正弦波，三角波等，叫：傅里叶分解
               是信号发生器方波的逆运算
               示例:
                   import numpy as np
                   import matplotlib.pyplot as mp
                   def squarewave(n):
                           k = np.arange(1,n+1)
                           def fun(x):
                                   return np.sum(4 / ((2 * k -1) * np.pi) *
                                                               np.sin((2*k - 1) * x ))
                           return np.frompyfunc(fun,1,1)
                   x = np.linspace(0,2 * np.pi,201)
                   y1 = squarewave(1)(x)
                   y2 = squarewave(2)(x)
                   y3 = squarewave(3)(x)
                   y4 = squarewave(10)(x)
                   y5 = squarewave(100)(x)
                   y6 = squarewave(1000)(x)
                   mp.figure('squarewave',facecolor='lightgray')
                   mp.title('squarewave',fontsize=20)
                   mp.xlabel('x',fontsize=14)
                   mp.ylabel('y',fontsize=14)
                   mp.tick_params(labelsize=10)
                   mp.grid(linestyle=':')
                   # mp.plot(x,y1,label='n=1')
                   # mp.plot(x,y2,label='n=2')
                   # mp.plot(x,y4,label='n=10')
                   # mp.plot(x,y5,label='n=100')
                   mp.plot(x,y6,label='n=1000')
                   mp.legend()
                   mp.show()
           7.位运算
               1)异或：^/__xor__/bitwise_xor
                   1^0=1
                   1^1=0
                   0^0=0
                   0^1=1
                   相异取真, 相同得假
                   如判断a b是否正负异号：
                       方法之一：a * b < 0 ，则a与b异号
                       方法之二：a ^ b < 0 , 则a与b异号，
                           这样的效率比方法一高
                   示例：
                       import numpy as np
                       a = np.array([0,-1,2,-3,4,-5])
                       b = np.array([0,1,2,3,4,5])
                       c = a ^ b
                       print (c)
                       print(np.where(c < 0)[0])
               2)与：& / __and__ / bitwise_and
                   1&0=0
                   1&1=1
                   0&0=0
                   0&1=0
                   都为真时，才是真
                   如果一个整数n和n-1位进行"与"运算的结果为0，
                   则n一定是2的整数次幂。
                   即：n & (n-1) = 0 ，则n是2的幂
                   示例：
                       d = np.arange(1,20)
                       e = d & (d -1)
                       print(e)
                       print(d[e == 0])
               3)或：| / or / bitwise_or
                   只要有一个为真，即为真
               4)取反： ~ / __not__ / bitwise_not
               5)移位：
                   左移位：<< / __lshift__ / bitwise_left
                       左移一位，则乘2，移多位，则为乘2的n次方
                   右移为：>> /__rshift__ / bitwise_right
                       右移一位，则除2，移多位，则为除以2的n次方
   五、numpy的模块
       1.线性代数模块(linalg)
           1)矩阵求逆：inv
               在线性代数中，
               矩阵A与矩阵B的乘积是一个单位矩阵E，
               那么A和B互为逆矩阵,即为：
               AxB=E ==> A^-1 = B
               B = numpy.linalg.inv(A)
               将以上定义推广到非方阵，则称为广义逆矩阵
               np.linalg.pinv(A) --> A^-1
               np.matrix.I(A)-->如果A是方阵，则可用inv
                                               如果非方阵，则可用pinv
               示例：
                   import numpy as np
                   A = np.mat('1 2 3;8 9 4;7 6 5')
                   B = np.linalg.inv(A) #A的逆矩阵
                   print(B)
                   print(A.I)#A的逆矩阵
                   c = np.mat('11 12 13 14;20 21 22 15;19 18 17 16')
                   print(c)
                   d = np.linalg.pinv(c)#广义逆矩阵
                   print(d)
                   print(c * d)
                   print(c.I)
           2)解线性方程组
                       x-2y+ z =0
                           2y-8z-8=0
                   -4x+5y+9z+9=0

                   1x + -2y + 1z = 0
                   0x + 2y + -8z = 8
                   -4x + 5y + 9z = -9

                   | 1 -2 1 | | x | | 0 |
                   | 0 2 -8 | * | y | = | 8 |
                   |-4 5 9 | | z | | -9 |

                           A x B
                   方法一：拟合方法
                       x = nump.linalg.lstsq(A,B)[0]
                       未知数少于方程数时，会求近似值
                   方法二：解方程
                       x = numpy.linalg.solve(A, B)
                       得到精确值，如果未知数少于方程数，会报错
               示例：
                   import numpy as np
                   A = np.mat('1 -2 1;0 2 -8;-4 5 9')
                   B = np.mat('0;8;-9')
                   x1 = np.linalg.solve(A,B)
                   x2 = np.linalg.lstsq(A,B)[0]
                   print(x1)
                   print(x2)
           3)特征向量和特征值
                   对于n阶方阵A，如果存在数a和非零n维列向量x，
                   使得Ax=ax成立，则称a是矩阵A的一个特征值，
                   x是矩阵A属于特征值a的特征向量。
                   numpy.linalg.eigvals(A) ==> 输出特征值
                   numpy.linalg.eig(A) ==> 可得出a 和 x，
                                               即特征数组和特征向量数组
                       [ a1 a2]
                       [x11 x12]
                       [x21 x22]
                   示例：
                       import numpy as np
                       A = np.mat('3 -2;1 0')
                       eigvals,eigvecs = np.linalg.eig(A) #输出特征值和特征向量
                       print(eigvals) #输出特征值
                       print(eigvecs) #输出特征向量
                       print(A * eigvecs[:,0]) # 即概念中的A*x
                       print(eigvals[0]*eigvecs[:,0]) #即概念中的ax
                       #即：A*x = a*x
           4)奇异分解(矩阵中的因式分解)
               若：M=U * S * V，
               其中U和V是正交矩阵，即U*U.T=E=V*V.T，
                       U.T，V.T为转置矩阵， E是单位矩阵
               S被称为M的奇异值矩阵。
               U, s, V = numpy.linalg.svd(M,full_matrices=False)
               full_matrices是否填充，False表示自然状态，不填充
               其中的s只是奇异值矩阵的主对角线，
               S=numpy.diag(s) 获得奇异值
               应用场景：人脸识别，要忽略细微差异，
                       获得关键因素，要降低维度
               代码：usv.py
               示例：
                   import numpy as np
                   M = np.mat('4 11 14;8 7 -2')
                   U , s, V = np.linalg.svd(M, full_matrices=False)
                   print(U * U.T)
                   print(s) #输出奇异值对角线
                   print(V * V.T)
                   S = np.diag(s)
                   print(S)#输出奇异值
                   print(U * S * V)
           6)行列式的值
               | a b | = ad - bc
               | c d |
               | a b c | = a |e f| - b |d f| + c |d e|
               | d e f | |h i| |g i| |g h|
               | g h i | a的(余子式) b的(余子式) c的(余子式)
                                   =a(ei-fh)-b(di-fg)+c(dh-eg)
                                           =aei-afh-bdi+bfg+cdh-ceg
               numpy.linalg.det(矩阵) -> 行列式值
               示例：
                   import numpy as np
                   A = np.mat('2 1;3 4')
                   print(np.linalg.det(A))
                   B = np.mat('3 2 1;4 9 8;5 6 7')
                   print(np.linalg.det(B))
       2.快速傅立叶变换(Fast Fourier Transform, FFT)
           傅立叶定理：任何一个函数，都可以分解为一系列正玄函数的叠加
               即：原函数：y = f(x) ,也叫时空域函数
               可分解为：一系列正玄函数的叠加，
                               只是这些正玄函数的角频率ω，相位φ
               y=A1sin(ω1x+φ1)+A2sin(ω2x+φ2)+ ...+
                   Ansin(ωnx+φn)+ R
                   当n-> ∞ 时，R 会逼近于0
               意义：将一个复杂函数用无数个简单函数(sin函数)表示
           快速傅里叶：
               通过已知的样本，[x1,x2,...,xn] [y1,y2,...,yn]，即离散的样本值
               获得离散傅里叶，再进行优化，就成了快速傅里叶
               ω1 --> A1,φ1 \
               ω2 --> A2,φ2 | 即转为：A,φ = f(ω) 频率域函数
               ... | A是振幅， φ是初相位，ω是频率
               ωn --> An,φn /
           即：傅立叶变换实际就是：将时空域函数转变为频率域函数，是一个分解过程
                   傅里叶逆变换就是：将频率域函数转变为时空域函数，是一个合成的过程
           numpy.fft.fftfreq(样本数n, 采样周期dt) --> 输出频率序列ω
           numpy.fft.fft(原函数序列f) --> 获得目标函数值序列,是一个复数序列
               复数的模反映了振幅A，辐角反映了初相位φ
               即：傅里叶变换
           numpy.fft.ifft(目标函数值序列(复数))-->获得原函数值序列
               即：傅里叶逆变换
           示例：
               import numpy as np
               import numpy.fft as nf
               import matplotlib.pyplot as mp
               times = np.linspace(0,2 * np.pi,201)
               sigs1 = 4/(1*np.pi) * np.sin(1*times)
               sigs2 = 4/(3*np.pi) * np.sin(3*times)
               sigs3 = 4/(5*np.pi) * np.sin(5*times)
               sigs4 = 4/(7*np.pi) * np.sin(7*times)
               sigs5 = 4/(9*np.pi) * np.sin(9*times)
               #合成原函数
               sigs6 = sigs1 + sigs2 + sigs3 + sigs4 + sigs5
               #将原函数进行傅里叶变换
               freqs = nf.fftfreq(times.size,times[1] - times[0])
               ffts = nf.fft(sigs6)
               pows = np.abs(ffts) #得复数模
               #傅里叶逆变换
               sigs7 = nf.ifft(ffts).real #real，要实部
               mp.figure('快速傅里叶变换',facecolor='lightgray')
               mp.subplot(121)
               mp.title('TimeDomain',fontsize=16)
               mp.xlabel('Time',fontsize=12)
               mp.ylabel('Signal',fontsize=12)
               mp.tick_params(labelsize=10)
               mp.grid(linestyle=':')
               mp.plot(times,sigs1,label='{:.4f}'.format(1/(2*np.pi)))
               mp.plot(times,sigs2,label='{:.4f}'.format(3/(2*np.pi)))
               mp.plot(times,sigs3,label='{:.4f}'.format(5/(2*np.pi)))
               mp.plot(times,sigs4,label='{:.4f}'.format(7/(2*np.pi)))
               mp.plot(times,sigs5,label='{:.4f}'.format(9/(2*np.pi)))
               mp.plot(times,sigs6,label='{:.4f}'.format(1/(2*np.pi)))
               mp.plot(times,sigs7,label='{:.4f}'.format(1/(2*np.pi)),
                               alpha=0.5,linewidth=6)
               mp.legend()
               mp.subplot(122)
               mp.title('Frequency',fontsize=16)
               mp.xlabel('Frequency',fontsize=12)
               mp.ylabel('Power',fontsize=12)
               mp.tick_params(labelsize=10)
               mp.grid(linestyle=':')
               mp.plot(freqs[freqs >= 0],pows[freqs >= 0],label='Frequency')
               mp.legend()
               mp.tight_layout()
               mp.show()
           代码：fourier.py
                                                                           逆向傅立叶变换
           低频信号<------------------------------------------------低
                       | 叠加傅立叶变换低通滤波频
                       +----> 含噪信号 ------------> 含噪频谱 ---------->频
                       | 谱
           高频噪声
           代码：filter.py
           fftfreq/fft : 0 1 2 3 ... 1000 -1000 ... -3 -2 -1 0
           由numpy.fft.fftfreq/numpy.fft.fft函数返回的频谱数组，按照从0到+max再从-max到0的顺序排列，
           通过numpy.fft.fftshift函数做移频操作，可将其变为-max到+max的排列顺序，
           numpy.fft.ifftshift可完成相反的移频操作。
           day07---------------------------------------------------
           基于傅里叶变换的频域滤波：
                           ______________________________________
                       | IFFT |
                       V |
                   高能信号\ |
                                   |>含噪信号---->含噪频谱-------->高能频谱
                   低能噪声/ FFT 频域滤波

                   numpy.fft.FFT(原函数序列f)：傅里叶变换
                   numpy.fft.IFFT()：傅里叶逆变换
                   numpy.fft.fftfreq(样本数量，采样周期)：
                       获得频谱数组,从0到+max再从-max到0排列
                   numpy.fft.fftshift：移频操作，变为-max到+max顺序
                   numpy.fft.ifftshift:与fftshift相反的移频操作。

                   代码：filter.py
                   示例(音频去噪)：
                       import numpy as np
                       import numpy.fft as nf
                       import matplotlib.pyplot as mp
                       import scipy.io.wavfile as wf #scipy主要用于多媒体处理
                       #sample_rate,采样率,noised_sigs信号
                       sample_rate,noised_sigs = wf.read('./noised.wav')
                       #print(sample_rate) #输出44100，表示每秒钟采样的数量
                       #noised_sigs.shape为样本总数，将总数除以采样率，就是时间
                       #print(noised_sigs.shape)#输出格式：(声道1总数,声道2总数,声道3总数,声道4总数,..)
                       #dtype输出int16，数据实际为浮点数，该模块处理为：int16(数据*2**15)，使用时需要还原
                       #print(noised_sigs.dtype)
                       noised_sigs = noised_sigs / 2**15 #数据还原
                       times = np.arange(len(noised_sigs))/sample_rate #获得采样点时间
                       #获得频谱数组，代表能量强度
                       freqs = nf.fftfreq(times.size,1/sample_rate) #sample_rate采样频率的倒数即为采样周期
                       #print(times.size,noised_sigs.shape) #times.size也是样本总数
                       noised_ffts = nf.fft(noised_sigs)#进行傅里叶变换,获得复数形式的离散函数组
                       noised_pows =np.abs(noised_ffts) #对复数取模，获得能量值
                       #开始滤波
                       pow_max = noised_pows.argmax() #获得最大值下标
                       fund_freq = np.abs(freqs[pow_max])#获得能量最大值对应的频率,基频
                       #print(fund_freq)
                       noised_indices = np.where(np.abs(freqs) != fund_freq) #得到噪声频率
                       filter_ffts = noised_ffts.copy()#复制一份函数组
                       filter_ffts[noised_indices] = 0 #将噪声对应的频率函数去除，即：过滤
                       filter_pows = np.abs(filter_ffts) #获得去噪后的能量曲线
                       #将去噪后的信号进行傅里叶逆变换，还原成时空域函数
                       filter_sigs = nf.ifft(filter_ffts).real
                       #将去噪后的信号保存为文件，样本数不变，转换数据类型为int16
                       wf.write('./filter.wav',sample_rate,
                                       (filter_sigs * 2 ** 15).astype(np.int16))
                       mp.figure('filter',facecolor='lightgray')
                       mp.subplot(221)
                       mp.title('timeDoDomain',fontsize=16)
                       mp.ylabel('Sigal',fontsize=12)
                       mp.tick_params(labelsize=10)
                       mp.grid(linestyle=':')
                       mp.plot(times[:178],noised_sigs[:178],label='Noised')
                       mp.legend()
                       mp.subplot(222)
                       mp.ylabel('Power',fontsize=12)
                       mp.tick_params(labelsize=10)
                       mp.grid(linestyle=':')
                       #用plot直接按以下这样显示，差别太大，看不出区别，可用半对数坐标方式显示
                       #mp.plot(freqs[freqs>=0],noised_pows[freqs>=0],label='Freqs')
                       #semilogy半对数坐标
                       mp.semilogy(freqs[freqs>=0],noised_pows[freqs>=0],label='noised')
                       #通过以上观察可发现：低能频谱基本在10**3以下
                       mp.legend()
                       mp.subplot(223)#绘制去噪后的时空域函数曲线
                       mp.title('timeDoDomain',fontsize=16)
                       mp.xlabel('time',fontsize=12)
                       mp.ylabel('Sigal',fontsize=12)
                       mp.tick_params(labelsize=10)
                       mp.grid(linestyle=':')
                       mp.plot(times[:178],filter_sigs[:178],label='filter_sigs')
                       mp.legend()
                       mp.subplot(224)#绘制去噪后的能量曲线
                       mp.xlabel('frequercy',fontsize=12)
                       mp.ylabel('Power',fontsize=12)
                       mp.tick_params(labelsize=10)
                       mp.grid(linestyle=':')
                       mp.plot(freqs[freqs>=0],filter_pows[freqs>=0],label='filter')
                       mp.legend()
                       mp.tight_layout()
                       mp.show()
day07-随机数-超几何分布-标准正态分布-排序-插值-积分-图像处理-金融计算
       3.随机数(random)
           生成服从特定统计规律的随机数序列
               统计规律如:正态、均匀、离散分布规律等等
           1)二项分布
               numpy.random.binomial (n, p, size) -> [size个随机数]
               size：产生随机个数，
               n：尝试次数
               p：成功的概率
               如猜硬币的游戏：初始筹码1000，每轮猜9次，猜对5次
                   或5次以上为赢，筹码加1，否则为输，筹码减1。
                   求：10000轮的过程中手中筹码的变化。
                       binomial(9, 0.5 10000)
               代码：bi.py
               示例：
                   import numpy as np
                   import matplotlib.pyplot as mp
                   outcomes = np.random.binomial(9,0.5,10000)
                   chips = [1000]
                   for outcome in outcomes:
                           if outcome >= 5:
                                   chips.append(chips[-1]+1)
                           else:
                                   chips.append(chips[-1]-1)
                   chips = np.array(chips)
                   o,h,l,c = 0,chips.argmax(),chips.argmin(),chips.size-1
                   if chips[o] < chips[c]: #赚
                           color = 'orangered'
                   elif chips[c] < chips[o]: #赔
                           color = 'limegreen'
                   else:
                           color = 'dodgerblue'
                   mp.figure('bi',facecolor='lightgray')
                   mp.title('bi',fontsize=20)
                   mp.xlabel('Round',fontsize=14)
                   mp.ylabel('chip',fontsize=14)
                   mp.tick_params(labelsize=10)
                   mp.grid(linestyle=':')
                   mp.plot(chips,c=color,label='bi')
                   mp.axhline(y=chips[o],linestyle = '--',linewidth = 1,color = 'deepskyblue')
                   mp.axhline(y=chips[h],linestyle = '--',linewidth = 1,color = 'crimson')
                   mp.axhline(y=chips[l],linestyle = '--',linewidth = 1,color = 'seagreen')
                   mp.axhline(y=chips[c],linestyle = '--',linewidth = 1,color = 'orange')
                   mp.legend()
                   mp.tight_layout()
                   mp.show()
           2)超几何分布
               numpy.random.hypergeometric(ngood, nbad,
                   nsample, size)
                   size：产生的随机次数
                   nsample：随机抽取好样本的个数
                   nbad：总样本中坏样本的个数
                   ngood：总样本中好样本的个数
                   产生size个随机数，
                   每个随机数来自随机抽取的nsample个样本中好样本个数，
                   总体样本有ngood个好样本和nbad个坏样本组成。
               模球游戏：
                   25个好球和1个坏球放在一起，
                   每次摸3个球，全为好球加1分，摸到坏球减6分
                   求100轮过程中分值的变化
                   np.random.hypergeometric(25,1,3,100)
               示例：
                   import numpy as np
                   import matplotlib.pyplot as mp
                   outcomes = np.random.hypergeometric(25,1,3,100)
                   #print(outcomes)
                   scores = [0]
                   for outcome in outcomes:
                           if outcome == 3:
                                   scores.append(scores[-1]+1)
                           else:
                                   scores.append(scores[-1]-6)
                   scores = np.array(scores)
                   #print(scores)
                   o,h,l,c = 0,scores.argmax(),scores.argmin(),scores.size-1
                   if scores[o] < scores[c]: #赚
                           color = 'orangered'
                   elif scores[c] < scores[o]: #赔
                           color = 'limegreen'
                   else:
                           color = 'dodgerblue'
                   mp.figure('hypergeometric',facecolor='lightgray')
                   mp.title('bi',fontsize=20)
                   mp.xlabel('Round',fontsize=14)
                   mp.ylabel('scores',fontsize=14)
                   mp.tick_params(labelsize=10)
                   mp.grid(linestyle=':')
                   mp.plot(scores,c=color,label='scores')
                   mp.axhline(y=scores[o],linestyle = '--',linewidth = 1,color = 'deepskyblue')
                   mp.axhline(y=scores[h],linestyle = '--',linewidth = 1,color = 'crimson')
                   mp.axhline(y=scores[l],linestyle = '--',linewidth = 1,color = 'seagreen')
                   mp.axhline(y=scores[c],linestyle = '--',linewidth = 1,color = 'orange')
                   mp.legend()
                   mp.tight_layout()
                   mp.show()
           3)标准正态分布
               numpy.random.normal(size)
               产生size个随机数，服从标准正态(平均值0,标准差1)分布。
                   正态分布函数概率密度：       e^((-x^2)/2)/√2π
                   见：正态分布函数.png
               代码：normal.py
               示例，正态分布直方图：
                   import numpy as np
                   import matplotlib.pyplot as mp
                   samples = np.random.normal(size=1000)
                   mp.figure('Normal',facecolor='lightgray')
                   mp.title('Normal',fontsize=20)
                   mp.xlabel('Sample',fontsize=14)
                   mp.ylabel('Occ',fontsize=14)#出现的机会
                   mp.tick_params(labelsize=10)
                   mp.grid(axis='y',linestyle=':')
                   #画直方图，将样本分成100份(100个直方条)
                   bins = mp.hist(samples,100,normed=True,edgecolor='steelblue',
                                   facecolor='deepskyblue',label='Normal')[1]
                   #画函数曲线
                   probs = np.exp(-bins**2/2)/np.sqrt(2*np.pi)#概率函数
                   mp.plot(bins,probs,'o-',c='orangered',label='Probability')
                   mp.legend()
                   mp.tight_layout()
                   mp.show()
   六、numpy的其他函数
       1.排序和查找
           1)联合间接排序:
               numpy.lexsort((参考序列,待排序列)) -->返回有序的索引
                   例如：numpy.lexsort((年龄,成绩))
                               --->获得成绩排名，
                                       之后可根据成绩排名获得对应的姓名
                           首先按成绩排序，相同成绩的，按照年龄排序
                   相当于是：首要排序成绩，次要排序年龄
               返回a数组按升序排列的索引数组，
               对于a数组中值相同的元素参考其在b数组中对应元素的升序排列。
               示例：
                   ages = np.array([30,20,30,20])
                   scores = np.array([70,60,80,70])
                   names = np.array(['zhang','li','wang','zhao'])
                   #先按scores排序，然后按ages排序
                   l=np.lexsort((ages,scores))
                   print(l)
                   name = np.take(names,l)
                   print(name) #输出对应排序的姓名
           2)sort_complex(复数数组)
               按照复数实部的升序排序，
               对于实部相同的元素参考其虚部的升序。
               示例：
                   ages = np.array([30,20,30,20])
                   scores = np.array([70,60,80,70])
                   names = np.array(['zhang','li','wang','zhao'])
                   complexes = scores + ages * 1j#创建复数数组
                   print(np.sort_complex(complexes))#对复数排序
           3)argmax/argmin/max/min: 将nan值视为最大和最小值
           4)nanargmax/nanargmin/nanmax/nanmin: 将nan值直接忽略不计
           5)有序插入：searchsorted / insert
               searchsorted(有序序列,待查序列)
                   将待插序列插入有序序列后，结果依然有序
                   返回分别应该放在哪个位置的数组
               有序插入： insert(被插序列,位置序列，待插序列）
                   将待插序列按照位置序列插入被插序列，并返回
               示例：
                   a = np.array([1,2,4,5,6,8,9])
                   b = np.array([7,3])
                   c = np.searchsorted(a,b) #获得位置数组
                   d = np.insert(a,c,b)#将b按照c的位置插入到a中
                   print(d)
           6)where/掩码/extract/nonzero: 根据条件选择元素
       2.插值
           收集到的有限样本数据，很难形成曲线，
           通过插值方式，插入多个模拟数据，最终形成近似接近的曲线
           import scipy.interpolate as si
           一维插值si.interp1d(离散x坐标，离散y坐标,
                           kind=插值算法(默认为线性插值)) -->返回茶之器
                   插值器(x坐标)-->得出y坐标
           二维插值si.interp2d
           三维插值si.interp3d
           示例：
               import numpy as np
               import scipy.interpolate as si
               import matplotlib.pyplot as mp
               min_x,max_x = -2.5,2.5
               con_x = np.linspace(min_x,max_x,1001)
               con_y = np.sinc(con_x)
               #生成有限个离散样本
               dis_x = np.linspace(min_x,max_x,11)
               dis_y = np.sinc(dis_x)
               #通过得到的有限样本数据，通过插值的方式模拟出曲线
               linear = si.interp1d(dis_x,dis_y)#构造线性插值器
               lin_x = np.linspace(min_x,max_x,51) # 比dis_x多了40个，则多余的就需要插值去完成
               lin_y = linear(lin_x)
               cubic = si.interp1d(dis_x,dis_y,kind='cubic')#构造三次样条插值器
               cub_x = np.linspace(min_x,max_x,51)
               cub_y = cubic(cub_x)
               mp.figure('interpolate',facecolor='lightgray')
               mp.subplot(221)
               mp.title('interpolate',fontsize=16)
               mp.xlabel('x',fontsize=12)
               mp.ylabel('y',fontsize=12)
               mp.tick_params(labelsize=10)
               mp.grid(linestyle=':')
               mp.plot(con_x,con_y,c='hotpink',label='Cont')
               mp.subplot(222)
               mp.title('Discrete',fontsize=16)
               mp.tick_params(labelsize=10)
               mp.grid(linestyle=':')
               mp.scatter(dis_x,dis_y,c='orangered',s=60,label='dis')
               mp.subplot(223)
               mp.title('Linear',fontsize=16)
               mp.xlabel('X',fontsize=12)
               mp.ylabel('Y',fontsize=12)
               mp.tick_params(labelsize=10)
               mp.grid(linestyle=':')
               #绘制插值后的曲线
               mp.plot(lin_x,lin_y,'o-',label='linear')
               mp.scatter(dis_x,dis_y,c='orangered',s=60,zorder=3)
               mp.subplot(224)
               mp.title('Cubic',fontsize=16)
               mp.xlabel('X',fontsize=12)
               mp.ylabel('Y',fontsize=12)
               mp.tick_params(labelsize=10)
               mp.grid(linestyle=':')
               #绘制插值后的曲线
               mp.plot(cub_x,cub_y,'o-',label='cubic')
               mp.scatter(dis_x,dis_y,c='orangered',s=60,zorder=3)
               mp.legend()
               mp.tight_layout()
               mp.show()
       3.积分
           import matplotlib.pyplot as mp #用于绘制曲线，散点等
           import matplotlib.patches as mc #用于绘制几何图形，如三角，园等
           import scipy.integrate as si
           si.quad(积分函数,积分下限，积分上限)，返回积分值、最大误差
           示例：
               import numpy as np
               import scipy.integrate as si
               import matplotlib.pyplot as mp #用于绘制曲线，散点等
               import matplotlib.patches as mc #用于绘制几何图形，如三角，园等
               def f(x):
                       return 2 * x ** 2 + 3 * x + 4 #一个典型的二次多项式，抛物线
               a , b = -5,5
               #按scipy计算积分
               area1 = si.quad(f,a,b)
               print(area1)
               #按照古典方式计算积分
               n = 300
               x2 = np.linspace(a,b,n+1)
               y2 = f(x2)
               area = 0
               for i in range(n):
                       #梯形面积公式：(上底 + 下底)* 高 / 2
                       area += (y2[i] + y2[i+1]) * (x2[i+1]-x2[i]) / 2
               print(area)
               mp.figure('Integral',facecolor='lightgray')
               mp.title('Integral',fontsize=16)
               mp.xlabel('x',fontsize=12)
               mp.ylabel('y',fontsize=12)
               mp.tick_params(labelsize=10)
               mp.grid(linestyle=':')
               #绘制曲线
               x1 = np.linspace(a , b, 1001)
               y1 = f(x1)
               mp.plot(x1,y1,label=r'$y=2x^2+3x+4$')
               #绘制古典积分方法用的多边形
               for i in range(n):
                       mco = mc.Polygon([[x2[i],0],[x2[i],y2[i]],
                                           [x2[i+1],y2[i+1]],[x2[i+1],0]],
                                           fc='deepskyblue',ec='dodgerblue',
                                           alpha=0.5)#绘制多边形，定点坐标数量，由图形顶点数决定
                       mp.gca().add_patch(mco)
               mp.legend()
               mp.tight_layout()
               mp.show()
       4.图像
           import scipy.ndimage as sn #可进行颜色变换
           import scipy.misc as sm
           #相对scipy，opencv的图像处理更强大
           #pip install opencv-python
           示例：
               import scipy.misc as sm
               import scipy.ndimage as sn #可进行颜色变换
               import matplotlib.pyplot as mp
               originalt = sm.imread('./lily.jpg')#读取图片的源格式
               #print(originalt.shape,originalt.dtype) #(512, 512, 3) 表示(高度,宽度,颜色通道) 3，表示红绿蓝
               original = sm.imread('./lily.jpg',True)#读取图片的灰度格式
               #print(original.shape,original.dtype) #(512, 512) float32，没有颜色维了
               median = sn.median_filter(original,(20,20))#中值滤波,实际是二维卷积模糊化，也叫高斯模糊
               #卷积模糊通常用于去除杂质
               rotate = sn.rotate(originalt,45) #旋转45度
               prewitt = sn.prewitt(original)#索贝尔边缘识别，索贝尔微分，浮雕效果，找物体轮廓
               mp.figure('Image',facecolor='lightgray')
               mp.subplot(221)
               mp.title('Original',fontsize=16)
               mp.axis('off')
               mp.imshow(original,cmap='gray')
               mp.subplot(222)
               mp.title('prewitt',fontsize=16)
               mp.axis('off')
               mp.imshow(prewitt)
               mp.subplot(223)
               mp.title('mediane',fontsize=16)
               mp.axis('off')
               mp.imshow(median,cmap='gray')
               mp.subplot(224)
               mp.title('rotate',fontsize=16)
               mp.axis('off')
               mp.imshow(rotate,cmap='gray')
               mp.tight_layout()
               mp.show()
       5.金融计算
           1)终值fv(利率,期数,每期支付,现值)
               如：将1000元存入银行，利率为1%，存5年，每年加存100
                       到期后本息合计多少
                   np.fv(0.01,5,-100,-1000) #资金流出为负，流入为正
               示例：
                   fv = np.fv(0.01,5,-100,-1000)
                   print(round(fv,2)) #输出：1561.11
           2)现值pv(利率,期数,每期支付,终值)
               如：银行利率为1%，存5年，每年加存100
                       到期后能拿到2000元，请问现在应该存多少
                   np.pv(0.01,5,-100,2000)
               示例：
                   pv = np.pv(0.01,5,-100,2000)
                   print(round(pv,2)) #输出：-1417.59
           3)净现值npv(利率,现金流)
               如：将1000元存入银行，利率为1%，存5年，每年加存100
                       相当于现在一次性存入多少
                   npv(0.01,[-1000,-100,-100,-100,-100,-100])
               示例：
                   npv = np.npv(0.01,[-1000,-100,-100,-100,-100,-100])
                   print(round(npv,2))#输出：-1485.34-
           4)内部收益率IRR(现金流)
               如：将1000元存入银行存5年，以后逐年提取100,200，300，400,
                   500，之后银行利率达到多少，可在最后一次体现尝清本息
                   即净现值为0
                   irr([-1000,100,200,300,400,500])
               示例：
                   irr = np.irr([-1000,100,200,300,400,500])
                   print(round(irr,2))#输出：0.12
           5)每期支付pmt(利率,期数,现值)
               如：以1%的年利率从银行贷款1万，分5年还清，
                   平均每年还多少钱
                   pmt(0.01,5,10000)
               示例：
                   pmt = np.pmt(0.01,5,10000)
                   print(round(pmt,2))#输出：-2060.4
           6)还款期数nper(利率,每期支付,现值)
               如：以1%的年利率从银行贷款1万，平均每年还2060.4
                   多少年还清，
                   nper(0.01,-2060.4,10000)
               示例：
                   nper = np.nper(0.01,-2060.4, 10000)
                   print(nper)#输出：约5
           7)贷款利率rate(期数，每期支付，现值，终值)
               示例：
                   rate = np.rate(5,-2060.4,10000,0)
                   print(rate)#输出：0.01
       6.窗函数
           1)巴特莱特窗：numpy.bartlett
           2)布莱克曼窗：numpy.blackman
           3)哈明窗：numpy.hamming
           4)汉宁窗：numpy.hanning
           5)凯瑟窗：numpy.kaiser

python DataScience数据分析笔记day06

猜你喜欢