【python】Notebook

1. 小Tips

三元运算符

类似C语言的条件运算符？：
语法：
c = a if a>b else b //如果a>b返回a，否则返回b

>>> a = np.array([[1, 2], [3, 4]])
>>> np.mean(a) # 将上面二维矩阵的每个元素相加除以元素个数（求平均数）
2.5
>>> np.mean(a, axis=0) # axis=0，计算每一列的均值
array([ 2.,  3.])
>>> np.mean(a, axis=1) # 计算每一行的均值
array([ 1.5,  3.5])

@## range() 与 np.arange()

range()返回的是range object，而np.arange()返回的是numpy.ndarray（type(np.arange(10)) == np.ndarray）
- 两者都是均匀地（evenly）等分区间；
- range尽可用于迭代，而np.arange作用远不止于此，它是一个序列，可被当做向量使用。
range()不支持步长为小数，np.arange()支持步长为小数
两者都可用于迭代
两者都有三个参数，以第一个参数为起点，第三个参数为步长，截止到第二个参数之前的不包括第二个参数的数据序列
某种意义上，和STL中由迭代器组成的区间是一样的，即左闭右开的区间。[first, last)或者不加严谨地写作[first:step:last)

>>>range(1,5)
range(1,5)
>>>tuple(range(1, 5))
(1, 2, 3, 4)
>>>list(range(1, 5))
[1, 2, 3, 4]


>>>r = range(1, 5)
>>>type(r)
<class 'range'>

>>>for  i in range(1, 5):
...    print(i)
1
2
3
4

>>> np.arange(1, 5)
array([1, 2, 3, 4])

>>>range(1, 5, .1)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: 'float' object cannot be interpreted as an integer

>>>np.arange(1, 5, .5)
array([ 1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5])

>>>range(1, 5, 2)
>>>for i in range(1, 5, 2):
...    print(i)
1
3

>>for i in np.arange(1, 5):
...    print(i)
1
2
3
4

求最大/小值及索引值

列表

list = [9, 12, 88, 14, 25]
max_list =  max(list) # 返回最大值
max_index = list.index(max(list))# 最大值的索引

numpy

min/max是python内置的函数
np.argmin/np.argmax是numpy库中的成员函数

（可适合处理numpy.ndarray对象，可选的参数是axis=0或者1）

import numpy as np
 
a = np.array([1, 2, 3, 4])
b = np.array((5, 6, 7, 8))
c = np.array([[11, 2, 8, 4], [4, 52, 6, 17], [2, 8, 9, 100]])
 
print(a)
print(b)
print(c)
 
print(np.argmin(c))
print(np.argmin(c, axis=0)) # 按每列求出最小值的索引
print(np.argmin(c, axis=1)) # 按每行求出最小值的索引

合并 list 为字符串

>>> seq = ('b','o','o','k')
>>> print('_'.join(seq))
>>> b_o_o_k # 输出结果

剪切板模块 pyperclip

pyperclip模块不是自带的需要安装

pyperclip.copy(text) 把text字符串中的字符复制到剪切板

text = pyperclip.paste() 把剪切板上的字符串复制到text

2. 数学

随机数

import random

print( random.randint(1,10) )        # 产生 1 到 10 的一个整数型随机数  
print( random.random() )             # 产生 0 到 1 之间的随机浮点数
print( random.uniform(1.1,5.4) )     # 产生  1.1 到 5.4 之间的随机浮点数，区间可以不是整数
print( random.choice('tomorrow') )   # 从序列中随机选取一个元素
print( random.randrange(1,100,2) )   # 生成从1到100的间隔为2的随机整数

a=[1,3,5,6,7]                # 将序列a中的元素顺序打乱
random.shuffle(a)
print(a)

3. 文件相关

按分隔文件路径名的字符串来分割

root.split(os.sep)

数据的保存和读取

.mat 格式，Matlab 也可以使用
保存： scipy.io.savemat()
读取： scipy.io.loadmat()

import scipy.io as scio
data = scio.loadmat('ex3data1.mat')
X = data['X']
Y = data['y']
scio.savemat("weights.mat", {'weights': self.weights})

.npy 格式，numpy
保存： numpy.save()
读取： numpy.load()

import numpy as np
a = np.mat('1,2,3;4,5,6')
np.save('a.npy',a)
data_a = np.load('a.npy')

检查文件夹是否存在，不存在则创建

if not os.path.exists(save_path):
	os.makedirs(save_path)

遍历文件夹中所有最里面的子文件夹中的文件

目录中所有 不包含子文件夹 的 文件夹 中的文件

for root, sub_dir, files in os.walk(root_path):
    # only want to read files
    if sub_dir != []:  # Go to the bottom of the directory without folder
        continue
    for file in files:
    	img = imread(os.path.join(root, file), as_gray=True)

遍历文件夹中的所有文件

pos_img_files = os.listdir(pos_img_path)
for file in pos_img_files:
    img = imread(pos_img_path+file)

获取当前文件名

Python获取当前文件名可以通过__file__或者sys.argv[0]，下面以test.py文件为例.

# -*- coding: utf-8 -*-
# test.py
import sys
import os

# 绝对路径
print(__file__)
print(sys.argv[0])

# 文件名
print(os.path.basename(__file__))
print(os.path.basename(sys.argv[0]))

输出：

E:/Code/python3/EffectivePython/test.py
E:/Code/python3/EffectivePython/test.py
test.py
test.py

__file__和sys.argv[0]都是当前文件的绝对路径，可以通过os.path.basename获得文件名。

4. matplotlib 画图

x轴标签旋转

plt.xticks(rotation=45)

设置坐标刻度值的大小以及刻度值的字体

plt.tick_params(labelsize=15)
labels = ax.get_xticklabels() + ax.get_yticklabels()
[label.set_fontname('Times New Roman') for label in labels]

设置横纵坐标的名称以及对应字体格式

font = {'family': 'Times New Roman',
         'weight': 'normal',
         'size': 15,}
plt.xlabel('Value of C for LinearSVC', font)

设置输出的图片大小

figure, ax = plt.subplots(figsize=(12, 5))

5. sklearn

保存模型及参数

pickle方法（python自带）

from sklearn import svm #引入支持向量机 
from sklearn import datasets    #引入数据集  
clf = svm.SVC() #使用SVC进行分类 
iris = datasets.load_iris() 
X,y = iris.data, iris.target clf.fit(X,y)  #第一种方法，用python自带的pickle库 
import pickle with open('save/clf.pickle','wb') as f: #以写的形式设置一个文件： 
clf.pickle  pickle.dump(clf,f)      #将clf这个训练好的模型 存储在变量f中，且保存


#导出模型并预测值： 
import pickle iris = datasets.load_iris() 
X,y = iris.data, iris.target  
with open('save/clf.pickle','rb') as f: 
                 #以读取的方式 读取模型存储的pickle文件，并放在变量f里  
clf_load = pickle.load(f)           #将模型存储在变量clf_load中  
print(clf_load.predict(X[0:5]))     #调用并预测0-5的结果

joblib方法（sklearn自带）

from sklearn.externals import joblib
#保存
joblib.dump(best_lin_svm_clf, 'save/clf.pkl', compress=3)  # 保存训练好的clf模型 compress读取速度
#读取
che_clf = joblib.load('save/clf.pkl')  # 读取训练好的clf模型

k 折交叉验证

比如将数据集分为10折，做一次交叉验证，实际上它是计算了十次，将每一折都当做一次测试集，其余九折当做训练集，这样循环十次。通过传入的模型，训练十次，最后将十次结果求平均值。将每个数据集都算一次

交叉验证优点：

1：交叉验证用于评估模型的预测性能，尤其是训练好的模型在新数据上的表现，可以在一定程度上减小过拟合。
2：还可以从有限的数据中获取尽可能多的有效信息。

我们如何利用它来选择参数呢？

我们可以给它加上循环，通过循环不断的改变参数，再利用交叉验证来评估不同参数模型的能力。最终选择能力最优的模型。

下面通过一个简单的实例来说明：（iris鸢尾花）

from sklearn import datasets	#自带数据集
from sklearn.model_selection import train_test_split,cross_val_score	#划分数据 交叉验证
from sklearn.neighbors import KNeighborsClassifier  #一个简单的模型，只有K一个参数，类似K-means
import matplotlib.pyplot as plt
iris = datasets.load_iris()		#加载sklearn自带的数据集
X = iris.data 			#这是数据
y = iris.target 		#这是每个数据所对应的标签
train_X,test_X,train_y,test_y = train_test_split(X,y,test_size=1/3,random_state=3)	#这里划分数据以1/3的来划分 训练集训练结果 测试集测试结果
k_range = range(1,31)
cv_scores = []		#用来放每个模型的结果值
for n in k_range:
    knn = KNeighborsClassifier(n)   #knn模型，这里一个超参数可以做预测，当多个超参数时需要使用另一种方法GridSearchCV
    scores = cross_val_score(knn,train_X,train_y,cv=10,scoring='accuracy')  #cv：选择每次测试折数  accuracy：评价指标是准确度,可以省略使用默认值，具体使用参考下面。
    cv_scores.append(scores.mean())
plt.plot(k_range,cv_scores)
plt.xlabel('K')
plt.ylabel('Accuracy')		#通过图像选择最好的参数
plt.show()
best_knn = KNeighborsClassifier(n_neighbors=3)	# 选择最优的K=3传入模型
best_knn.fit(train_X,train_y)			#训练模型
print(best_knn.score(test_X,test_y))	#看看评分

Krone_

发布了76 篇原创文章 · 获赞 20 · 访问量 2万+

私信关注

CONTENT