机器学习中遇到问题汇总（一）

01.numpy使用中遇到的问题汇总

01.01Python sorted() 函数

sorted() 函数对所有可迭代的对象进行排序操作。sort 是应用在 list 上的方法，sorted 可以对所有可迭代的对象进行排序操作。list 的 sort 方法返回的是对已经存在的列表进行操作，而内建函数 sorted 方法返回的是一个新的 list，而不是在原来的基础上进行的操作。

sorted(iterable[, cmp[, key[, reverse]]])

iterable – 可迭代对象。
cmp –比较的函数，这个具有两个参数，参数的值都是从可迭代对象中取出，此函数必须遵守的规则为，大于则返回1，小于则返回-1，等于则返回0。
key – 主要是用来进行比较的元素，只有一个参数，具体的函数的参数就是取自于可迭代对象中，指定可迭代对象中的一个元素来进行排序。
reverse – 排序规则，reverse = True 降序， reverse = False 升序（默认）。
返回重新排序的列表。
使用案例

>>>a = [5,7,6,3,4,1,2]
>>> b = sorted(a)       # 保留原列表
>>> a 
[5, 7, 6, 3, 4, 1, 2]
>>> b
[1, 2, 3, 4, 5, 6, 7]

>>> L=[('b',2),('a',1),('c',3),('d',4)]
>>> sorted(L, cmp=lambda x,y:cmp(x[1],y[1]))   # 利用cmp函数
[('a', 1), ('b', 2), ('c', 3), ('d', 4)]
>>> sorted(L, key=lambda x:x[1])               # 利用key
[('a', 1), ('b', 2), ('c', 3), ('d', 4)]

>>> students = [('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
>>> sorted(students, key=lambda s: s[2])            # 按年龄排序
[('dave', 'B', 10), ('jane', 'B', 12), ('john', 'A', 15)]

>>> sorted(students, key=lambda s: s[2], reverse=True)       # 按降序
[('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
>>>

需要注意的是lambda可以看作是一个匿名函数

01.02Python argsort()函数

argsort()函数是将矩阵中的每一行的元素从小到大排列，提取其对应的index(索引)，然后返回一个list。
例如：

from numpy import *
arr=array([[1,2],[4,3]])
print(arr)
print("*"*50)
result=arr.argsort()
print(result)

结果为：

[[1 2]
 [4 3]]
**************************************************
[[0 1]
 [1 0]]
[Finished in 0.5s]

01.03Python numpy.sum()函数

sum(a, axis=None, dtype=None, out=None, keepdims=np._NoValue)

a是要进行加法运算的向量/数组/矩阵
axis的值可以为None,也可以为整数和元组
当axis为0时,是压缩行,即将每一列的元素相加,将矩阵压缩为一行
当axis为1时,是压缩列,即将每一行的元素相加,将矩阵压缩为一列
且需要注意的是:如果要输入两个数组/矩阵/向量进行相加,那么就要先把两个数组/矩阵/向量用一个括号括起来,形成一个元组,这样才能够进行相加.
例如：

>>> np.sum([0.5, 1.5])
2.0
>>> np.sum([0.5, 0.7, 0.2, 1.5], dtype=np.int32)
1
>>> np.sum([[0, 1], [0, 5]])
6
>>> np.sum([[0, 1], [0, 5]], axis=0)
array([0, 6])
>>> np.sum([[0, 1], [0, 5]], axis=1)
array([1, 5])

01.04Python numpy.tile()函数

函数格式tile(A,reps)
A和reps都是array_like
A的类型众多，几乎所有类型都可以：array, list, tuple, dict, matrix以及基本数据类型int, string, float以及bool类型。
reps的类型也很多，可以是tuple，list, dict, array, int, bool.但不可以是float, string, matrix类型。
看一下代码案例

from numpy import *

arr=array([[1,2],[4,3]])
print(arr)
print("*"*50)
arr1=tile(arr, (2, 3))
print(arr1)

结果

[[1 2]
 [4 3]]
**************************************************
[[1 2 1 2 1 2]
 [4 3 4 3 4 3]
 [1 2 1 2 1 2]
 [4 3 4 3 4 3]]
[Finished in 0.4s]

可以看出，是将原矩阵的行复制两次，列复制3次。

02.原生模块使用中遇到的问题汇总

02.01argparse 的使用

argparse 是 Python 内置的一个用于命令项选项与参数解析的模块，通过在程序中定义好我们需要的参数，argparse 将会从 sys.argv 中解析出这些参数，并自动生成帮助和使用信息。当然，Python 也有第三方的库可用于命令行解析，而且功能也更加强大，比如 docopt，Click。
需要说明的是：2.7之后python不再对optparse模块进行扩展，推荐使用argparse模块对命令行进行解析。
定位参数使用案例：计算一个数的平方

import argparse
#parser 解析，创建一个解析对象
parser=argparse.ArgumentParser()
#调用 add_argument() 方法添加参数
parser.add_argument('square',help='display a square of a given number',type=int)
#使用 parse_args() 解析添加的参数
args=parser.parse_args()
print(args.square**2)

在改文件的dos中输入：pyhon 该文件名参数

C:\Development\Python\ML\BaseLearning>python Test01.py 10

结果打印10
可选参数使用案例：

import argparse
#parser 解析，创建一个解析对象
parser=argparse.ArgumentParser()
#调用 add_argument() 方法添加参数
parser.add_argument('--square',help='display a square of a given number',type=int)
parser.add_argument('--cubic',help='display a cubic of a given number',type=int)
#使用 parse_args() 解析添加的参数
args=parser.parse_args()
if args.square:
    print(args.square**2)
if args.cubic:
    print(args.cubic**3)

可以在对应dos中

C:\Development\Python\ML\BaseLearning>python Test01.py --help
usage: Test01.py [-h] [--square SQUARE] [--cubic CUBIC]

optional arguments:
  -h, --help       show this help message and exit
  --square SQUARE  display a square of a given number
  --cubic CUBIC    display a cubic of a given number
C:\Development\Python\ML\BaseLearning>python Test01.py --cubic 10
1000

混合使用（给一个整数序列，输出它们的和或最大值（默认））

import argparse
#parser 解析，创建一个解析对象
parser=argparse.ArgumentParser(description='Process some integers.')
#调用 add_argument() 方法添加参数
parser.add_argument('integers',metavar='N',type=int,nargs='+',help='an integer for the accumulator')
parser.add_argument('--sum',dest='accumulator',action='store_const',const=sum,default=max,help='sum the integers(default:find the max)')
#使用 parse_args() 解析添加的参数
args=parser.parse_args()

print(args.accumulator(args.integers))

集中输入测试

C:\Development\Python\ML\BaseLearning>python Test01.py  1 2 3 4
4

C:\Development\Python\ML\BaseLearning>python Test01.py  1 2 3 4 5
5

C:\Development\Python\ML\BaseLearning>python Test01.py  1 2 3 4 5 --sum
15

add_argument() 方法定义如何解析命令行参数：

ArgumentParser.add_argument(name or flags...[, action][, nargs][, const][, default][, type][, choices][, required][, help][, metavar][, dest])

每个参数解释如下:

name or flags - 选项字符串的名字或者列表，例如 foo 或者 -f, –foo。
action - 命令行遇到参数时的动作，默认值是 store。
store_const，表示赋值为const；
append，将遇到的值存储成列表，也就是如果参数重复则会保存多个值;
append_const，将参数规范中定义的一个值保存到一个列表；
count，存储遇到的次数；此外，也可以继承 argparse.Action 自定义参数解析；
nargs - 应该读取的命令行参数个数，可以是具体的数字，或者是?号，当不指定值时对于 Positional argument 使用 default，对于 Optional argument 使用 const；或者是 * 号，表示 0 或多个参数；或者是 + 号表示 1 或多个参数。
const - action 和 nargs 所需要的常量值。
default - 不指定参数时的默认值。
type - 命令行参数应该被转换成的类型。
choices - 参数可允许的值的一个容器。
required - 可选参数是否可以省略 (仅针对可选参数)。
help - 参数的帮助信息，当指定为 argparse.SUPPRESS 时表示不显示该参数的帮助信息.
metavar - 在 usage 说明中的参数名称，对于必选参数默认就是参数名称，对于可选参数默认是全大写的参数名称.
dest - 解析后的参数名称，默认情况下，对于可选参数选取最长的名称，中划线转换为下划线.

关于自然语言处理、机器学习技术，可以参见个人微信订阅号，里面有大量的学习资料。
这里写图片描述