机器学习中遇到问题汇总(一)

机器学习中遇到问题汇总(一)

01.numpy使用中遇到的问题汇总

01.01Python sorted() 函数

sorted() 函数对所有可迭代的对象进行排序操作。sort 是应用在 list 上的方法,sorted 可以对所有可迭代的对象进行排序操作。list 的 sort 方法返回的是对已经存在的列表进行操作,而内建函数 sorted 方法返回的是一个新的 list,而不是在原来的基础上进行的操作。

sorted(iterable[, cmp[, key[, reverse]]])
  1. iterable – 可迭代对象。
  2. cmp –比较的函数,这个具有两个参数,参数的值都是从可迭代对象中取出,此函数必须遵守的规则为,大于则返回1,小于则返回-1,等于则返回0。
  3. key – 主要是用来进行比较的元素,只有一个参数,具体的函数的参数就是取自于可迭代对象中,指定可迭代对象中的一个元素来进行排序。
  4. reverse – 排序规则,reverse = True 降序 , reverse = False 升序(默认)。
  5. 返回重新排序的列表。
    使用案例
>>>a = [5,7,6,3,4,1,2]
>>> b = sorted(a)       # 保留原列表
>>> a 
[5, 7, 6, 3, 4, 1, 2]
>>> b
[1, 2, 3, 4, 5, 6, 7]

>>> L=[('b',2),('a',1),('c',3),('d',4)]
>>> sorted(L, cmp=lambda x,y:cmp(x[1],y[1]))   # 利用cmp函数
[('a', 1), ('b', 2), ('c', 3), ('d', 4)]
>>> sorted(L, key=lambda x:x[1])               # 利用key
[('a', 1), ('b', 2), ('c', 3), ('d', 4)]

>>> students = [('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
>>> sorted(students, key=lambda s: s[2])            # 按年龄排序
[('dave', 'B', 10), ('jane', 'B', 12), ('john', 'A', 15)]

>>> sorted(students, key=lambda s: s[2], reverse=True)       # 按降序
[('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
>>>

需要注意的是lambda可以看作是一个匿名函数

01.02Python argsort()函数

argsort()函数是将矩阵中的每一行的元素从小到大排列,提取其对应的index(索引),然后返回一个list。
例如:

from numpy import *
arr=array([[1,2],[4,3]])
print(arr)
print("*"*50)
result=arr.argsort()
print(result)

结果为:

[[1 2]
 [4 3]]
**************************************************
[[0 1]
 [1 0]]
[Finished in 0.5s]

01.03Python numpy.sum()函数

sum(a, axis=None, dtype=None, out=None, keepdims=np._NoValue)

a是要进行加法运算的向量/数组/矩阵
axis的值可以为None,也可以为整数和元组
当axis为0时,是压缩行,即将每一列的元素相加,将矩阵压缩为一行
当axis为1时,是压缩列,即将每一行的元素相加,将矩阵压缩为一列
且需要注意的是:如果要输入两个数组/矩阵/向量进行相加,那么就要先把两个数组/矩阵/向量用一个括号括起来,形成一个元组,这样才能够进行相加.
例如:

>>> np.sum([0.5, 1.5])
2.0
>>> np.sum([0.5, 0.7, 0.2, 1.5], dtype=np.int32)
1
>>> np.sum([[0, 1], [0, 5]])
6
>>> np.sum([[0, 1], [0, 5]], axis=0)
array([0, 6])
>>> np.sum([[0, 1], [0, 5]], axis=1)
array([1, 5])

01.04Python numpy.tile()函数

函数格式tile(A,reps)
A和reps都是array_like
A的类型众多,几乎所有类型都可以:array, list, tuple, dict, matrix以及基本数据类型int, string, float以及bool类型。
reps的类型也很多,可以是tuple,list, dict, array, int, bool.但不可以是float, string, matrix类型。
看一下代码案例

from numpy import *

arr=array([[1,2],[4,3]])
print(arr)
print("*"*50)
arr1=tile(arr, (2, 3))
print(arr1)

结果

[[1 2]
 [4 3]]
**************************************************
[[1 2 1 2 1 2]
 [4 3 4 3 4 3]
 [1 2 1 2 1 2]
 [4 3 4 3 4 3]]
[Finished in 0.4s]

可以看出,是将原矩阵的行复制两次,列复制3次。

02.原生模块使用中遇到的问题汇总

02.01argparse 的使用

argparse 是 Python 内置的一个用于命令项选项与参数解析的模块,通过在程序中定义好我们需要的参数,argparse 将会从 sys.argv 中解析出这些参数,并自动生成帮助和使用信息。当然,Python 也有第三方的库可用于命令行解析,而且功能也更加强大,比如 docopt,Click。
需要说明的是:2.7之后python不再对optparse模块进行扩展,推荐使用argparse模块对命令行进行解析。
定位参数使用案例:计算一个数的平方

import argparse
#parser 解析,创建一个解析对象
parser=argparse.ArgumentParser()
#调用 add_argument() 方法添加参数
parser.add_argument('square',help='display a square of a given number',type=int)
#使用 parse_args() 解析添加的参数
args=parser.parse_args()
print(args.square**2)

在改文件的dos中输入:pyhon 该文件名 参数

C:\Development\Python\ML\BaseLearning>python Test01.py 10

结果打印10
可选参数使用案例:

import argparse
#parser 解析,创建一个解析对象
parser=argparse.ArgumentParser()
#调用 add_argument() 方法添加参数
parser.add_argument('--square',help='display a square of a given number',type=int)
parser.add_argument('--cubic',help='display a cubic of a given number',type=int)
#使用 parse_args() 解析添加的参数
args=parser.parse_args()
if args.square:
    print(args.square**2)
if args.cubic:
    print(args.cubic**3)

可以在对应dos中

C:\Development\Python\ML\BaseLearning>python Test01.py --help
usage: Test01.py [-h] [--square SQUARE] [--cubic CUBIC]

optional arguments:
  -h, --help       show this help message and exit
  --square SQUARE  display a square of a given number
  --cubic CUBIC    display a cubic of a given number
C:\Development\Python\ML\BaseLearning>python Test01.py --cubic 10
1000

混合使用(给一个整数序列,输出它们的和或最大值(默认))

import argparse
#parser 解析,创建一个解析对象
parser=argparse.ArgumentParser(description='Process some integers.')
#调用 add_argument() 方法添加参数
parser.add_argument('integers',metavar='N',type=int,nargs='+',help='an integer for the accumulator')
parser.add_argument('--sum',dest='accumulator',action='store_const',const=sum,default=max,help='sum the integers(default:find the max)')
#使用 parse_args() 解析添加的参数
args=parser.parse_args()

print(args.accumulator(args.integers))

集中输入测试

C:\Development\Python\ML\BaseLearning>python Test01.py  1 2 3 4
4

C:\Development\Python\ML\BaseLearning>python Test01.py  1 2 3 4 5
5

C:\Development\Python\ML\BaseLearning>python Test01.py  1 2 3 4 5 --sum
15

add_argument() 方法定义如何解析命令行参数:

ArgumentParser.add_argument(name or flags...[, action][, nargs][, const][, default][, type][, choices][, required][, help][, metavar][, dest])

每个参数解释如下:

name or flags - 选项字符串的名字或者列表,例如 foo 或者 -f, –foo。
action - 命令行遇到参数时的动作,默认值是 store。
store_const,表示赋值为const;
append,将遇到的值存储成列表,也就是如果参数重复则会保存多个值;
append_const,将参数规范中定义的一个值保存到一个列表;
count,存储遇到的次数;此外,也可以继承 argparse.Action 自定义参数解析;
nargs - 应该读取的命令行参数个数,可以是具体的数字,或者是?号,当不指定值时对于 Positional argument 使用 default,对于 Optional argument 使用 const;或者是 * 号,表示 0 或多个参数;或者是 + 号表示 1 或多个参数。
const - action 和 nargs 所需要的常量值。
default - 不指定参数时的默认值。
type - 命令行参数应该被转换成的类型。
choices - 参数可允许的值的一个容器。
required - 可选参数是否可以省略 (仅针对可选参数)。
help - 参数的帮助信息,当指定为 argparse.SUPPRESS 时表示不显示该参数的帮助信息.
metavar - 在 usage 说明中的参数名称,对于必选参数默认就是参数名称,对于可选参数默认是全大写的参数名称.
dest - 解析后的参数名称,默认情况下,对于可选参数选取最长的名称,中划线转换为下划线.


关于自然语言处理、机器学习技术,可以参见个人微信订阅号,里面有大量的学习资料。
这里写图片描述

猜你喜欢

转载自blog.csdn.net/meiqi0538/article/details/80219158