Directorio de artículos
Internet
urllib
Se ha integrado en python3
beautifulsoup4
Se usa para explicar el contenido html extraído
http.cookiejar
Cambiado a http.cookiejar en python 3. En python2, se usa cookielib.
PySpider
Los principales requisitos funcionales del marco del rastreador son:
- Rastrear, actualizar y programar páginas específicas de múltiples sitios
- Se requiere la extracción de información estructurada de las páginas.
- Flexible y escalable, estable y monitoreable
peticiones
Cheque
re
Expresión regular
chardet
Juzgue el módulo de codificación como utf-8, etc.
Gráficos
PIL
PIL (Python Imaging Library Python, biblioteca de clases de procesamiento de imágenes) proporciona funciones generales de procesamiento de imágenes, así como una gran cantidad de operaciones básicas de imagen útiles, como escalado, recorte, rotación, conversión de color, etc.
Se puede descargar desde http://www.pythonware.com/products/pil/.
opencv
Procesamiento de imágenes gráficas
matplotlib
Una biblioteca de dibujo en 2D que produce gráficos con calidad de publicación.
http://matplotlib.org/
imagen-scikit
Existe un conjunto de algoritmos de procesamiento de imágenes que pueden facilitar el filtrado de una imagen, lo cual es muy adecuado para el preprocesamiento de imágenes.
pip install scikit-image --upgrade
Aprendizaje automático
sklearn
Sklearn es una biblioteca de algoritmos de aprendizaje automático basada en numpy y scipy. Tiene un diseño muy elegante y nos permite utilizar la misma interfaz para implementar todas las llamadas a algoritmos diferentes.
Datos
json
módulo de interpretación y embalaje json
numpy
Una biblioteca de cálculo matemático muy general, a menudo utilizada en el aprendizaje automático.
http://www.numpy.org/
loadtxt
Cargue contenido de texto de txt o csv, utilizado principalmente para importar datos de tabla de exl.
punto()
Devuelve el producto punto de dos matrices (producto punto)
#如果处理的是一维数组,则得到的是两数组的內积
In: d = np.arange(0,9)
Out: array([0, 1, 2, 3, 4, 5, 6, 7, 8])
In : e = d[::-1]
Out: array([8, 7, 6, 5, 4, 3, 2, 1, 0])
In : np.dot(d,e)
Out: 84
#如果是二维数组(矩阵)之间的运算,则得到的是矩阵积(mastrix product)所得到的数组中的每个元素为,第一个矩阵中与该元素行号相同的元素与第二个矩阵与该元素列号相同的元素,两两相乘后再求和。
In : a = np.arange(1,5).reshape(2,2)
Out:
array([[1, 2],
[3, 4]])
In : b = np.arange(5,9).reshape(2,2)
Out: array([[5, 6],
[7, 8]])
In : np.dot(a,b)
Out:
array([[19, 22],
[43, 50]])
Operaciones matriciales
1. Varias funciones relacionadas para generar matriz numpy:
-
numpy.array ()
-
numpy.zeros ()
Genere una matriz de matriz de todos los 0.
-
numpy.ones ()
Genere una matriz de matriz de todos.
-
numpy.eye ()
Generar matriz diagonal
2. Varias funciones relacionadas de matriz numpy generadas en serie:
- numpy.array ()
- numpy.row_stack ()
- numpy.column_stack ()
- numpy.reshape ()
>>> import numpy
>>> numpy.eye(3)
array([[ 1., 0., 0.],
[ 0., 1., 0.],
[ 0., 0., 1.]])
>>> numpy.zeros(3)
array([ 0., 0., 0.])
>>> numpy.ones(3)
array([ 1., 1., 1.])
>>> x1 = numpy.array((1, 2, 3))
>>> x1
array([1, 2, 3])
>>> x2 = numpy.array([4, 5, 6])
>>> x2
array([4, 5, 6])
>>> x3 = numpy.array((x1, x2))
>>> x3
array([[1, 2, 3],
[4, 5, 6]])
>>> x4 = x3.reshape(2, 3)
>>> x4
array([[1, 2, 3],
[4, 5, 6]])
>>> x4 = x3.reshape(3, 2)
>>> x4
array([[1, 2],
[3, 4],
[5, 6]])
>>> x5 = numpy.row_stack((x1, x2))
>>> x5
array([[1, 2, 3],
[4, 5, 6]])
>>> x6 = numpy.row_stack([x1, x2])
>>> x6
array([[1, 2, 3],
[4, 5, 6]])
>>> x7 = numpy.row_stack((x6, x2))
>>> x7
array([[1, 2, 3],
[4, 5, 6],
[4, 5, 6]])
>>> x7[0]
array([1, 2, 3])
>>> x7[1]
array([4, 5, 6])
>>> x7[2]
array([4, 5, 6])
>>> x8 = numpy.column_stack([x1, x2, x1, x2])
>>> x8
array([[1, 4, 1, 4],
[2, 5, 2, 5],
[3, 6, 3, 6]])
>>> x8[0]
array([1, 4, 1, 4])
>>> x8[1]
array([2, 5, 2, 5])
>>> x8[2]
array([3, 6, 3, 6])
>>> x8[0][3]
4
>>>
pandas
Biblioteca de análisis de datos de Python, incluidos los marcos de datos (marcos de datos) y otras estructuras http://pandas.pydata.org/
Materiales de aprendizaje: http://pandas.pydata.org/pandas-docs/stable/10min.html
scikit-learn
Los algoritmos de aprendizaje automático para el análisis de datos y los caracteres de minería de datos son bibliotecas generales de aprendizaje automático que cubren el algoritmo vecino k-más cercano
http://scikit-learn.org/stable/
escoria
Materiales de aprendizaje: http://www.scipy-lectures.org/
Theano
Defina, optimice y evalúe efectivamente las expresiones matemáticas que contienen matrices multidimensionales.
Multimedia
pdfkit
Un módulo para guardar páginas web html como pdf
librosa
Es una biblioteca de terceros para la extracción de funciones de audio en Python. Hay muchas formas de extraer funciones de audio.
nltk
El módulo contiene una gran cantidad de corpus, que puede completar fácilmente muchas tareas de procesamiento del lenguaje natural, incluida la segmentación de palabras, el etiquetado de parte del discurso, el reconocimiento de entidades con nombre (NER) y el análisis de sintaxis.