Hola, soy Yuechuang.
No es fácil aprender un lenguaje de programación por tu cuenta. Según mi propia experiencia, es necesario superar varios obstáculos, desde la mentalidad hasta la fuerza física y el pensamiento, para llegar a ser un buen programador al final. Por lo tanto, para dominar un idioma, debe sentirlo con el corazón y apreciar el entendimiento tácito entre usted y "ella".
Pero, por desgracia, demasiados amigos, no en el medio, pero no empezaron, sí, incluso la Python
delicada mano princesa no se tocó.
¿Qué versión de Python debo descargar?
¿Cómo configurar el entorno Python?
Recomendado varios mejores usos Python
IDE
y así sucesivamente. Nuestro desafío es que hay demasiadas opciones. En la puerta de la granja de cosecha, miramos las sandías y las uvas, pero estamos llenos de ambición pero no nos atrevemos a avanzar.
Si no ha configurado Python
el entorno, felicitaciones, siga este artículo para continuar, podrá cosechar la Python3.7
plataforma de programación de compilación basada en , así como el Jupyter
entorno de programación como herramienta principal, este artículo lo llevará a instalar una herramienta común para el análisis de datos y herramientas de visualización. , Ventanilla única, no se preocupe.
Si ha instalado Python3.7
el entorno, o anaconda
el entorno, también puede bajar a lo largo de la idea de que esta herramienta no es el punto, es la capacidad de configurar el entorno.
Pero si Python
vuelve a instalar la versión del entorno desconocido del sitio web oficial (descarga del foro desconocida), le recomiendo encarecidamente que lo desinstale ( Python
desinstale de la misma manera que el software normal, desinstálelo en el Panel de control). Después de todo, "el afilado de cuchillos no corta madera por error" , algunas versiones están incompletas y nadie puede predecir qué errores tendrás.
Este artículo toma el sistema Windows 10 X64 como ejemplo para demostrar el proceso de creación de un entorno de análisis de datos Python local.
1. Instale el entorno Python
1.1 Descarga del software Python
Como gran joven del siglo XXI, ¿siempre quieres jugar a la versión pirateada más auténtica? ! Eso fue lo que quedó de la generación anterior. Especialmente cuando la versión original es gratuita. Se recomienda descargar desde el sitio web oficial de Python https://www.python.org/ . Algunos amigos pueden cargar lentamente. No se preocupe. A menos que haya un problema de red, se puede acceder al sitio web.
Después de ingresar al sitio web oficial, puede simplemente seguir las indicaciones en el mapa, seleccionar la Windows
pestaña para acceder a Windows
la Python
versión de plataforma de los detalles de una sola página ( Releases Page
), se recomienda elegir 3.7 o posterior. Python2.7
Se detendrán todas las actualizaciones en 2020, como ha sido brillante Windows XP
, las últimas se convertirán poco a poco en el polvo de la historia, por lo que no se recomienda instalar esta columna Python2.7
.
En la Python
versión Select conviene prestar atención a su propia versión basada en la misma PC, si su versión es la 64, se recomienda elegir x86-64
la versión a descargar, o seleccionar directamente la versión regular. Recuerde que la mediana y las Python
versiones de computadora son consistentes, de lo contrario, el flujo de lágrimas después de todo había cavado un pozo ah.
Para aquellos que usan Mac OS, seleccione la pestaña Mac OS X para descargar. Los pasos son básicamente los mismos.
1.2 instalación del software Python
El proceso de instalación de Python es muy fácil de usar. Solo necesita hacer doble clic en el programa de instalación para establecer la ruta de instalación, "Recuerde verificar: Agregar Python 3.7 a la RUTA" y luego haga clic en Siguiente hasta que se complete la instalación.
La imagen de arriba add python3.7 to Path
significa que el programa agrega la ruta de instalación a la variable de entorno del sistema de forma predeterminada durante el proceso de instalación, ¡y este elemento debe estar marcado!
Ahora que hemos completado la Python3.7
instalación inicial . En cmd
la entrada de la línea de comando python
, puede ir directamente al python
entorno:
C:\Users\Administrator>python
Python 3.7.4 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
Continúe ingresando nuestra primera línea de la Python
declaración, abra el recorrido de nuestro análisis de datos:
>> print("Life is short, I do data analysis in python!")
"Life is short, I do data analysis in python!"
Si se Python
compara con la princesa, entonces, ¿cómo han pescado con una sirvienta, no es así? A menudo decimos que Python
una amplia gama de aplicaciones y análisis de datos, reptiles, programación de redes, inteligencia artificial, operación y mantenimiento y otros campos, basándonos en los hechos, porque Python
hay una gran cantidad de bibliotecas de terceros, que enriquecen enormemente lo Python
ecológico, hacen Python
casi cualquier cosa. Entonces, ¿cómo instalamos estas bibliotecas de terceros?
Sí, se PIP
debe decir que la herramienta es un poco experta en esta área. PIP
Comprender de forma intuitiva, que es Python
una pequeña herramienta para gestionar bibliotecas de terceros a medida, desempeñó el papel de sirvientas. Vamos a probarlo PIP
en cmd
la ventana de comandos de entrada para ver la ruta de instalación y la versión de PIP:
C:\Users\Administrator>pip --version
pip 19.1 from d:\users\lemeng\appdata\local\programs\python\python37\lib\site-packages\pip-19.1-py3.7.4.egg\pip (python 3.7)
Si el sistema le indica que PIP no es la última versión, continúe ejecutando los siguientes comandos:
C:\Users\Administrator>python -m pip install --upgrade pip
¿Es PIP así de simple? Lo anunciaremos más tarde.
2. Jupyter Notebook, la herramienta de programación más adecuada para el análisis de datos
Para ser precisos, Jupyter Notebook
no solo es adecuado para el análisis de datos, sino que también es muy adecuado para que los principiantes practiquen Python
.
Jupyter Notebook
Es una especie de "preguntas y respuestas" como una característica importante del Python
editor, además de la composición tipográfica de las notas, su programa, los resultados de cada pedido.
Esta columna se centra en Python
el proceso de análisis de datos Jupyter Notebook
utilizado. En el caso real, ingresa una oración y devuelve el resultado de la ejecución del programa. Y la memoria del programa se bloqueará después de la ejecución, y las variables se destruirán y la memoria se liberará hasta que se cierre el programa.
Esta característica es particularmente importante en el campo del análisis de datos. En el proceso de análisis de datos, todas las rutinas se basan en las características de los datos en sí. Especialmente para tablas de datos medianas y grandes, solo cuando esté familiarizado con las características de los datos podrá analizar los datos en el siguiente paso. Esta es también la mayor diferencia entre la programación de datos y la programación de red.
Primero lo instalamos Jupyter Notebook
y luego experimentamos su conveniencia a través de un ejemplo.
Recomendamos la instalación con un solo botón mediante la herramienta PIP, cmd
ingrese la siguiente ventana de comando:
C:\Users\Administrator>pip install jupyter
Aquí está la fuente de reemplazo de pip recomendada para usted, aquí está Windows 10 como ejemplo:
Primero abra para ver la extensión del archivo: Ver -> verifique la extensión del archivo
Primero ingrese en la carpeta de Windows "Tecla de acceso directo: icono de Win + E" ventana:% APPDATA%
Luego cree una carpeta pip en la parte inferior, luego vaya a la carpeta pip para crear un pip.ini, y luego ingrese el contenido dentro
Ingrese el contenido:
[global] index-url = http://mirrors.aliyun.com/pypi/simple/ [install] trusted-host=mirrors.aliyun.com
Desde entonces, el final de la fuente de cambio
suplemento:
A partir de pip10.0.0, hay un subcomando de configuración que se puede usar para cambiar la configuración, sin necesidad de preocuparse por la ruta del archivo de configuración en diferentes sistemas operativos.
详见 讨论 :Crea un comando para facilitar el acceso al archivo de configuración · Edición # 1736 · pypa / pip
Ejemplo de uso real:
# 阿里源 pip config set global.index-url http://mirrors.aliyun.com/pypi/simple/ # 豆瓣源 pip config set global.index-url https://pypi.douban.com/simple # 阿里云 http://mirrors.aliyun.com/pypi/simple/ # 科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ # 豆瓣(douban) http://pypi.douban.com/simple/ # 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/ # 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/
Después de que la instalación del mensaje sea exitosa, se recomienda configurar nuestra ruta de aprendizaje de Python de uso común, de modo que los archivos nuevos y guardados se coloquen en esta ruta de forma predeterminada. En la cmd
ventana de entrada continua:
C:\Users\Administrator>jupyter notebook --generate-config
Writing default config to C:\Users\Administrator\.jupyter\jupyter_notebook_config.py
En el jupyter_notebool_config.py
archivo de solicitud de paso Editar , busque c.Notebook.notebok_dir
, suelte los comentarios anteriores y complete la modificación de acuerdo con la siguiente figura (complete la ruta de acuerdo con su propia situación, teniendo cuidado de evitar colocar la ruta china, déjese cavar), Guardar y Cerrar.
Hasta ahora, se ha configurado el entorno Python, echémosle un vistazo.
En la cmd
ventana, ingrese jupyter notebook
, inicie el entorno:
C:\Users\Administrator>jupyter notebook
Por New
menú, cree un nuevo Python 3
post-programa, continúe ingresando a la nueva página:
for i in range(10):
print(i, end=",")
jupyter notebook
La interfaz y los efectos son los siguientes:
En Jupyter
la barra de herramientas estándar, hay un botón para guardar, cortar, copiar, pegar, ejecutar y detener, se le pedirá que mueva el mouse sobre el botón, en general, sigue siendo muy humano, creo que no debería haber ninguna dificultad para comenzar.
Tenga en cuenta que mis amigos aquí y en las secciones posteriores de esta columna, a menos que se especifique lo contrario, Python
el programa de demostración se está Jupyter Notebook
llevando a cabo.
3. Tres artefactos del análisis de datos
- Numpy, un módulo básico de informática científica
En términos simples, Numpy
proporciona una matriz de contenedores N-dimensional, basada en Numpy
, puede transformar fácilmente y calcular la matriz, que la Python
alta eficiencia que viene con una lista de más anidados, no solo la eficiencia operativa, la eficiencia de desarrollo es muy alta . Y las herramientas de análisis de datos posteriores se basan en una gran cantidad de Numpy
desarrollo de, que quisiera que el análisis de datos de Topsy se deba instalar y comprender a Numpy.
Se recomienda instalar Numpy con PIP. Normalmente, hay 2 métodos: instalación en línea e instalación fuera de línea. Si la condición de la red también puede estar en la cmd
ventana de entrada:
C:\Users\Administrator>pip install numpy
PIP buscará automáticamente una versión de Numpy que coincida con la versión de Python y la instalará.
Si tiene una red deficiente, porque el enlace al sitio extranjero no es estable, es muy probable que la descarga falle. Aquí recomiendo el sitio espejo de Alibaba Cloud http://mirrors.aliyun.com/pypi/simple/ . Los amigos pueden ingresar al punto espejo de Alibaba Cloud, descargar el paquete correspondiente al local, por ejemplo c:/盘
, realizar la instalación local. La ruta local del archivo debe incluirse en el comando de instalación, de la siguiente manera:
C:\Users\Administrator>pip install c:/numpy-1.17.2-cp37-cp37m-win_amd64.whl
Aquí se explica cómo encontrar una versión que se adapte a usted. Cp37 significa adecuado para Python3.7, win_amd64 significa adecuado para la plataforma Windows de 64 bits. El archivo en formato whl es esencialmente un paquete comprimido, que contiene archivos py y archivos pyd compilados para una fácil instalación.
En el seguimiento de esta columna, todavía habrá algunas bibliotecas que deben instalarse usando PIP. Los amigos pueden intentar usar el sitio espejo de Alibaba Cloud para la instalación fuera de línea, las rutinas son las mismas. "También puede utilizar la fuente de cambio"
En esencia, la instalación en línea consiste en ir al sitio para buscar el archivo whl apropiado para la instalación.
Una vez completada la instalación, intentamos la operación del paquete de plomo, si el paquete piloto tiene éxito, significa que Numpy
la instalación de todo lo mejor. En Jupyter Notebook
la entrada y ejecute lo siguiente:
# numpy导包操作
import numpy as np
- Pandas, una herramienta nacida para resolver análisis de datos
Para decirlo sin rodeos, Pandas
en realidad es un contenedor de mesa y ofrece una gran cantidad de hermosas operaciones de espectáculos, que pueden satisfacer las necesidades diarias de varios "complementos".
Excel
Todos lo usan, Excel
y hay muchas operaciones, como filtrado, función, clasificación, perspectiva, dibujo, copia, etc.
Pero la era del big data, Excel
hay muchas limitaciones, solo puede depender de la automatización VBA
, pero un grado limitado de automatización; una sola Excel
forma de capacidad limitada de más de 100,000 líneas para funcionar con fuerza, no ejecuta la eficiencia; no es compatible con otras herramientas, funciones estadísticas limitadas, no se puede personalizar ...
Porque Pandas
estos no son un problema.
Pandas
Al incorporar una gran cantidad de bibliotecas y algunos modelos de datos estándar, proporciona las herramientas necesarias para manipular de manera eficiente grandes conjuntos de datos. Dependiendo de la Python
sintaxis, puede fácilmente la programación funcional y la programación orientada a objetos, puede fácilmente y varias bases de datos para el acoplamiento, todo tipo de funciones se pueden personalizar de acuerdo con las características del conjunto de datos y Pandas
aún los conceptos básicos de minería de datos e inteligencia artificial.
La instalación de Pandas es la misma que la de Numpy. Pero debe tenerse en cuenta que Pandas está encapsulado en base a Numpy, por lo que el orden de instalación es Numpy primero y Pandas después. No cambie el orden.
C:\Users\Administrator>pip install pandas
Si la velocidad de la red no es buena, se recomienda instalar Alibaba Cloud sin conexión. Consulte Numpy para conocer el proceso. "O cambia la fuente"
Una vez completada la instalación, intentamos guiar la operación del paquete, si el paquete es exitoso, entonces todo va bien.
# pandas导包操作
import pandas as pd
- Matplotlib, una herramienta de visualización imprescindible para principiantes
matplotlib es una herramienta de dibujo desarrollada en base a Numpy, que puede dibujar fácilmente gráficos con calidad de publicación, y el efecto no es un poquito mejor que Excel. Los desarrolladores pueden generar dibujos con solo unas pocas líneas de código. Generalmente, se pueden dibujar gráficos de líneas, gráficos de dispersión, histogramas, gráficos circulares, histogramas, subgráficos, etc.
El proceso de instalación también es muy simple. Al igual que Numpy, escriba la línea de comando:
C:\Users\Administrator>pip install matplotlib
Si la velocidad de la red no es buena, se recomienda instalar Alibaba Cloud sin conexión. Consulte Numpy para conocer el proceso.
Una vez completada la instalación, miramos la demostración, para ver las Jupyter
herramientas de visualización y juntas, ¿qué tipo de chispas puede provocar? Ingresamos al siguiente programa:
# 这是 Python 的一个魔法函数,在命令行下起作用,方便图形在 Jupyter Notebook 中显示
%matplotlib inline
# 导包,约定俗成,固定格式
import matplotlib.pyplot as plt
import numpy as np
# 生成0-2π区间的含100项的等差数列
x = np.linspace(0,2*np.pi,100)
# 求x值对应的sin,赋值给y
y = np.sin(x)
# 绘图
plt.plot(x,y)
La característica más importante del dibujo de Matplotlib es que se basa en Python. Es muy conveniente limpiar los datos, interactuar con los datos e interactuar con la interfaz gráfica. Se puede hacer en una sola parada. En los siguientes cursos, le daré una introducción detallada sobre cómo usar este conjunto de herramientas para hacer cosas interesantes.
4. Pyecharts, una herramienta nacional de visualización a nivel de diosa
Antes de eso, hablemos de eso primero Echarts
.
Echarts
Es una biblioteca de visualización de código abierto implementada usando JavaScript. Ha sido rápidamente elogiada por amigos desde sus inicios. Los efectos son geniales, eficientes en uso, interactivos, altamente personalizables, etc., y los elogios no se enumeran uno por uno.
Para los amigos que aprenden Python, el único dolor de cabeza es la necesidad de tener cierto conocimiento de JavaScript, especialmente para los recién llegados, esto parece un poco antipático.
Pero esto no supone ningún problema para quienes hayan terminado de estudiar esta columna. Aquí te recomendamos una herramienta útil Pyecharts
, la sintaxis es totalmente compatible con Python, el efecto completo del Echarts
par.
Veamos cómo instalarlo Pyecharts
. cmd
Utilice PIP para realizar tareas de instalación en la línea de comando:
C:\Users\Administrator>pip install pyecharts -U
Cabe señalar aquí que hay Pyecharts
dos versiones Version0.5x
y las Version1.x
dos versiones no son compatibles. v1.x
La sintaxis se adopta por completo TypeHint
, la expresión es más OOP
(programación orientada a objetos) y la escritura es más flexible. v0.5x
Sigue siendo nativo, muy cercano al lenguaje de programación.
En línea con la idea de avanzar con los tiempos avanzados es fácil de usar, recomendamos a los amigos que usen la última versión. De hecho, v0.5x
después de mis diversas pruebas, hay algunos problemas con la compatibilidad con el portátil y v1.x
el efecto es más estable. Con el fin de reducir la versión problemática de los factores que podrían causar amigos, Version1.8.1
escriba el caso basado en esta columna .
Una vez completada la instalación, primero echemos un vistazo al efecto, ingrese el siguiente programa Python:
# 导入绘图工具
from pyecharts import options as opts
from pyecharts.charts import Bar
attr = ["衬衫", "羊毛衫", "雪纺衫", "裤子" , "高跟鞋" , "袜子"]
v1 = [5, 20, 36, 10, 75, 90]
v2 = [10, 25, 8, 60, 20, 80]
bar = (
Bar()
.add_xaxis(attr)
.add_yaxis("商家A", v1)
.add_yaxis("商家B", v2)
.set_global_opts(title_opts=opts.TitleOpts(title="Bar-基本示例", subtitle="我是副标题"))
)
# 在 notebook 中输出
bar.render_notebook()
Si aparece el mensaje anterior, no hay problema, ¡la versión 1.9 aún no se ha lanzado!
5. Resumen
En este punto, se ha creado todo el entorno de análisis de datos basado en Python. En general, la importancia de construir este entorno radica en:
- Proporciona un conjunto de plataforma de limpieza de datos, puede observar fácilmente la ley de datos y completar las estadísticas y el análisis de los indicadores correspondientes;
- Proporciona una plataforma de visualización. Cambiar de métodos de dibujo tradicionales a métodos de visualización interactivos, automatizados y por lotes;
- Ampliada la fuente de análisis de datos. Las capacidades de Python también se demostrarán plenamente a este respecto. Con esta plataforma, sus fuentes de datos ya no se limitan a hojas de cálculo de Excel. Con la iluminación gradual de los puntos de habilidad, puede obtener libremente de varias bases de datos, formularios en línea y varios archivos de texto.
- Las habilidades serán más completas. Los datos que puede manipular no solo se limitan a números, texto, imágenes, etc., se convertirán en sus objetos operativos; el nivel de operación es más refinado y la eficiencia ha mejorado enormemente; la cantidad de datos también ha aumentado rápidamente de miles de dimensiones a cientos de Diez mil niveles. En cuanto a la mayor cantidad de datos, depende de un mejor rendimiento del hardware y ciertas capacidades de modelado, pero es seguro que las habilidades de análisis de datos de Python no estarán desactualizadas;
- Más importante aún, proporciona una escalera para la mejora de las habilidades y el avance profesional. Con esta plataforma, puede concentrarse en convertirse en un analista de datos, puede transformarse en un ingeniero de big data y puede ser promovido para convertirse en un ingeniero de minería de datos, incluso un científico de datos y un experto en algoritmos.
Así que amigos, ¿a qué están esperando? Dense prisa y únanse al estudio.