¿El entorno de análisis de datos no coincidirá? ¡Mira aquí!

Hola, soy Yuechuang.

No es fácil aprender un lenguaje de programación por tu cuenta. Según mi propia experiencia, es necesario superar varios obstáculos, desde la mentalidad hasta la fuerza física y el pensamiento, para llegar a ser un buen programador al final. Por lo tanto, para dominar un idioma, debe sentirlo con el corazón y apreciar el entendimiento tácito entre usted y "ella".

Pero, por desgracia, demasiados amigos, no en el medio, pero no empezaron, sí, incluso la Pythondelicada mano princesa no se tocó.

¿Qué versión de Python debo descargar?

¿Cómo configurar el entorno Python?

Recomendado varios mejores usos Python IDEy así sucesivamente. Nuestro desafío es que hay demasiadas opciones. En la puerta de la granja de cosecha, miramos las sandías y las uvas, pero estamos llenos de ambición pero no nos atrevemos a avanzar.

Si no ha configurado Pythonel entorno, felicitaciones, siga este artículo para continuar, podrá cosechar la Python3.7plataforma de programación de compilación basada en , así como el Jupyterentorno de programación como herramienta principal, este artículo lo llevará a instalar una herramienta común para el análisis de datos y herramientas de visualización. , Ventanilla única, no se preocupe.

Si ha instalado Python3.7el entorno, o anacondael entorno, también puede bajar a lo largo de la idea de que esta herramienta no es el punto, es la capacidad de configurar el entorno.

Pero si Pythonvuelve a instalar la versión del entorno desconocido del sitio web oficial (descarga del foro desconocida), le recomiendo encarecidamente que lo desinstale ( Pythondesinstale de la misma manera que el software normal, desinstálelo en el Panel de control). Después de todo, "el afilado de cuchillos no corta madera por error" , algunas versiones están incompletas y nadie puede predecir qué errores tendrás.

Este artículo toma el sistema Windows 10 X64 como ejemplo para demostrar el proceso de creación de un entorno de análisis de datos Python local.

1. Instale el entorno Python

1.1 Descarga del software Python

Como gran joven del siglo XXI, ¿siempre quieres jugar a la versión pirateada más auténtica? ! Eso fue lo que quedó de la generación anterior. Especialmente cuando la versión original es gratuita. Se recomienda descargar desde el sitio web oficial de Python https://www.python.org/ . Algunos amigos pueden cargar lentamente. No se preocupe. A menos que haya un problema de red, se puede acceder al sitio web.

descripción de la imagen

Después de ingresar al sitio web oficial, puede simplemente seguir las indicaciones en el mapa, seleccionar la Windowspestaña para acceder a Windowsla Pythonversión de plataforma de los detalles de una sola página ( Releases Page), se recomienda elegir 3.7 o posterior. Python2.7Se detendrán todas las actualizaciones en 2020, como ha sido brillante Windows XP, las últimas se convertirán poco a poco en el polvo de la historia, por lo que no se recomienda instalar esta columna Python2.7.

En la Pythonversión Select conviene prestar atención a su propia versión basada en la misma PC, si su versión es la 64, se recomienda elegir x86-64la versión a descargar, o seleccionar directamente la versión regular. Recuerde que la mediana y las Pythonversiones de computadora son consistentes, de lo contrario, el flujo de lágrimas después de todo había cavado un pozo ah.

descripción de la imagen

Para aquellos que usan Mac OS, seleccione la pestaña Mac OS X para descargar. Los pasos son básicamente los mismos.

1.2 instalación del software Python

El proceso de instalación de Python es muy fácil de usar. Solo necesita hacer doble clic en el programa de instalación para establecer la ruta de instalación, "Recuerde verificar: Agregar Python 3.7 a la RUTA" y luego haga clic en Siguiente hasta que se complete la instalación.

descripción de la imagen

La imagen de arriba add python3.7 to Pathsignifica que el programa agrega la ruta de instalación a la variable de entorno del sistema de forma predeterminada durante el proceso de instalación, ¡y este elemento debe estar marcado!

Ahora que hemos completado la Python3.7instalación inicial . En cmdla entrada de la línea de comando python, puede ir directamente al pythonentorno:

C:\Users\Administrator>python
Python 3.7.4 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.

Continúe ingresando nuestra primera línea de la Pythondeclaración, abra el recorrido de nuestro análisis de datos:

>> print("Life is short, I do data analysis in python!")
"Life is short, I do data analysis in python!"

Si se Pythoncompara con la princesa, entonces, ¿cómo han pescado con una sirvienta, no es así? A menudo decimos que Pythonuna amplia gama de aplicaciones y análisis de datos, reptiles, programación de redes, inteligencia artificial, operación y mantenimiento y otros campos, basándonos en los hechos, porque Pythonhay una gran cantidad de bibliotecas de terceros, que enriquecen enormemente lo Pythonecológico, hacen Pythoncasi cualquier cosa. Entonces, ¿cómo instalamos estas bibliotecas de terceros?

Sí, se PIPdebe decir que la herramienta es un poco experta en esta área. PIPComprender de forma intuitiva, que es Pythonuna pequeña herramienta para gestionar bibliotecas de terceros a medida, desempeñó el papel de sirvientas. Vamos a probarlo PIPen cmdla ventana de comandos de entrada para ver la ruta de instalación y la versión de PIP:

C:\Users\Administrator>pip --version
pip 19.1 from d:\users\lemeng\appdata\local\programs\python\python37\lib\site-packages\pip-19.1-py3.7.4.egg\pip (python 3.7)

Si el sistema le indica que PIP no es la última versión, continúe ejecutando los siguientes comandos:

C:\Users\Administrator>python -m pip install --upgrade pip

¿Es PIP así de simple? Lo anunciaremos más tarde.

2. Jupyter Notebook, la herramienta de programación más adecuada para el análisis de datos

Para ser precisos, Jupyter Notebookno solo es adecuado para el análisis de datos, sino que también es muy adecuado para que los principiantes practiquen Python.

Jupyter NotebookEs una especie de "preguntas y respuestas" como una característica importante del Pythoneditor, además de la composición tipográfica de las notas, su programa, los resultados de cada pedido.

Esta columna se centra en Pythonel proceso de análisis de datos Jupyter Notebookutilizado. En el caso real, ingresa una oración y devuelve el resultado de la ejecución del programa. Y la memoria del programa se bloqueará después de la ejecución, y las variables se destruirán y la memoria se liberará hasta que se cierre el programa.

Esta característica es particularmente importante en el campo del análisis de datos. En el proceso de análisis de datos, todas las rutinas se basan en las características de los datos en sí. Especialmente para tablas de datos medianas y grandes, solo cuando esté familiarizado con las características de los datos podrá analizar los datos en el siguiente paso. Esta es también la mayor diferencia entre la programación de datos y la programación de red.

Primero lo instalamos Jupyter Notebooky luego experimentamos su conveniencia a través de un ejemplo.

Recomendamos la instalación con un solo botón mediante la herramienta PIP, cmdingrese la siguiente ventana de comando:

C:\Users\Administrator>pip install jupyter

Aquí está la fuente de reemplazo de pip recomendada para usted, aquí está Windows 10 como ejemplo:

  1. Primero abra para ver la extensión del archivo: Ver -> verifique la extensión del archivo

  2. Primero ingrese en la carpeta de Windows "Tecla de acceso directo: icono de Win + E" ventana:% APPDATA%

    imagen-20200803172555191

  3. Luego cree una carpeta pip en la parte inferior, luego vaya a la carpeta pip para crear un pip.ini, y luego ingrese el contenido dentro

  4. Ingrese el contenido:

    [global]
    index-url = http://mirrors.aliyun.com/pypi/simple/
    [install]
    trusted-host=mirrors.aliyun.com
    

  5. Desde entonces, el final de la fuente de cambio

  6. suplemento:

    A partir de pip10.0.0, hay un subcomando de configuración que se puede usar para cambiar la configuración, sin necesidad de preocuparse por la ruta del archivo de configuración en diferentes sistemas operativos.

    详见 讨论 :Crea un comando para facilitar el acceso al archivo de configuración · Edición # 1736 · pypa / pip

    Ejemplo de uso real:

    # 阿里源
    pip config set global.index-url http://mirrors.aliyun.com/pypi/simple/
    
    # 豆瓣源
    pip config set global.index-url https://pypi.douban.com/simple
    
    # 阿里云 http://mirrors.aliyun.com/pypi/simple/
    # 科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
    # 豆瓣(douban) http://pypi.douban.com/simple/
    # 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/
    # 中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/
    

Después de que la instalación del mensaje sea exitosa, se recomienda configurar nuestra ruta de aprendizaje de Python de uso común, de modo que los archivos nuevos y guardados se coloquen en esta ruta de forma predeterminada. En la cmdventana de entrada continua:

C:\Users\Administrator>jupyter notebook --generate-config
Writing default config to C:\Users\Administrator\.jupyter\jupyter_notebook_config.py

En el jupyter_notebool_config.pyarchivo de solicitud de paso Editar , busque c.Notebook.notebok_dir, suelte los comentarios anteriores y complete la modificación de acuerdo con la siguiente figura (complete la ruta de acuerdo con su propia situación, teniendo cuidado de evitar colocar la ruta china, déjese cavar), Guardar y Cerrar.

descripción de la imagen

Hasta ahora, se ha configurado el entorno Python, echémosle un vistazo.

En la cmdventana, ingrese jupyter notebook, inicie el entorno:

C:\Users\Administrator>jupyter notebook

Por Newmenú, cree un nuevo Python 3post-programa, continúe ingresando a la nueva página:

for i in range(10):
    print(i, end=",")

jupyter notebook La interfaz y los efectos son los siguientes:

descripción de la imagen

En Jupyterla barra de herramientas estándar, hay un botón para guardar, cortar, copiar, pegar, ejecutar y detener, se le pedirá que mueva el mouse sobre el botón, en general, sigue siendo muy humano, creo que no debería haber ninguna dificultad para comenzar.

Tenga en cuenta que mis amigos aquí y en las secciones posteriores de esta columna, a menos que se especifique lo contrario, Pythonel programa de demostración se está Jupyter Notebookllevando a cabo.

3. Tres artefactos del análisis de datos

  • Numpy, un módulo básico de informática científica

En términos simples, Numpyproporciona una matriz de contenedores N-dimensional, basada en Numpy, puede transformar fácilmente y calcular la matriz, que la Pythonalta eficiencia que viene con una lista de más anidados, no solo la eficiencia operativa, la eficiencia de desarrollo es muy alta . Y las herramientas de análisis de datos posteriores se basan en una gran cantidad de Numpydesarrollo de, que quisiera que el análisis de datos de Topsy se deba instalar y comprender a Numpy.

Se recomienda instalar Numpy con PIP. Normalmente, hay 2 métodos: instalación en línea e instalación fuera de línea. Si la condición de la red también puede estar en la cmdventana de entrada:

C:\Users\Administrator>pip install numpy

PIP buscará automáticamente una versión de Numpy que coincida con la versión de Python y la instalará.

Si tiene una red deficiente, porque el enlace al sitio extranjero no es estable, es muy probable que la descarga falle. Aquí recomiendo el sitio espejo de Alibaba Cloud http://mirrors.aliyun.com/pypi/simple/ . Los amigos pueden ingresar al punto espejo de Alibaba Cloud, descargar el paquete correspondiente al local, por ejemplo c:/盘, realizar la instalación local. La ruta local del archivo debe incluirse en el comando de instalación, de la siguiente manera:

C:\Users\Administrator>pip install c:/numpy-1.17.2-cp37-cp37m-win_amd64.whl

Aquí se explica cómo encontrar una versión que se adapte a usted. Cp37 significa adecuado para Python3.7, win_amd64 significa adecuado para la plataforma Windows de 64 bits. El archivo en formato whl es esencialmente un paquete comprimido, que contiene archivos py y archivos pyd compilados para una fácil instalación.

En el seguimiento de esta columna, todavía habrá algunas bibliotecas que deben instalarse usando PIP. Los amigos pueden intentar usar el sitio espejo de Alibaba Cloud para la instalación fuera de línea, las rutinas son las mismas. "También puede utilizar la fuente de cambio"

En esencia, la instalación en línea consiste en ir al sitio para buscar el archivo whl apropiado para la instalación.

Una vez completada la instalación, intentamos la operación del paquete de plomo, si el paquete piloto tiene éxito, significa que Numpyla instalación de todo lo mejor. En Jupyter Notebookla entrada y ejecute lo siguiente:

# numpy导包操作
import numpy as np
  • Pandas, una herramienta nacida para resolver análisis de datos

Para decirlo sin rodeos, Pandasen realidad es un contenedor de mesa y ofrece una gran cantidad de hermosas operaciones de espectáculos, que pueden satisfacer las necesidades diarias de varios "complementos".

ExcelTodos lo usan, Excely hay muchas operaciones, como filtrado, función, clasificación, perspectiva, dibujo, copia, etc.

Pero la era del big data, Excelhay muchas limitaciones, solo puede depender de la automatización VBA, pero un grado limitado de automatización; una sola Excelforma de capacidad limitada de más de 100,000 líneas para funcionar con fuerza, no ejecuta la eficiencia; no es compatible con otras herramientas, funciones estadísticas limitadas, no se puede personalizar ...

Porque Pandasestos no son un problema.

PandasAl incorporar una gran cantidad de bibliotecas y algunos modelos de datos estándar, proporciona las herramientas necesarias para manipular de manera eficiente grandes conjuntos de datos. Dependiendo de la Pythonsintaxis, puede fácilmente la programación funcional y la programación orientada a objetos, puede fácilmente y varias bases de datos para el acoplamiento, todo tipo de funciones se pueden personalizar de acuerdo con las características del conjunto de datos y Pandasaún los conceptos básicos de minería de datos e inteligencia artificial.

La instalación de Pandas es la misma que la de Numpy. Pero debe tenerse en cuenta que Pandas está encapsulado en base a Numpy, por lo que el orden de instalación es Numpy primero y Pandas después. No cambie el orden.

C:\Users\Administrator>pip install pandas

Si la velocidad de la red no es buena, se recomienda instalar Alibaba Cloud sin conexión. Consulte Numpy para conocer el proceso. "O cambia la fuente"

Una vez completada la instalación, intentamos guiar la operación del paquete, si el paquete es exitoso, entonces todo va bien.

# pandas导包操作
import pandas as pd
  • Matplotlib, una herramienta de visualización imprescindible para principiantes

matplotlib es una herramienta de dibujo desarrollada en base a Numpy, que puede dibujar fácilmente gráficos con calidad de publicación, y el efecto no es un poquito mejor que Excel. Los desarrolladores pueden generar dibujos con solo unas pocas líneas de código. Generalmente, se pueden dibujar gráficos de líneas, gráficos de dispersión, histogramas, gráficos circulares, histogramas, subgráficos, etc.

El proceso de instalación también es muy simple. Al igual que Numpy, escriba la línea de comando:

C:\Users\Administrator>pip install matplotlib 

Si la velocidad de la red no es buena, se recomienda instalar Alibaba Cloud sin conexión. Consulte Numpy para conocer el proceso.

Una vez completada la instalación, miramos la demostración, para ver las Jupyterherramientas de visualización y juntas, ¿qué tipo de chispas puede provocar? Ingresamos al siguiente programa:

# 这是 Python 的一个魔法函数,在命令行下起作用,方便图形在 Jupyter Notebook 中显示
%matplotlib inline
# 导包,约定俗成,固定格式
import matplotlib.pyplot as plt
import numpy as np

# 生成0-2π区间的含100项的等差数列
x = np.linspace(0,2*np.pi,100)
# 求x值对应的sin,赋值给y
y = np.sin(x)
# 绘图
plt.plot(x,y)

imagen-20200803201039003

La característica más importante del dibujo de Matplotlib es que se basa en Python. Es muy conveniente limpiar los datos, interactuar con los datos e interactuar con la interfaz gráfica. Se puede hacer en una sola parada. En los siguientes cursos, le daré una introducción detallada sobre cómo usar este conjunto de herramientas para hacer cosas interesantes.

4. Pyecharts, una herramienta nacional de visualización a nivel de diosa

Antes de eso, hablemos de eso primero Echarts.

Echarts Es una biblioteca de visualización de código abierto implementada usando JavaScript. Ha sido rápidamente elogiada por amigos desde sus inicios. Los efectos son geniales, eficientes en uso, interactivos, altamente personalizables, etc., y los elogios no se enumeran uno por uno.

Para los amigos que aprenden Python, el único dolor de cabeza es la necesidad de tener cierto conocimiento de JavaScript, especialmente para los recién llegados, esto parece un poco antipático.

Pero esto no supone ningún problema para quienes hayan terminado de estudiar esta columna. Aquí te recomendamos una herramienta útil Pyecharts, la sintaxis es totalmente compatible con Python, el efecto completo del Echartspar.

Veamos cómo instalarlo Pyecharts. cmdUtilice PIP para realizar tareas de instalación en la línea de comando:

C:\Users\Administrator>pip install pyecharts -U

Cabe señalar aquí que hay Pyechartsdos versiones Version0.5xy las Version1.xdos versiones no son compatibles. v1.xLa sintaxis se adopta por completo TypeHint, la expresión es más OOP(programación orientada a objetos) y la escritura es más flexible. v0.5xSigue siendo nativo, muy cercano al lenguaje de programación.

En línea con la idea de avanzar con los tiempos avanzados es fácil de usar, recomendamos a los amigos que usen la última versión. De hecho, v0.5xdespués de mis diversas pruebas, hay algunos problemas con la compatibilidad con el portátil y v1.xel efecto es más estable. Con el fin de reducir la versión problemática de los factores que podrían causar amigos, Version1.8.1escriba el caso basado en esta columna .

Una vez completada la instalación, primero echemos un vistazo al efecto, ingrese el siguiente programa Python:

# 导入绘图工具
from pyecharts import options as opts
from pyecharts.charts import Bar

attr = ["衬衫", "羊毛衫", "雪纺衫", "裤子" , "高跟鞋" , "袜子"]
v1 = [5, 20, 36, 10, 75, 90]
v2 = [10, 25, 8, 60, 20, 80]
bar = (
        Bar()
        .add_xaxis(attr)
        .add_yaxis("商家A", v1)
        .add_yaxis("商家B", v2)
        .set_global_opts(title_opts=opts.TitleOpts(title="Bar-基本示例", subtitle="我是副标题"))
    )
# 在 notebook 中输出
bar.render_notebook()

imagen-20200803201951148

Si aparece el mensaje anterior, no hay problema, ¡la versión 1.9 aún no se ha lanzado!

5. Resumen

En este punto, se ha creado todo el entorno de análisis de datos basado en Python. En general, la importancia de construir este entorno radica en:

  • Proporciona un conjunto de plataforma de limpieza de datos, puede observar fácilmente la ley de datos y completar las estadísticas y el análisis de los indicadores correspondientes;
  • Proporciona una plataforma de visualización. Cambiar de métodos de dibujo tradicionales a métodos de visualización interactivos, automatizados y por lotes;
  • Ampliada la fuente de análisis de datos. Las capacidades de Python también se demostrarán plenamente a este respecto. Con esta plataforma, sus fuentes de datos ya no se limitan a hojas de cálculo de Excel. Con la iluminación gradual de los puntos de habilidad, puede obtener libremente de varias bases de datos, formularios en línea y varios archivos de texto.
  • Las habilidades serán más completas. Los datos que puede manipular no solo se limitan a números, texto, imágenes, etc., se convertirán en sus objetos operativos; el nivel de operación es más refinado y la eficiencia ha mejorado enormemente; la cantidad de datos también ha aumentado rápidamente de miles de dimensiones a cientos de Diez mil niveles. En cuanto a la mayor cantidad de datos, depende de un mejor rendimiento del hardware y ciertas capacidades de modelado, pero es seguro que las habilidades de análisis de datos de Python no estarán desactualizadas;
  • Más importante aún, proporciona una escalera para la mejora de las habilidades y el avance profesional. Con esta plataforma, puede concentrarse en convertirse en un analista de datos, puede transformarse en un ingeniero de big data y puede ser promovido para convertirse en un ingeniero de minería de datos, incluso un científico de datos y un experto en algoritmos.

Así que amigos, ¿a qué están esperando? Dense prisa y únanse al estudio.

Supongo que te gusta

Origin blog.csdn.net/qq_33254766/article/details/109290993
Recomendado
Clasificación