Python - Comment l'auto-Python

Python est un langage de programmation à usage général, est largement utilisé dans les champs de données scientifiques au cours de la dernière décennie. En fait, Python est la deuxième aux données scientifiques dans le domaine de la R Deuxième langage de programmation le plus populaire .

L'objectif principal de cet article est de montrer combien il est facile d'utiliser Python ont des données d'apprentissage scientifiques. Vous pourriez penser qu'ils doivent d'abord devenir un programmeur Python avancé avant de pouvoir effectuer des tâches complexes généralement associées à des données scientifiques, cependant, est pas le cas. Python est livré avec beaucoup de bibliothèque d'outils utiles, ils peuvent apporter un soutien puissant pour vous en arrière-plan. Vous ne savez même pas ce que les programmes en cours d'exécution, vous ne devez pas se soucier de ceux-ci. La seule chose que vous avez vraiment besoin de savoir est que vous devez effectuer certaines tâches spécifiques, alors que Python ces tâches deviennent tout à fait simple.

Donc, nous allons commencer maintenant.

Les données de configuration requises pour l'environnement Python scientifique

Que ce soit l'ordinateur que vous utilisez Mac ou Windows, je vous suggère de télécharger une version gratuite vous permet d'accéder facilement à la version Python autant de modules utiles.

J'ai essayé un certain nombre de versions de Python, ici, je vous recommande d' utiliser Anaconda Continuum Analytics fournit . Cette version contient plus de 200 bibliothèque d'outils Python. Pour comprendre les différences dans les paquets Python, les modules et les bibliothèques, s'il vous plaît se référer à cet article .

Anaconda, lorsque vous téléchargez, vous devez sélectionner la version ou télécharger Python 2 Python version 3. Je recommande fortement que vous utilisez la version Python 17/02/12. À la fin de 2016, la grande majorité des utilisateurs Python sciences non informatiques utilisent cette version de Python. Il peut compléter la tâche avec brio les données scientifiques, plus facile à apprendre que Python 3, et comme des scripts Python et des fragments de code des sites tels que GitHub dans les millions, pour votre référence, la vie serait plus facile.

Anaconda est également livré avec l'environnement de programmation ipython, il est recommandé d'utiliser. Après l'installation d'Anaconda, juste naviguer vers un ordinateur portable Jupyter et ouvrez le programme, vous pouvez ouvrir IPython dans un navigateur Web. programme d'ordinateur portable Jupyter démarre l'application automatiquement dans le navigateur Web.

 


294afd9ee97c7c51f0f3a2bec2b028123933a786

Vous pouvez consulter cet article pour savoir comment changer le chemin dans le cahier ipython.

Apprendre les bases

Avant de comprendre les données bibliométriques Python, vous devez d'abord apprendre quelques rudiments de Python. Python est un langage de programmation orienté objet. En Python, l'objet peut être affectée à une variable peut être passée comme paramètre à une fonction. Les objets suivants sont Python: nombres, des chaînes, des listes, tuples, ensembles, dictionnaires, et une catégorie de fonction.

Python est une fonction ordinaire et la fonction est essentiellement les mêmes mathématiques - il reçoit des données d'entrée, traite les données et renvoie le résultat. La fonction de sortie des résultats dépend entièrement de la façon dont il est conçu. D'autre part, les classes Python est conçu pour produire l'objet prototype à d'autres objets.

Si votre objectif est d'écrire rapide, réutilisable, facile à modifier le code Python, vous devez utiliser les fonctions et les classes. Utiliser des fonctions et des classes aident à assurer le code propre et efficace.

Maintenant, nous allons voir ce que la bibliothèque d'outils disponibles de données scientifiques Python a.

Scientific Computing: Numpy et Scipy

Numpy python est un outil important pour le traitement d'un lot d'objets à réseau à n dimensions, et Scipy fournit un certain nombre d'algorithmes mathématiques et mettre en oeuvre des fonctions complexes peuvent être utilisés pour étendre la fonctionnalité bibliothèque Numpy. bibliothèque scipy pour Python ajoute une fonction spécialisée de la science, des données scientifiques pour répondre à certaines des tâches spécifiques.

Pour utiliser Numpy (ou toutes les autres bibliothèques Python) en Python, vous devez d'abord importer la bibliothèque d'outils correspondant.

 


6cc4a1539315a415495f2faf7d3843972c03ddd0

np.array (scores)  à une liste convertie en un tableau.

Lorsque vous utilisez le programme Python normal - ne pas utiliser toute expansion externe (comme bibliothèque d'outils) programme Python - vous ne pouvez utiliser la liste unidimensionnelle est limitée pour stocker des données. Toutefois, si vous utilisez la bibliothèque pour développer Numpy Python, vous pouvez directement utiliser les tableaux de dimension n. (Si vous voulez savoir, tableau n dimensions est un tableau contenant une ou plusieurs dimensions.)

La plupart commencent à apprendre Numpy, parce Numpy essentiel lors de l'utilisation de Python pour le calcul scientifique. Connaissance approfondie de Numpy vous aidera à utiliser efficacement les outils et Pandas scipy ces bibliothèques.

le retraitement des données: Pandas

Pandas sont l'outil le plus utilisé pour les données utilisées lors du retraitement. Il comprend des structures de données et des outils de manipulation de données pour faire l'analyse des données plus rapidement et facilement conçues. En utilisant le langage R pour les utilisateurs de l'informatique statistique, et certainement pas sur le nom de la variable dataframe sentir étrange.

Pandas sont l'un des facteurs clés Python se transformer en une plate-forme d'analyse de données puissante et efficace.

Ensuite, je vais vous montrer comment utiliser Pandas affaire avec un petit ensemble de données.

 


a8cf30a1383362a453db14c88a46cbf264ec5958

Feuille de trame de données est une structure qui contient un ensemble ordonné de colonnes. Chaque colonne peut avoir différents types de variables. Trame de données contient à la fois l'index de ligne, l'indice de colonne sont également inclus.

 


d3c5c955bfb1bea1d17ee459990fa482cbd253ff

Visualisation: Matplotlib + Seaborn + Bokeh

Matlplotlib Python est un module de visualisation de données. Matplotlib vous permet de dessiner facilement des graphiques linéaires, camemberts, histogrammes et autres graphiques professionnels.

Vous pouvez utiliser Matplotlib graphique personnalisé tous les détails. Lorsque vous utilisez le Matplotlib dans IPython, Matplotlib avec des fonctionnalités interactives de zoom, panoramique et ainsi de suite. support Matplotlib différent back-end GUI sur tous les systèmes d'exploitation, en même temps, il peut aussi exporter les graphiques de plusieurs formats d'image courants, tels que PDF, SVG, JPG, PNG, BMP, GIF et ainsi de suite.

 


14a65a4f1e4cf8e9f21157a34b2691d5c41d7dfb

Seaborn est une bibliothèque d'outils de visualisation de données sur Matplotlib de créer des graphiques attrayants et instructifs en Python. Les principales caractéristiques de Seaborn qui peuvent créer des complexes à partir Pandas des données de type graphique à l'aide des commandes que relativement simples. J'utilise la Seaborn suivante a dessiné cette image:

 


a6e0aabf56c941972066039b0eb92e6f7427c9c7

Machine Learning: scikit-learn

objectifs d'apprentissage machine en fournissant quelques exemples à la machine (logiciel) (comment effectuer des tâches ou exécuter ce qui ne peut pas terminer la tâche) à la machine de l'église pour effectuer la tâche.

Il existe de nombreux outils dans la bibliothèque Python de l'apprentissage machine, cependant, scikit-learn est le plus populaire. Scikit-learn construit sur Numpy, Scipy et bibliothèque Matplotlib. Basé bibliothèque scikit-learn, vous pouvez obtenir presque tous les algorithmes d'apprentissage machine, comme la régression, le regroupement, la classification, et ainsi de suite. Donc, si vous prévoyez d'utiliser l'apprentissage de la machine d'apprentissage Python, alors je vous suggère de commencer à apprendre scikit-learn.

K-plus proche voisin algorithme peut être utilisé pour le classement ou la régression. Le code suivant montre comment utiliser le modèle KNN des données de l' iris mis à prédire.

 


affeb624ec5a3c8814a2332af48b9ff5c24edbf3

 


cb9f9293512a91c4da1c47c31ae190a3460c26be

Une autre bibliothèque d'apprentissage de la machine sont:

Statistiques: Statsmodels et Scipy.stats

Statsmodels Python et Scipy.stats sont deux modules d'apprentissage statistique populaire. Scipy.stats principalement utilisés pour la distribution de probabilité. D'autre part, par rapport Statsmodels modèle statistique fournit un cadre similaire à la formule de R. Y compris les statistiques descriptives, des tests statistiques et les résultats inclus dans les statistiques fonction graphique des extensions appliquent à différents types de données, et chaque estimateur.

Le code suivant montre comment utiliser les appels du module Scipy.stats une distribution normale.

 


07f098eb0cedcb28937177c13390ba93143eb067

 


7905479d4377cb66ad7e452c731433023ec87759

distribution normale est entrée dans une fonction de distribution en continu ou d' une valeur de la ligne continue. La distribution normale peut être paramétrée par deux paramètres: la moyenne et la variance μ distribution de σ2.

Web rampants: Demandes, Scrapy avec les BeautifulSoup
crawler Web extrait du réseau de données non structurées (généralement au format HTML), et pour faciliter le processus de conversion d' un format structuré de l'analyse des données.

outil populaire pour crawl Web bibliothèque sont:

  • scrapy
  • URl lib
  • beautifulsoup
  • demandes

les données d'un site Crawling Web, vous devez savoir quelques connaissances de base du langage HTML.

Voici un exemple d'utilisation d'un réseau rampants bibliothèque BeautifulSoup de:

import urllib2
BS4 import

 


015460c8042ff4e80e891f9e9311a6a3d95c9b05

Code beau = urllib2.urlopen (url) .Lire (), allez bigdataexaminer.com et l'accès à l'ensemble du site correspondant texte HTML. Ensuite, je texte est stocké dans la variable belle.

J'utilise urllib2 pour obtenir l'URL pour les http://www.bigdataexaminer.com/  pages du site, vous pouvez également utiliser les demandes font la même chose. Ici , il y a des articles qui peuvent vous aider à comprendre les différences entre urllib2 et demandes.

Scrapy et BeautifulSoup similaires. Dans l'ingénieur back-end Prasanna Venkadesh Quora expliquer la différence entre ces deux outils sur les bibliothèques:

_ « Scrapy est un robot Web, ou que le cadre est un robot Web, vous fournir un début rampants l'URL racine pour le Scrapy, vous pouvez spécifier certaines contraintes, telles que le nombre d'URL à ramper et ainsi de suite, c'est exploration du Web pour une trame complète ou rampants.

Le BeautifulSoup est une bibliothèque de résolveur, il peut aussi être une excellente page tâches d' exploration, et vous permet de résoudre facilement une partie du contenu de la page. Cependant, BeautifulSoup va analyser le contenu que vous fournissez l'URL de la page. Il n'explorera d' autres pages, sauf si vous ajoutez manuellement une URL vers une page d'une certaine manière de cycle.
En termes simples, vous pouvez utiliser quelque chose de construire Scrapy BeautifulSoup comme ça. Mais BeautifulSoup est une bibliothèque Python, Scrapy est un cadre complet. « _

conclusion

Maintenant que vous connaissez les bases de Python utiliser certains de ces outils et de bibliothèques. Il est temps d'utiliser les connaissances que vous avez appris à résoudre les problèmes d'analyse de données spécifiques. Vous pouvez d'abord traiter des ensembles de données structurés, vous pouvez résoudre le problème complexe de l'analyse des données non structurées.

Publié 48 articles originaux · louange 121 won · vues 680 000 +

Je suppose que tu aimes

Origine blog.csdn.net/guoyunfei123/article/details/82353020
conseillé
Classement