La plus grande histoire complète du manuel de saisie de données!

Tout d' abord, les grandes données cinq aspects fondamentaux de l' analyse

1, l'analyse visuelle

Les utilisateurs Big Data Analytics ont de grands experts en analyse de données, ainsi que les utilisateurs ordinaires, mais ils sont à la fois grande analyse des données pour la plupart exigence de base est que l'analyse visuelle, puisque l'analyse visuelle intuitive peut montrer une grande caractéristiques de données, mais elles peuvent être très facilement lecteurs acceptés, tout aussi simple que plug-parler.

2, les algorithmes d'exploration de données

La théorie de base est que grand algorithmes d'exploration de données d'analyse des données, divers algorithmes d'exploration de données basées sur différents types et formats de données à des données plus scientifiques se présentant des caractéristiques, ce sont précisément à cause de ces sont reconnus statisticienne dans le monde entier diverses méthodes statistiques (vous pouvez appeler la vérité) des données internes en profondeur, creuser des valeurs partagées. Un autre aspect est à cause de ces algorithmes d'exploration de données pour un traitement plus rapide de grandes quantités de données, si un algorithme prendrait plusieurs années pour conclure que la valeur des grandes données, il peut y avoir pas parler.

3, capacités d'analyse prédictive

Une grande applications d'analyse de données est en fin de compte l'analyse prédictive, l'exploration de données de grandes caractéristiques de scientifiques à travers le modèle, alors nous pouvons apporter dans le nouveau modèle de données pour prédire les données futures.

4, un moteur sémantique

l'analyse Big Data est largement utilisé dans l'exploration de données de réseau, de recherche par mot clé de l'utilisateur, les balises de mots-clés, ou une autre entrée analyse sémantique pour déterminer les besoins des utilisateurs, afin de parvenir à une meilleure expérience utilisateur et match de la publicité.

5, la qualité des données et la gestion des données

analyse Big Data est indissociable de la qualité des données et la gestion des données, des données de haute qualité et la gestion efficace des données, à la fois dans la recherche universitaire ou dans des applications commerciales, nous sommes en mesure d'obtenir des résultats d'analyse réels et précieux. analyse Big Data est la base des cinq aspects ci - dessus, bien sûr, plus en profondeur l' analyse des gros volumes de données, alors il y a beaucoup, beaucoup plus de fonctionnalités, plus en profondeur, une analyse globale des données plus professionnels. Vous voulez apprendre le système de grandes données, vous pouvez rejoindre le grand apprentissage de la technologie de données échange boutonné Junyang: 522 189 307

Deuxièmement, comment choisir les outils d'analyse de données droite

Pour comprendre ce que l'analyse des données, les données de type que vous souhaitez analyser des données volumineuses, il existe quatre grandes catégories:

1, les données de transaction (DATA TRANSACTION)

Grande plate-forme de données pour la durée de temps de capture plus, les données de transactions structurées plus massives, de sorte que vous pouvez analyser un plus large éventail de types de données de transaction, y compris POS ou e-commerce professionnel non seulement des données, mais aussi le comportement des données de transaction, tels que les serveurs Web enregistrements Internet ClickStream journal de données.

2, les données humaines (DATA d'origine humaine)

Les données non structurées existe largement dans le courrier électronique, documents, images, audio, vidéo, ainsi que par le blog, les données du wiki, en particulier les médias sociaux flux générés. Ces données ont été analysées à l'aide d'une fonction d'analyse de texte fournit une riche source de données.

3, les données mobiles (Mobile Data)

L'accès aux téléphones intelligents Internet et les tablettes deviennent plus fréquents. Ces applications sur les appareils mobiles sont en mesure de suivre et de communiquer avec de nombreux événements (tels que le changement d'emplacement qui signale une nouvelle géocodage) à partir des données de transaction (tels que les événements enregistrés produits de recherche) dans l'application à des informations personnelles ou des événements de rapports d'état.

4, la machine et les données capteur (MACHINE ET DONNEES CAPTEUR)

Ce dispositif de fonction comprend des données créées ou générées, par exemple les appareils ménagers de compteurs intelligents, contrôleur de température intelligent, les machines de l'usine, et une connexion Internet. Ces dispositifs peuvent être configurés pour communiquer avec d'autres noeuds dans le réseau de données peut également transmettre automatiquement à un serveur central, de sorte que les données peuvent être analysées. les données de la machine et le capteur sont un exemple de choses (l'IdO) émergeant de se produire. Les choses peuvent être dérivées à partir des données utilisées pour construire un modèle de prédiction de comportement de surveillance en continu (par exemple, lorsque la valeur du détecteur indique qu'il y a un problème identifié), fournit une commande prédéterminée (par exemple, avertissant appareil d'inspection de l'art antérieur en fait erroné).

Quelles sont les exigences et les objectifs des outils d'analyse de données pour atteindre?

Fournit des applications et des modèles d'analyse de l'algorithme d'analyse avancée
Grande plate-forme de données pour le moteur, comme Hadoop ou tout autre système d'analyse de haute performance
Structurées et les données non structurées peuvent être appliquées à une variété de sources de données
En ce qui concerne l'augmentation du modèle d'analyse de données, pour obtenir étendu
Modèle peut être ou a été intégré dans un visualisateur de données
Et d'autres technologies peuvent être intégrées

En outre, l'outil doit contenir des caractéristiques essentielles, y compris l'algorithme d'intégration et de soutien techniques d'exploration de données, y compris (mais sans s'y limiter):

1, le regroupement et la segmentation:

La division d'une grande entité ayant des caractéristiques communes de petits groupes. Par exemple, l'analyse des clients recueillies afin de déterminer plusieurs segments du marché cible.

2, Classification:

données organisées en catégories prédéfinies. Tels que décider comment changer les segments de clientèle sont classés selon le modèle.

3, la récupération:

Utilisé pour rétablir la relation entre une variable dépendante et les variables indépendantes plus d'un et aider à décider comment varie la variable dépendante en fonction des variables indépendantes. Tels que l'utilisation des données géographiques, le résultat net, et l'été prochain, la température moyenne de la zone prévue à la propriété.

4, projets communs et ensemble minier:

Dans les grands ensembles de données pour trouver la corrélation entre les variables. Par exemple, il peut aider les représentants des centres d'appels pour fournir des informations plus précises sur la base segmentation de la clientèle de l'appelant, la relation et le type de plaintes.

5, la similitude et contact:

Pour algorithme de classification indirecte. algorithmes d'intégration de similarité peuvent être utilisées pour déterminer la similarité entité de cluster de rechange.

5, le réseau de neurones:

Pour une analyse non directe de l'apprentissage de la machine.

Les gens à travers des outils d'analyse de données pour comprendre ce que

scientifiques données, ils veulent utiliser des types de données plus complexes analyse plus complexe, la compréhension de la façon de concevoir, comment appliquer le modèle de base pour évaluer la tendance inhérente ou de parti pris.
Les analystes d'affaires, ils sont plus comme utilisateur occasionnel qui veut utiliser les données pour mettre en œuvre la découverte de données active, la visualisation ou partie des informations disponibles et l'analyse prédictive.
Les chefs d'entreprise, ils veulent comprendre le modèle et les conclusions.
IT développeurs qui offrent un soutien pour tous de la catégorie d'utilisateurs ci-dessus.

Comment choisir le plus approprié pour les grands logiciels d'analyse de données

connaissances et compétences professionnelles des analystes. Certains public cible d'outils est les utilisateurs novices, certains analystes de données professionnelles, tandis que d'autres sont conçus pour deux publics.

Diversité.

En fonction des cas d'utilisation et les applications, les utilisateurs professionnels peuvent avoir besoin de prendre en charge différents types d'analyse, en utilisant un type de modélisation spécifique (comme la régression, le regroupement, la segmentation, la modélisation du comportement et des arbres de décision). Ces fonctions ont été en mesure de soutenir un large éventail de haut niveau, la modélisation analytique des différentes formes, mais il y a certains fabricants ont mis des décennies d'efforts pour régler les différentes versions des algorithmes, l'augmentation des fonctionnalités plus avancées. Les entreprises sont confrontés à des problèmes modèles et comprendre les plus pertinents, l'évaluation des produits à base sur la façon dont le produit qui répond le mieux aux besoins des utilisateurs professionnels, ceux-ci sont très importants.

L'analyse de la plage de données.

Plage de données à analyser implique de nombreux aspects, ces informations structurées ou non, les bases de données locales traditionnelles et des entrepôts de données, source de données basée sur le cloud, une grande plate-forme de données de (par exemple, le Hadoop) gestion des données. Toutefois, les produits différents pour les données non-traditionnelles du lac (en Hadoop ou tout autre échelle utilisés pour fournir au sein du système de gestion des données NoSQL) la gestion des données sur le niveau de soutien mixte. Comment choisir les produits, les entreprises doivent tenir compte des besoins spécifiques de l'acquisition et de traitement de types de volumes de données et de données.

Collaboration.

Plus l'échelle, plus probablement besoin intersectorielle, l'analyse de l'action, la modélisation et de l'application parmi beaucoup d'analystes. Si les entreprises ont beaucoup d'analystes répartis dans différents départements, comment interpréter les résultats et l'analyse, vous devrez peut-être ajouter un partage plus modèle et les méthodes de collaboration.

Licence et budget d'entretien.

Presque tous les fabricants de produits sont divisés en différentes versions, le prix d'achat et les coûts d'exploitation varient. Les droits de licence et fonctionnalités, fonctions, proportionnelles au nombre de noeuds pour analyser la quantité de données ou des produits disponibles pour les restrictions d'utilisation.

Facilité d'utilisation.

Ne sont pas des statistiques analyste d'affaires avisé peut facilement développer l'analyse et l'application de celui-ci? Déterminer si le produit offre une méthode visuelle pour faciliter le développement et l'analyse.

l'utilisation des données non structurées.

Assurez-vous que le produit peut être utilisé dans différents types de données non structurées (documents, e-mails, images, vidéos, présentations, médias sociaux et d'autres canaux d'information), et peut analyser et utiliser des informations reçues.

Extensibilité et évolutivité.

Avec l'expansion continue du volume croissant de données et la plate-forme de gestion des données, afin d'évaluer comment les différents produits analytiques suivent la croissance des augmentations de la capacité de traitement et de stockage.

Troisièmement, comment distinguer entre trois grandes données d'emplois chauds - scientifiques, ingénieurs de données de données, les analystes de données

Avec Yuyan données à chaud gros, gros volumes de données liées à la carrière est devenu un chaud, pour apporter le développement des talents a apporté beaucoup de possibilités. scientifiques données, les ingénieurs de données, les analystes de données sont devenus grands emplois de données les plus populaires de l'industrie. Comment sont-ils définis? Que faire spécifiquement le travail? Quelles sont les compétences nécessaires? Regardons ensemble.

Comment ces trois carrière est le positionnement?

Données scientifiques quel genre d'existence

scientifiques données est un contrat que l'utilisation de méthodes scientifiques, en utilisant des outils d'exploration de données pour les informations numériques complexes de grandes quantités, symboles, texte, URL, numérisation audio ou autre vidéo Reproduire et la compréhension, et à chercher de nouveaux ingénieur idées ou expert (différent à statisticien ou analyste).

Comment les données est défini Ingénieur

Les ingénieurs données sont généralement définis comme « une compréhension profonde de la discipline ingénieurs logiciel statistique des étoiles. » Si vous êtes un problème d'affaires à se soucier, alors vous avez besoin d'un ingénieur de données. Leur valeur de base réside dans leur capacité à créer un pipeline de données au moyen de données clair. comprendre les systèmes de fichiers, calcul distribué et les données de base de données est de devenir un excellent ingénieur les compétences nécessaires.

Les ingénieurs données ont une assez bonne compréhension des algorithmes. Par conséquent, l'ingénieur de données devrait être en mesure d'exécuter le modèle de données de base. besoins d'affaires haut de gamme ont donné naissance au calcul des besoins très complexes. Dans de nombreux cas, ces besoins dépassent l'ingénieur de données à la connaissance du maître, cette fois-ci vous devez appeler pour les scientifiques de l'aide de données.

Comment comprendre l'analyste de données

Analyste des données se réfèrent à différentes industries, spécialisée dans la collecte de données de l'industrie, la collation, l'analyse et basé sur les données des professionnels pour faire de la recherche de l'industrie, des évaluations et des prévisions. Ils savent comment poser les bonnes questions, très bon à l'analyse des données, la visualisation des données et la présentation des données.

Cette carrière de trois quelles tâches spécifiques

Responsabilités des scientifiques de données

scientifiques données ont tendance à le monde autour d'eux regarder avec un moyen d'explorer les données. Les données disponibles pour l'analyse d'un grand nombre de données éparses se structure, mais aussi trouver une multitude de sources de données, l'intégration avec d'autres sources de données peuvent ne pas être complète, et de nettoyer l'ensemble de données résultant. Nouvel environnement concurrentiel, les défis de la constante évolution, de nouvelles données continuent d'affluer dans les données scientifiques ont besoin aux décideurs d'aide à la décision dans diverses analyses de navette, l'analyse des données du temporaire à l'analyse en cours des échanges de données. Quand ils trouvent quelque chose, ils communiquent leurs résultats suggèrent une nouvelle orientation commerciale. Ils sont très créatif affichage de l'information visuelle, mais aussi de trouver un modèle de façon claire et convaincante. L'implication dans la règle des données recommande au patron, affectant ainsi les produits, les processus et la prise de décision.

Responsabilités des données Ingénieurs

L'analyse historique, de prédire l'avenir, l'optimisation de choix, ce qui est grand ingénieur de données dans les « données de jeu » le plus important des trois tâches. Grâce à ces trois directions travaillent, ils aident les entreprises à prendre de meilleures décisions d'affaires.

Ingénieur Big Data est une tâche très importante est de trouver les caractéristiques des événements passés en analysant les données. Par exemple, l'équipe de données de Tencent est la construction d'un entrepôt de données, mettre tout le grand nombre de plates-formes de réseau, des données irrégulières pour trier, résumer les fonctionnalités disponibles à la requête, pour soutenir divers besoins d'affaires pour les données, y compris la publicité de l'entreprise la livraison, le développement de jeux, les réseaux sociaux et ainsi de suite.

Identifier les caractéristiques des événements passés, le plus grand rôle est d'aider les entreprises à mieux comprendre les consommateurs. En analysant les pistes de comportement passé, nous serons en mesure de connaître la personne, et de prédire son comportement.

En introduisant les facteurs clés, les grands ingénieurs de données peuvent prédire les tendances futures des consommateurs. Sur la plate-forme de marketing Mama Ali, les ingénieurs tentent d'aider les vendeurs Taobao pour faire des affaires grâce à l'introduction de données météorologiques. Par exemple, cet été ne fait pas chaud, il est possible que certains produits ne se vendent bien l'année dernière, en plus de la climatisation, ventilateurs, débardeurs, maillots de bain et peut donc être affectée. Ensuite, nous allons établir la relation entre les données météorologiques et les données de ventes, trouver des catégories connexes, présignalisation vendeurs rotation des stocks.

Selon la nature différente de l'entreprise commerciale, les grands ingénieurs de données peuvent atteindre différents objectifs grâce à l'analyse des données. Tencent, l'exemple le plus simple des grandes données peut refléter le travail des ingénieurs est l'option de test (test AB), chef de produit aidant à choisir A, B deux alternatives. Dans le passé, les décideurs politiques ne peuvent être évaluées en fonction de l'expérience, mais maintenant les grandes données dans les ingénieurs de test en temps réel grâce à une large gamme - par exemple, dans le cas des produits de réseaux sociaux, de sorte que la moitié des utilisateurs de voir l'interface A, et l'autre interface moitié d'utilisation B, observé statistiques CTR et taux de conversion dans une période de temps, afin d'aider le département de marketing pour faire le choix final.

Données tâches d'analyste

L'Internet lui-même a des caractéristiques numériques et interactives, ces caractéristiques d'attributs à la collecte des données, la collation, la recherche a apporté une percée révolutionnaire. Dans le passé, le coût des données « monde atomique, » analyste prend plus (argent, de ressources et de temps) pour obtenir le soutien de la recherche, riche analyse des données, les données, l'exhaustivité, la continuité et la rapidité de bien pire que l'âge de l'Internet.

Par rapport à l'analyste des données traditionnelles, l'âge analyste de données des visages Internet ne sont pas le manque de données, mais l'excès de données. Par conséquent, l'âge de l'analyste de données de l'Internet par des moyens techniques doivent apprendre à effectuer un traitement efficace des données. Plus important encore, l'analyste de données à l'ère d'Internet à l'innovation continue et des percées méthodologiques dans les données de recherche.

Sur l'industrie, la valeur de l'analyste de données est similaire. Sur la presse et de l'industrie de la publication, peu importe tout âge, que ce soit les opérateurs de médias précis, détaillé et en temps opportun des informations sur le public état et les tendances, les médias sont la clé du succès.

De plus, l'industrie du contenu presse et d'édition, plus important encore, l'analyste de données peut effectuer leurs fonctions d'analyse du contenu des données de consommation, qui sont les principales fonctions de la presse et des organisations d'édition pour améliorer les services de soutien à la clientèle.

Vous voulez participer à ces trois professions ont besoin de savoir quelles compétences?

A. scientifiques de données doivent maîtriser les compétences

1, Informatique

D'une manière générale, la plupart des scientifiques de données ont la programmation requise, ordinateur antécédents professionnels scientifiques. Autrement dit, le traitement de grandes quantités de données nécessaires pour Hadoop, Mahout et d'autres technologies de traitement massivement parallèle et l'apprentissage automatique des compétences connexes.

2, les mathématiques, les statistiques, l'exploration de données, etc.

En plus des mathématiques, des statistiques d'alphabétisation, mais nécessite également l'utilisation de SPSS, SAS et d'autres compétences de logiciels d'analyse statistique grand public. Ce qui, pour l'analyse statistique du langage de programmation open source et l'environnement d'exécution « R » récent profil de haut. Les points forts de R non seulement en ce qu'elle contient une richesse de la bibliothèque d'analyse statistique, et ont les résultats de la production graphique visuelle de haute qualité, et peut être exécuté par une simple commande. De plus, il comprend un CRAN appelé (Le Comprehensive R Archive Network) mécanisme d'extension de paquets, l'introduction du paquet étendu peut être utilisé sous la condition standard et fonctions non pris en charge par l'ensemble de données.

3, la visualisation de données (la visualisation)

La qualité de l'information dépend en grande partie de son expression. L'importance de la liste numérique composée de données incluses dans l'analyse, le développement du prototype Web, en utilisant l'API externe vers les arbres, cartes, tableau de bord et d'autres services d'unifier, de sorte que la visualisation des résultats d'analyse, qui est pour les scientifiques de données est très important l'une des compétences.

B. ingénieurs données doivent maîtriser les compétences

1, les mathématiques et les statistiques de fond pertinentes

Pour les grandes exigences de données sont des ingénieurs espoir est que le degré de maîtrise ou de doctorat en statistiques et mathématiques fond. Le manque de formation théorique des travailleurs de données, l'accès plus facile à la zone de danger (zone dangereuse) sur une compétence - un tas de chiffres, selon les différents modèles de données et algorithmes peuvent toujours déroulement ordonné des résultats, mais si vous ne savez pas ce que cela signifie , il est pas vraiment des résultats significatifs, et par conséquent aussi vous tromper facilement. Seule une certaine connaissance théorique afin de comprendre le modèle, et même la réutilisation des modèles d'innovation de modèle pour résoudre des problèmes pratiques.

2, la capacité de codage de l'ordinateur

La capacité de développement réel et des capacités de traitement de données à grande échelle que les grandes données INGÉNIEUR certains éléments essentiels. Parce que beaucoup de la valeur du processus d'extraction de données provient, vous devez utiliser leurs mains pour découvrir la valeur de l'or. Par exemple, maintenant de nombreux dossiers de personnes sur les réseaux sociaux générés sont des données non structurées, comment, voix, images et saisir même la vidéo des informations significatives de ces caractères désemparés qui nécessitent un grand ingénieur des mines de données personnelles. Même dans une partie de l'équipe, les responsabilités du grand ingénieur de données pour analyser l'activité principale, mais il devrait aussi se familiariser avec la façon dont le traitement informatique des données volumineuses.

3, la connaissance d'un domaine particulier ou des applications de l'industrie

rôle d'ingénieur Big Data est très important que ce ne soit pas hors du marché en raison des grandes quantités de données et les applications que dans des zones spécifiques se combinent à la valeur des produits. Ainsi, dans un ou plus d'expérience de l'industrie verticale aux candidats capables de connaissances Accumulez de l'industrie, pour les grandes données plus tard devenir ingénieurs d'une grande aide, donc c'est un plus par rapport à la sous convaincre quand postuler pour le poste.

C. Analyste des données nécessaires pour maîtriser les compétences

1, comprendre l'entreprise. Prémisse dans l'analyse des données devra comprendre l'entreprise, qui est familier avec les connaissances de l'industrie et des processus d'affaires, de préférence avec leurs propres idées, si de connaissances de l'industrie et le contexte d'affaires, les résultats de l'analyse seront hors ligne cerf-volant, pas beaucoup de valeur.

2, comprendre la gestion. D'une part est nécessaire pour construire un cadre pour l'analyse des données, telles que l'analyse afin de déterminer les idées dont vous avez besoin d'utiliser les connaissances théoriques du marketing et de la gestion pour guider, si vous n'êtes pas familier avec la théorie de la gestion, il est difficile de construire un cadre pour l'analyse des données, l'analyse ultérieure des données est également difficile de . D'un autre rôle de la main est de proposer des recommandations d'analyse instructive des données pour la conclusion de l'analyse.

3, comprendre l'analyse. Il fait référence à maîtriser les principes de base de l'analyse des données avec un certain nombre de méthodes d'analyse des données efficaces, et peut être appliqué avec souplesse aux travaux pratiques, afin de réaliser efficacement l'analyse des données. Les méthodes d'analyse de base sont les suivants: Analyse comparative, l'analyse de groupe, analyse transversale, l'analyse structurelle, l'analyse de l'entonnoir figure, l'analyse d'évaluation globale, l'analyse factorielle, la méthode d'analyse de la matrice de corrélation ou analogue. Les méthodes d'analyse avancées sont les suivantes: analyse de corrélation, l'analyse de régression, analyse typologique, analyse discriminante, analyse en composantes principales, analyse factorielle, analyse des correspondances, des séries temporelles et autres.

4, comprendre l'outil. Il se réfère à l'analyse des données de base relatives aux outils communs. L'analyse des données est la théorie et des outils d'analyse des données est d'obtenir des outils d'analyse des données théoriques, les données visage toujours en croissance, nous ne pouvons pas compter sur les calculatrices pour analyser, nous devons compter sur des outils d'analyse de données puissantes pour nous aider à compléter l'analyse des données.

5, comprendre la conception. Comprendre la conception est l'utilisation du point de vue de l'analyste de données du graphique d'analyse d'expression efficace, les résultats d'analyse en un coup d'oeil. La conception du tableau est beaucoup d'apprentissage, comme la sélection de graphiques, la conception de mise en page, la correspondance des couleurs, etc., ont tous besoin d'avoir un certain nombre de principes de conception.

En quatrième lieu, de la recrue à devenir programme 9 étapes pour développer les scientifiques de données

Tout d'abord, la définition des données scientifiques chaque entreprise varient, actuellement il n'y a pas de définition uniforme. Mais en général, une combinaison d'ingénieurs logiciels, les compétences scientifiques de données et statisticiens, et il souhaite mettre beaucoup de travail dans le domaine des connaissances de l'industrie.

Environ 90% des scientifiques de données ont au moins une expérience de l'enseignement collégial, même chez le médecin et obtenir un doctorat, bien sûr, ils obtiennent un diplôme dans le domaine est très large. Certains recruteurs trouvent même des gens qui ont la créativité humaniste professionnelle requise, certaines des compétences clés qu'ils peuvent enseigner aux autres.

Par conséquent, les données excluent un programme d'études scientifiques (comme les universités bien connues sont surgissent partout dans le monde apparaissent avec), quelles mesures vous devez prendre pour devenir un scientifique de données?

Passez en revue vos compétences mathématiques et statistiques.

Un bon scientifique de données doit être en mesure de comprendre le contenu des données à vous dire, pour ce faire, vous devez avoir une algèbre linéaire de base solide, la compréhension des algorithmes et des compétences statistiques. Dans certaines situations, il peut exiger des mathématiques avancées, mais c'est une bonne occasion de départ.

Comprendre le concept de l'apprentissage de la machine.

l'apprentissage de la machine est un nouveau mot, mais les grandes données et inextricablement liées. l'apprentissage de la machine à utiliser des algorithmes d'intelligence artificielle pour transformer les données en valeur, et sans programmation explicite.

Code d'apprentissage.

les scientifiques données doivent savoir comment régler le code pour indiquer à l'ordinateur comment analyser les données. À partir d'une langue open source tels que Python où il a commencé.

Comprendre la base de données, le pool de données et le stockage distribué.

Les données stockées dans la base de données, le pool de données ou l'ensemble du réseau distribué. Et comment construire les données du référentiel dépend de la façon dont vous l'accès, l'utilisation et l'analyse de ces données. S'il n'y a pas d'architecture globale ou planifier à l'avance quand vous construisez votre stockage de données, le suivi de l'impact que vous serez très loin.

Apprendre la modification des données et des données techniques de nettoyage.

Modification des données d'origine sont données à un autre format est plus accessible et plus facile à analyser. nettoyage des données permet d'éliminer les doubles emplois et les données de « mauvais ». Les deux sont données scientifiques un outil indispensable dans la boîte à outils.

Apprenez les rudiments de la bonne visualisation et la communication des données.

Vous ne devez pas être un graphiste, mais vous devez très versés dans la façon de créer des rapports de données, facile à poser des gens comme votre directeur ou chef de la direction peut comprendre.

Ajouter plus d'outils pour votre boîte à outils.

Une fois que vous aurez maîtrisé les techniques ci-dessus, il est temps d'élargir votre boîte à outils de données scientifiques, y compris Hadoop, le langage R et Spark. L'expérience et la connaissance de ces outils vous laisser sur un grand nombre de demandeurs d'emploi en sciences de données.

Big Data Tutorial Bases

Publié 178 articles originaux · a gagné les éloges 3 · vues 30000 +

lettre privée préoccupations

La plus grande histoire complète du manuel de saisie de données!

Je suppose que tu aimes