ディレクトリ
A.データ分析とは何ですか
1.インターネットの定義全体:
データ分析は、収集した大量のデータを詳細に検討し、プロセスデータを要約するために有用な情報とフォーム結論を抽出し、適切な統計分析法を用いて分析されます。
2.データ分析の開発と組成
促進するための基礎となるデータの数学的分析は、初期の20世紀に設立されていたが、コンピュータの出現は、練習することが可能になるまで、そしてメイクデータ解析。データ分析は、組み合わせの数学とコンピュータサイエンスの製品です。
一般的な分析ツールは、Excelです。
情報ニーズ、収集したデータを、識別することによりデータ解析の主な活動は、データを分析評価し、データ解析の組成物の有効性を改善します。
3.特長
多次元と説明
彼らは一般的にデータ視覚化ツールで使用されています。
環境データと一般的に使用される解析パッケージ構成の様々なタイプの二.python分析
1.データ・タイプの処理
主に表形式データ、多次元アレイ(行列)、複数のデータベーステーブル構造を含む、データ構造。
要求され、それはより多くの解析データセット、構造のモデリングに変換することができます。
2.なぜパイソン
Pythonでは、そこにライブラリの多くは完璧でしたが、C、C ++およびFortranと他の言語のコードを統合することが容易で、データ操作のための良いアルゴリズムとしています。
実際、Pythonでは、それらを無視して、ここで、多くの欠点があり、次は私たちは、重要なデータ解析ライブラリのpythonの一部をご紹介します。
三.pythonデータ解析環境のインストール
1.Ipython
(1)はじめに
IPythonは、対話型コンピューティング・システムです。、それは任意の計算やデータ分析ツールをよりインタラクティブなPythonインタプリタ用意されていませんが、それは環境を提供するために、主に、とはるかに簡単に使用するデフォルトのPythonシェルよりも、変数の自動補完、自動をサポートしていますbashシェルコマンドをサポートインデント、それが機能や便利な機能の多くを構築しました。
Ipythonに、cmdを起動することができます
が、言葉の大部分またはアナコンダでスタートipython。
そのワークフローが実行される-探査を。pythonを使用することができるだけでなく、Juptyterのための他の言語は、多くの言語がでJupyterできるように、カーネルを実現しました。
だから、Jupyterそれは何ですか?
次のように(2)のインストールであります
直接取り付けPIP:
PIP IPythonインストール
2.Jupyter
(1)はじめに
フルネームJupyterノートブックは、インタラクティブなノートブック、実行サポート40の以上のプログラミング言語です。
エッセンスは:簡単に作成し、共有文学プログラムのマニュアル、サポートリアルタイムコード、数式、可視化と値下げし、Webアプリケーションです。
アプリケーションが含まれます:データ分析、クレンジングと変換、数値シミュレーション、統計モデリング、機械学習などを。
==実際には、Jupyterノートでは、コードがリアルタイム画像、動画、ラテックスおよびJavaScriptを生成することができます。==
Jupyterノートブックは、最も一般的に使用されるツールのデータ科学者の一つとなっています。
(2)インストール
官网上有详细教程https://jupyter.org/install
用pip,或者使用Anaconda安装Jupyter
打开Jupyter:
然后自动跳转到网页,就可以编辑了:
可以先跳转到指定文件夹,然后再打开jupyter notebook:
会生成这些文件:
3.Anaconda安装器
(1)简介
Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。
它其实就是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖,即可以很方便的切换不同的版本(包括各个版本的python和各个版本的类库),并能够在不同的环境之间切换。
Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等。
它是适用于企业级大数据分析的Python工具。其包含了720多个数据科学相关的开源包,在数据可视化、机器学习、深度学习等多方面都有涉及。不仅可以做数据分析,甚至可以用在大数据和人工智能领域。
==安装完anaconda,就相当于安装了Python、IPython、集成开发环境Spyder、一些包等等。==
可以理解为,一个python环境中需要有一个解释器, 和一个包集合。
(2)安装
进入官网https://www.anaconda.com/
安装后会有下面的应用
- Anaconda Navigtor :用于管理工具包和环境的图形用户界面,后续涉及的众多管理命令也可以在 Navigator 中手工实现。
- Jupyter notebook :基于web的交互式计算环境,可以编辑易于人们阅读的文档,用于展示数据分析的过程。
- qtconsole :一个可执行 IPython 的仿终端图形界面程序,相比 Python Shell 界面,qtconsole 可以直接显示代码生成的图形,实现多行代码输入执行,以及内置许多有用的功能和函数。
- spyder :一个使用Python语言、跨平台的、科学运算集成开发环境。
有时候有问题,可能是环境路径问题。
在windows下,在计算机->右键选择属性->高级系统设置->环境变量->系统变量->path。在path中加入anaconda安装的目录就可以了。
安装后在cmd中输入conda --version,会看到版本:
或者直接进入Anaconda Prompt终端:
用conda list列出已经安装的所有库:
有关不同的环境的创建,在下一个教程会介绍。
4.Jupyter与集成开发环境与文本编辑器
一般在Juptyter中进行交互式操作,在集成开发环境(IDE)中进行大型数据处理,在文本编辑器中进行简单操作。
三.常用数据分析包
1.NumPy
NumPy是使用Python进行科学计算的基础包。 它包含:
- 一个强大的N维数组对象
- 复杂的(广播)功能
- 用于集成C / C ++和Fortran代码的工具
- 有用的线性代数,傅里叶变换和随机数功能
作用:这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。
numpy和稀疏矩阵运算包scipy配合使用更加方便。
2.pandas
パンダのデータ分析パッケージのpythonで、numpyのツールに基づいており、ツールはデータ分析タスクを解決するために作成されます。
パンダは、多くの機能を提供し、方法は迅速かつ容易にデータを処理するために私たちを有効にします。
データは以下のように構成されています。
- シリーズ:1次元配列numpyの1次元配列は、似ています。どちらも基本的なPythonのデータ構造リストも非常に似ています。シリーズは現在、さまざまなデータ型、文字列、ブール値、数値などの保存シリーズに保存することができますすることができます。
- 時系列:時間インデックスシリーズ。
- データフレーム:二次元の表形式のデータ構造。多くの機能と同様のRのdata.frame。一連のデータフレームは、容器と理解することができます。
パネル:3次元配列は、データフレームとしてコンテナを理解されるであろう。
3.matplotlib
matplotlibのは、ハードコピーフォーマットと対話クロスプラットフォーム環境の様々なレベルで出版品質のグラフィックスを生成するPythonの2Dグラフィックスライブラリです。
これは、図面、ヒストグラム、パワースペクトル、バー、エラー、散布などを発生させることができます。
4.sciPy
scipyのダウンロードは、科学と工学のPythonツールキット用に設計された、使いやすい、便利です。それは、多くの場合、ソルバー統計、線形代数モジュールの最適化、統合、フーリエ変換、信号および画像処理、微分方程式などを含んでいます。
5.scikit-学びます
それは、後に導入される、機械学習ツールキットです。
6.statsmodels
Statsmodelsは、Python統計モデリングと計量経済学のツールキット、いくつかの記述統計を含め、統計モデルの推定と推論しています。
アナコンダを持って、インストールアナコンダインストーラ、これらの同等がインストールされているこれらのライブラリは上がります。