Pythonは素晴らしい言語です。これは、世界で最も急成長しているプログラミング言語の一つです。それは、再びにおける開発援助の位置と業界横断的なデータ科学の仕事の有用性を証明しています。Pythonライブラリとそのエコシステム全体は世界中のユーザーの適切な選択(初心者と上級ユーザーの両方)を行います。それは実行可能な、効率的な維持できるように、その成功とその人気の理由の一つは、強力なサードパーティ製のライブラリ、これらのライブラリのコレクションです。
この記事では、我々は代わりのような通常の、科学的なデータタスクのためにいくつかのPythonライブラリを見てみましょう パンダ、scikit-学び、matplotlibの、その他 のライブラリ。以下のようなものの パンダとscikit-学ぶ このライブラリ機械学習タスクであることが多いが、この領域を知ることは、他のPythonの製品は常に非常に優れています。
Wgetの
ネットワークからの抽出データは、データ科学者の重要な課題の一つです。 Wgetは 、ネットワークからのファイルの非対話型のダウンロードのために使用することができる無料のユーティリティです。これは、HTTPプロキシを介してHTTP、HTTPSおよびFTPプロトコル、およびファイル検索をサポートしています。それはユーザーがログインしていない場合でも、非対話型なので、それがバックグラウンドで動作することができます。ですから、ページ上のWebサイトまたはすべての画像をダウンロードしたい次回は、 Wgetは あなたを助けることができます。
インストール:
$ピップは、wgetのインストール
例:
輸入wgetの URL = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' ファイル名= wget.download(URL) 100%[............................................... 。] 3841532分の3841532 ファイル名 'razorback.mp3'
振り子
日付と時刻を扱うとき、イライラのpythonのもののために、振り子はあなたのためです。これは、簡略化されている 日時 操作Pythonパッケージ。これは、ネイティブのPythonクラスへの単純な代替手段です。ドキュメントの綿密な研究を参照してください。
インストール:
$ピップインストール振り子
例:
輸入振り子 dt_toronto = pendulum.datetime(2012、1、1、TZ = 'アメリカ/トロント') dt_vancouver = pendulum.datetime(2012、1、1、TZ = 'アメリカ/バンクーバー') 印刷(dt_vancouver.diff(dt_toronto).in_hours()) 3
不均衡-学びます
それが分かるように、各クラスのサンプル数が実質的に同じである場合、分類アルゴリズムの効果のほとんどが最良である、すなわち、データがバランスを維持する必要があります。しかし、ほとんどの場合、現実には、不均一なデータセットであり、これらのデータセットの影響を予測するアルゴリズムを学ぶの後段には、重要な学習機械を持っています。幸いなことに、このライブラリは、この問題を解決するために使用されます。これは、 学習scikit それは、互換 scikit-リア-contribの プロジェクトの一環。あなたがアンバランスなデータセットに遭遇次回は、それを使ってみてください。
インストール:
PIP-学ぶ不均衡-Uをインストール または# -c conda鍛造をインストールcondaアンバランス-学びます
例:
使用して、ドキュメントとサンプルを参照してください。
FlashText
NLPタスクでは、テキストデータを消去することは、多くの場合、文から抽出した文のキーワードやキーワードを交換する必要があります。通常、この操作は完了するために、正規表現を使用することができますが、検索語の数は、あなたは何千に到達したい場合は、これは非常に面倒になります。Pythonの FlashTextの モジュールをベースにFlashTextアルゴリズムは、このような状況に適した代替手段を提供します。すべてのFlashTextベストは、関係なく、検索語の数の、実行時間が同じです。ここでは、より多くを学ぶことができます。
インストール:
$ピップはflashtextインストール
例:
キーワードを抽出
flashtextインポートからKeywordProcessor keyword_processor = KeywordProcessor() #keyword_processor.add_keyword(<不潔名>、<標準名>) keyword_processor.add_keyword(「ビッグアップル」、「ニューヨーク」) keyword_processor.add_keyword( 'ベイエリア') keywords_found = keyword_processor.extract_keywords(「私はビッグアップルとベイエリアを愛しています。」) keywords_found [「ニューヨーク」、「ベイエリア」]
キーワード置換
keyword_processor.add_keyword( 'ニューデリー'、 'NCR地域') new_sentence = keyword_processor.replace_keywords(「私はビッグアップルとニューデリー大好きです。」) new_sentence 「私はニューヨークとNCR地域を愛します」。
Fuzzywuzzy
奇妙な音のこのライブラリの名前が、文字列マッチングの観点から、fuzzywuzzy非常に便利なライブラリです。簡単に文字列マッチングの演算処理を実装することができ、同様にマッチングのトークンは、簡単に別のデータベースに格納されたレコードを一致させることができます。
インストール:
$ピップはfuzzywuzzyインストール
例:
fuzzywuzzy輸入ファズから fuzzywuzzyインポート処理から #シンプルなマッチング fuzz.ratio(「これはテストです」、「これはテストです!」) 97 #ファジーマッチング fuzz.partial_ratio(「これはテストです」、「これはテストです!」) 100
さらに興味深い例はGitHubのリポジトリで見つけることができます。
PyFlux
時系列分析では、機械学習の問題の最も一般的な分野の一つです。 PyFluxは それに対処することで、Pythonでオープンソースのライブラリである 時系列 構築の問題。ライブラリは、などの優れた近代的な時系列モデルのシリーズがありますが、これらに限定されない ARIMA、GARCH および VARの モデル。要するに、PyFluxは、時系列モデリングへの確率論的なアプローチを提供します。試してみる価値。
インストール
ピップpyfluxをインストール
例
詳細な使用方法および使用例は、公式ドキュメントを参照してください。
Ipyvolume
結果はまた、データ科学の重要な側面を示しています。大きな利点を持つことになり、結果を視覚化することができるようになります。IPyvolumeは、三次元体であり、グラフィックJupyterノート(例えば、三次元スキャッタグラム)Pythonライブラリで可視化することができ、最小限の構成が必要となります。しかし、それは、ステージの1.0バージョンの前にまだあります。IPyvolume:ことを説明するために、より適切な比喩と volshow 3次元配列のためのmatplotlibのような 関数imshow 使いやすい2次元配列としては。あなたはもっとここに得ることができます。
使用ピップ $ピップはipyvolumeインストール 使用Conda /アナコンダ $ Condaは-c conda-鍛造ipyvolumeをインストール
例
- アニメーション
- ボリュームレンダリング
ダッシュ
ダッシュPythonは、効率的なWebアプリケーションを構築するためのフレームワークです。これは、このようなドロップダウンボックス、スライダーやチャートなどの最新のUI要素の多くを結合に基づいてフラスコ、Plotly.jsとReact.jsに設計されて、あなたは直接にせずに、Pythonコードの相関分析を書き込むために使用することができますJavaScriptを使用しています。ダッシュは、データの可視化アプリケーションを構築するために適しています。次に、これらのアプリケーションは、Webブラウザで提示することができます。ユーザーズ・ガイドはこちらを得ることができます。
インストール
ピップダッシュ== 0.29.0#コアバックエンドダッシュをインストール ピップダッシュ-HTMLコンポーネント== 0.13.2#HTMLコンポーネントをインストールします ピップダッシュコア・コンポーネント== 0.36.0#の拡張機能をインストールします ピップインストールダッシュテーブル== 3.1.3#DataTableのインタラクティブなコンポーネント(新しいです!)
例
次の例が示すプルダウン機能の高度にインタラクティブなチャート。とき、ユーザーは、ドロップダウンメニューで値を選択し、アプリケーションコードになる動的にGoogleのファイナンス・パンダDATAFRAMEからデータをエクスポートします。
ジム
OpenAIのジムは、学習アルゴリズムの開発と比較ツールキットを強化するためのツールです。そのようなTensorFlow又はTheanoなどの任意の数値計算ライブラリ、と互換性があります。ジム・ライブラリは、このセットはまた、環境としても知られ、テスト問題のコレクションのために不可欠なツールです - あなたは強化学習アルゴリズムを開発するためにそれを使用することができます。これらの環境では、一般的なアルゴリズムを記述することができます共有インターフェイスを持っています。
インストール
ピップジムをインストール
例
この例では、1インスタンスCartPole-V0環境を実行し、ステップ数にそれの時間は、すべてのステップは、シーン全体をレンダリングします、1000年です。
概要
これらの有用なデータのPythonライブラリ科学がすべての私の慎重なnumpyのとパンダと他のライブラリとして、一般的ではない、選択されました。あなたがリストに追加することができます他のライブラリを知っている場合は、以下のコメントに言及してください。また、それらを実行しようとすることを忘れないでください。