ETLの概要
ETL(抽出、変換、ロードして)変換を洗浄した後、データ・ウェアハウスにロード、抽出後のデータサービスシステムであり、その目的は、乱雑、統合規格は一緒に統合されたデータではない企業、企業の意思決定を分散させることです分析的基礎を提供し、 ETLは、BI(ビジネス・インテリジェンス)プロジェクトの重要な側面です。
データガバナンスのプロセス
データマイニングは、一般に、情報検索アルゴリズムを介して隠されたプロセスの多数のデータを指します。通常、これらの目標を達成するためのコンピュータ科学、および統計を通じて、オンライン分析処理、情報検索、機械学習、エキスパートシステム(親指過去のルールに依存している)多くの方法およびパターン認識と関連しています。その分析方法であって、分類、推定は、予測された、または相関ルールは、グループ化、クラスタリング及び採掘複合データ型に関連します。
1)データの取得
あなたの一日は、2つの方法がありますが、データとデータの収集を開始し、第一の方法は、ビューのプロのポイントを取ることであるクロールまたはクロールと呼ばれ、例えば、検索エンジンがそうさ、それはWeb上ですべての情報を入れたが、それにダウンロードされていますデータセンターは、あなたは検索を検索することができます。
2送信)データ
通常、データの量が多すぎるため、処理されなければならないデータが有用であろう、キューを経由して行われますが、システムが処理するために、しかし、ゆっくりと処理し、並んでいました。
3 )データが格納されています
今データはお金がある、マスターデータは、お金を習得することと等価です。そうしないとどのようにあなたがそれを購入したいのか、ウェブサイトを知っていますか?それはあなたの取引履歴のデータを持っているので、この情報は他の人にではないかもしれないが、それは非常に貴重なものですので、彼らは保存する必要があります。
4 )洗浄及びデータの分析
上記のデータは、元のデータに格納され、元のデータがガベージデータの多くは、その中に存在する、マルチ無秩序であり、したがって、洗浄し、いくつかの高品質のデータを濾過する必要があります。高品質なデータのためのデータを分類する、またはデータとの関係は、知識を得るために、その見つけるために分析することができます。
注意:第三及び第四のステップでは、既存のリロードの洗濯やクリーニングした後、実際のビジネス・シナリオに適切に交換することができます。
5 )データ検索と開削
検索が検索され、いわゆる外務省は問題で、グーグルを求め、百度を尋ねました。鉱業は、検索では、唯一の人々の要件を満たすことができない出てくるし、また相互の関係情報から掘るする必要があります。
6 )をロードし、アプリケーションデータ
どのように優しいディスプレイとも閉じたデータマイニング作業のためのユーザに配信。
データ管理ツール
1 )データ収集ツール
1、クラスのログファイル
ツール |
定義 |
Logstash |
Logstashは、リアルタイムのパイプライン機能を、オープンソースのデータ収集エンジンです。Logstash動的に統一されたさまざまなデータソースからのデータ、およびデータから選択された宛先に正規化されます。 |
Filebeat |
Filebeat 軽量ログ転送ツールとしては、ログの中心にプッシュされてもよい Logstash。 |
Fluentd |
Fluentd その本来の意図は、主として使用される JSON たサブストリングを推測する必要がないログ出力、送信手段と、各フィールドのタイプの下流の伝送線路として。このように、それはつまり、それはプログラムの自己定義に挿入することができ、ほぼすべての言語用のライブラリを提供します。 |
Logagent |
Logagentで ある Sematext ログ送信するために使用されて設けられている転写具、 Logsene(SaaSベース プラットフォーム Elasticsearch APIを)。 |
Rsylog |
大半の Linuxの リリースバージョンのデフォルト・デーモン、rsyslogの 読み書き は/ var / log / messagesに。これは、ファイル、解析、バッファ(ディスクとメモリ)を抽出し、複数の宛先に転送する、備えることができ elasticsearchを 。ここからは、どのように対処する見つけることができる のApache 、およびシステムログ。 |
Logtail |
プロデューサーアリクラウドロギングサービスは、アリグループは現在のコレクションは現在、パブリッククラウドのユーザーアリにサービスを提供しているログ、三年以上の時間の試験後のマシンの内部で動作します。 |
ログ収集ツールLogstash、Filebeat、Fluentd、Logagent、RsylogとLogtail強み、弱みについての詳細な解説
爬虫類のための2、
ダウンロードページ - > ページのレンダリング - > データストレージ
(1)ページのダウンローダ
ダウンローダのために、それが困難なスプラッシュを使用するレンダリング、クラックする簡単な暗号化があるかどうかを見つけるために、ほとんどのテスト+クロールのニーズ、高度なエンジニアリングscrapy、動的なWeb APIインタフェースの優先順位を満たすためのPythonライブラリを要求。
(2)ページパーサー
①BeautifulSoup(エントリーレベル):Pythonの爬虫類入力モジュールBeautifulSoup
(jQueryのに似ています)②pyquery:Pythonの爬虫類:pyqueryモジュールがページを解析し、
③lxml:Pythonの爬虫類:使用lxmlの解析Webコンテンツ
④parsel:CSSやXPathのセレクターを使用してテキストを抽出
セレクタの⑤scrapy(強く推奨、 より高度なパッケージング、parselベース)
⑥セレクタ(セレクタ):Pythonの爬虫類:scrapyフレームワークXPathとCSSセレクタ構文
---------------------
要約:
直接使用するパーサはセレクタをscrapy 、簡単で直接的かつ効率的なライン、上。
(3)データストレージ
①txtテキスト:道路のPythonのフルスタック:一般的な操作のためのファイルのファイル
②csvファイル:Pythonのcsvファイル読み書き
③sqlite3 (Pythonが来る):Pythonプログラミング:使用して、データベースのsqlite3の
④MySQL:SQL:pymysqlモジュールの書き込みデータのmysql
⑤MongoDB:Pythonプログラミング:基本的な変更の検索操作の削除は、MongoDBの
---------------------
要約:
データは、ライン上のビジネスニーズに応じて、下に取得するには何もありません保存され、通常は簡単なテストではMongoDBの、MySQLのビジネス利用を使用します
(4)その他のツール
①execjs :JS実行
Pythonの爬虫類:execjsはPythonでJavaScriptコードを実行します
②pyv8: 実行JS
MACモジュールはパイソンにpyv8 -JavaScript翻訳搭載されています
③html5lib
Pythonの爬虫類:scrapyの使用は非標準のHTMLテキストを解決html5lib
2 )データのクリーニングツール
1、DataWrangler
データサービスを清掃して再配置することは、スタンフォード大学のネットワークベースのビジュアルデザイングループである。非常にシンプルなテキストエディタ。例えば、私は行の見出し「アラバマ」を選んだとき、サンプルデータ「アラバマ州で犯罪を報告した」とし、「アラスカ」のデータの別のセットを選択し、各状態の名前を抽出することをお勧めします。提案にホバリング、あなたは赤い線でハイライトを見ることができます。
2、Googleの絞り込み
それは、このようなラベルやカンマ区切りのテキストファイル、エクセル、XMLやJSONファイルなどのデータ形式、さまざまなインポートおよびエクスポートすることができます。絞り込みは、内蔵のアルゴリズムは、いくつかのスペルが同じではありません見つけることができますが、実際にテキストが一つのグループに分割する必要があります。あなたのデータをインポートした後、[編集]を選択し細胞 - その後>クラスタ、編集、およびアルゴリズムを使用することを選択。迅速かつ簡単にデータの分布プロファイルを提供するデータ・オプション。この機能は、原因入力ミスであることができる異常明らかにすることができます - 例えば、給与計算レコードをしていない$ 80,000 $ 800,000人であることが判明し、または矛盾を指摘する - たとえば、給与データレコードの間の差を、いくつかの時給、いくつかの毎週いくつかの給与を支払いました。データスチュワード機能に加えて、Googleの絞り込みも、ソートやフィルタリングなどのいくつかの有用な分析ツールを、提供します。
3、Logstash
Logstashは 、データ転送を実現することができる強力なデータ処理ツールであり、一般的にログ処理に用いられる処理、出力フォーマット、ならびに強力なプラグイン機能を形成します。
3 )データ記憶手段
記憶メモリに記憶されたデータは、構造化データと非構造化データに分割されています。
1、構造化データ
(1)定義
一般的にデータベースに格納されている参照して、特定の論理的および物理的な構造を持つデータは、リレーショナルデータベースに格納されている最も一般的なデータである非構造化データ:一般に、構造化データ以外のデータを参照、データはデータベースに格納されていません、これは、Web上のデータの一部(HTMLまたはXMLタグに埋め込まれた)も論理的および物理的構造を有し、テキストの様々なタイプを記憶し、半構造化データと呼ばれます。
(2)ストレージシステム
比較的成熟した構造化されたストレージシステムには、Oracle、MySQLの、あるHadoopのようにして。
2、非構造化データ
(1)定義
非構造化データは、事前定義されたデータを表現するために二次元の論理データベーステーブルを使用することが不便で、NO、不規則又は不完全なデータ・モデルのデータ構造です。その上のオフィス文書、テキスト、画像、XML、HTML、各種報告書、画像や音声/映像情報を含むすべての形式。
(2)ストレージ
1)ファイルを格納するファイルシステムを使用して、データベース内のストレージアクセスパス。このアプローチの利点は単純で、DBMSの高度な機能を必要としませんが、このアプローチは、ファイルへのトランザクションアクセスを達成することはできません、データのバックアップとリカバリは簡単で、容易ではないデータ移行ではありません。
2)OSSアリクラウドファイルストレージ機能を使用します。
4 )データ計算ツール
データの計算は、オフライン・コンピューティング、オンライン計算、リアルタイム計算に分かれています。
1、リアルタイムの計算データ
Apacheの嵐
図2に示すように、データラインが計算されます
Elasticsearch
MySQLの
3、データはオフラインで計算します
Hadoopのハイブ
5 )データ分析ツール
1、データマトリックス科学計算:Pythonのライブラリnumpyの
図2に示すように、データスライスの従来の処理:強力なパンダライブラリ
3、データモデリングプロセス:sklearnライブラリー
6 )データ・ロード・ツール
1、データの可視化:Pythonとmatplotlibのライブラリseaborn
2、可視化ツールの共通BI:Tableuソフトと帆
3、ECharts
--------------
推奨読書
[メーカー]ベースのRabbitMQメッセージセンター技術ソリューション
[ストリーミング]のffmpeg + HLSは、ライブと再生を実現します