データ収集:データ収集を自動化する方法
高品質なデータマイニング構造を得るために、データの品質を確保しつつ、複数の寸法によって影響されるデータの傾向は、多くのデータ・ディメンションとして収集します
データソースの4つのカテゴリ:オープンデータソース(政府、企業、大学)、爬虫類のクロール(ウェブ、APP)、ログ収集(取得フロントエンド、バックエンドのスクリプト)、センサー(画像流速、熱)
オープンソースのデータを使用する方法
オープン・データ・ソースは、政府、企業、大学などの二次元、一次元単位、から考えることができ、一方は商品寸法であり、そのような交通、金融、エネルギーおよび他の領域として、データ・ソース・フィールドを探している場合、そのような資金としてフィールドは、あなたが直接オープン財務データソースを検索することができます
どのように爬虫類は、使用をクロールしません
Pythonの爬虫類で書かれたコード
- 使用してコンテンツをクロール要求し、使用することは、データのページをクロールし、HTTP要求のライブラリがPythonライブラリである、情報のクロールページにこのライブラリをライブラリを要求します
- XPathを使用してコンテンツ解析が、XPathは、XMLパスの略で、XMLパス言語は、XML文書の部分の位置を決定するための言語である、XPathは要素および属性の位置によってインデックス付けすることができます
- 使用パンダはクロールデータパンダを保存することで、データを保存する、またはXLSデータベースに書き込まMYSQL
列車のコレクター、タコ、検索オフセット:もちろん、それはのような、情報のクロールページにプログラムすることができません
ログ収集ツールの使用方法
特定のデバイスに基づいて基本的なセンサーの取得は、装置によって収集された情報を収集することができます
なぜ、ログ収集はでしたか?ユーザ訪問を分析することによって、それによってシステムの搬送能力を向上させる、システム性能を向上させます
ユーザーのプロセス全体をロギングは、Webサイトを参照してください。誰がどのような時には、チャネルが(URLを入力して、検索エンジン)、エラーが発生した場合、データをファイルに書き込むことができますどのようなアクションシステムに分割することができるものを通してなど、アクセスログ、エラーログ、など、さまざまなログファイル、
ログ収集は、二つの形式に分けられます。
- このようにhttpdとして取得によりWEBサーバ、nginxの、Tomcatは、ロギングが付属して、多くのインターネット企業が存在し、システムログ収集のために独自の膨大なデータ収集ツールを持っています
- そのようなJavaScriptコードでモニターのユーザー行動などのカスタム収集ユーザーの行動、
何埋設されています
埋め込み取得は時間の長さ等埋設された時点、各埋め込みなど、ユーザ情報、デバイス情報、ユーザまたはページ上の動作挙動を含む、位置情報報告、例えば訪問ページに対応する必要があります真クロスユーザーシナリオ、およびユーザのニーズを復元するためにユーザー行動データ、多次元データ分析を収集するカメラをポイントが対応します、
あなたが統計を必要とするインプラント統計コードに埋もれ
行う方法に埋もれ:https://blog.csdn.net/feishangbeijixing/article/details/86445704