ランキングの本はほとんどのウェブサイトを知っている - 一部始終ステーション

Webサイトのアドレスbooks.bigfacewo.comは
最近、人々は常に共有に物事のうち、このサイトについての書き込みに何かしたかった、怠惰な感じている仕事に行ってきました。ゆっくりとそれを書きます。
主婦:グレート神は、このサイトには、技術を使用しているが小児科の友人です。しかし、私は友人がこの必要性は依然として存在していると思います。この記事の内容は必ずしも正確ではありません、方法が最善ではありませんが、私はいつも言葉を信じて-とアウトリスナーは、部分的に暗いに耳を傾けます。だから、この記事の友人を見て、私はあなたがあなた自身の考えを持って来ることを願って、だけでなく、あなたに何かを与えることができるように願っています。

まあ、騒ぎ。


参考ウェブサイトはある外国語のウェブサイト知っているが、ほとんどのサイトを分析するために使用する場合は気まぐれで、私はどのような影響を与えること、思いました。
データを取得するために便利であるので、それは、サイトstackoverflowのオープンAPIで同じ場所がありません。そして、ほとんどのパブリックAPIを知っているが、爬虫類の手段を取ること。
したがって、当然、プロセスは、大きく4つの段階に分けられます。

  1. データ収集
  2. データ分析
  3. データ準備ステーション

まず、データ収集

考慮すべきいくつかの質問の爬虫類を書きます:

  1. 信頼性。プログラムは、エラーや停電などの停止にプログラムなどの他の要因によって引き起こされるいくつかの不可抗力に遭遇した場合、どのようにクロール続けた瞬間から停止する、または右は、次のキャッチを、それがデータをクロールしている関連情報を保持している状態を設計します(これはハハ、ナンセンスまあではない)捕獲されたタスク無視情報を取り、考慮すべきいくつかの問題があります。

    • シミュレートされたランディング(フォロー充填ピット)
  2. スピード。600万はおそらく年以上、10,000時間が必要となる、データをクロール秒1、600時間とします。これは、許容できない速度は、毎秒スタンドアロンマルチスレッドクロール10が許容可能です。そこで、我々は、ほとんどの高確率が抗クローラシステムをトリガするので、この問題を回避するには、以下の方法を取ることを知っています:

    • エージェント・プール。あなたは、次のようないくつかの無料のプロキシのサイト、見つけることができます西のとげを、当然のIPの数、で降り、常にプロキシIPを取得するために、システムやサービスを設計して、利用可能であることを確認する必要がありますし、後でのために保存します。それは爬虫類検証ページに来るとき、IPは一時的に利用できないように除去またはマークする必要があります。しかし、あなたはまだ、ほとんど多くの場合、あなたの本当のIPを取得するために要求を知ることができます。
    • クッキー。
    • リダイヤル。このシンプルで非常に実用的な、それは単一のブロードバンドがある場合、ダイヤルアップ、短期の再クロール停止を引き起こす可能性があります。
  3. 優先順位。実際には、すべてのデータが必要または有効な情報が含まれていませんクロールへのデータの一定の理解がある場合、我々は、優先データのこの部分をつかむ、いくつかの特徴を抽出することができます。実際に、私は時間の最大保存、同じことを行います。

私は、Pythonに連絡するとき、我々はそれがとても便利ですので、爬虫類を書くためにそれを使用することにしました!


第二に、データ解析

本情報は、データから抽出された、2つの方法があります。

  1. 抽出のタイトル番号の内容。
  2. まず、書籍のリポジトリを確立し、一致しました。

第二の方法は、より正確を達成するために、だけでなく、かなりの時間が、書籍のデータベースを確立するために消費します。第一の方法を使用するので。実際には、平和は図書の数とほぼ同じ長いタイトルをもたらすでしょう知っている、または言及し、もちろん、我々はこの種の情報本を必要としないではない、いくつかの政治的なメタファーがあります。

同じ本は、テキストを取得するために、データ収集の後、ほとんどの各回答に一度現れることができる「タブを:回数は言及:タイトル、」。

第三に、確立データの準備

私のニーズによると、次の3つのテーブルを確立する必要があります。

  1. タグ表:ブックストアラベルは、多くの関係に多くが対応します。
  2. 表の本:情報は本を保存され、そして本は合計数に言及しました。
  3. ラベル - 対応表ブック:ブック内のタグ情報は、に記載された回数を保存します。

テキストは、データベースに、ステップ2で得られました。

詳細情報ブックを取得するには、私が検索するアマゾンに行ったとして、タイトルにも、いくつかの本ウェブサイトを配置する必要があります今回は、その情報はデータベース、ステップの同じ原理に書き込まれます。それはいくつかの本エラー情報(データの手動見直し後の部分)でファジーマッチ結果であるので、もちろん、これはまた、いくつかのエラーを紹介します。

これは、データの確立は準備ができて。

第四に、設立

設立は、書き込みにRESTfulなインターフェースを備えたスタイルの背景には、あなたは、フロントエンドを使用することができ、比較的簡単です。
Vueが単一ページのアプリケーションのバージョンを使用して構築されますが、エンジンがクロールできません検索するので、彼はSSR使用Nuxt.js.のバージョンを作りました

サイトはほぼ4日に書かれた、ステップ1と2に費やされた時間のほとんど。あなたが似たようなサイトをしたいのであれば、あなたは爬虫類の開始を書き込むことによって開始することができます。


また、私はやりたいです。

  1. 感情の分析。この本は、機能のセンチメント分析を加えることが望ましい正と負の両方を評価することが可能である、言及した後、最終的な結果に加重されます。
  2. 書籍情報の精度を向上させます。APIは、アマゾンなどの淘宝網のウェブサイトのために適用することができ、APIの製品データによって得ることができるクエリ情報のブックに使用することができますが、多くの問題を適用するが、最終的には爬虫類+人工方法採用。
  3. モバイル最適化を終了します。現在、モバイル端末の性能にサイトを公開することは非常に良いではありません。

概要

要約すると、それらは特定のコードに関連していないので、もちろん、直接の操作性を持っていない、比較的単純な書き込みます。しかし、私もPythonのではない場合、あなたはまだ書き込み爬虫類へのJava、C#のを使用するか、分析を行うことができますが、ここでは全体のプロセスは、あなたがそれを達成するためにあなたの好きなプログラミング言語やツールを使用することができていることを表現したい。そこにあります重要な原則は、Pythonの爬虫類関連のライブラリとして、他の人のものを再利用しようと、ある直接Javaを使用して、同じトークンによって使用することができ、非常に強力ですが、あなたが達成することができ、ライブラリに関連付けられた言語を、調査する必要がありますそして今、それを使用する目的で、。
さらに、いくつかの要素は、後続の補数を省略する。

おすすめ

転載: www.cnblogs.com/jlfw/p/12039887.html