DHTプロトコルクローラ磁気リンクとBTの種の検索エンジン

システムの機能と技術の使用。

システムは、複数の別々の部品で構成されています。

  • Pythonの使用  Scrapyの  、フレームワーク開発されたWebクローラーを磁気リンクをクロールし、種子。

  • シンプルなウェブサイトの開発のためのPHPを使用CIフレームワーク。

  • MySQLの検索エンジンは現在、スフィンクスを使用して検討し、将来的に直接使用されます。

  • 中国語の単語。

    逆のサブカテゴリに基づいた最大マッチングアルゴリズムの簡易版で、PHPで書かれ、それシソーラス、ハハ、直接使用  クロームの単語テーブル:、ワード形式は、このアドレスでダウンロードすることができhttp://www.mdbg.net/chindict /chindict.php?page=cedict

  • 新しい単語の発見メカニズム

    新しい単語検索キーワードに基づいて検出メカニズム。

    現在、シソーラス例えばサブワードすることはできません最新の映画、などの問題の多くがまだある、星間が  単語である「スター」と「スルー」として、その「盗まれた年、クロスファイア、スピードカタツムリ、偉大なギャツビー、フェイクフィクション、スター・トレック、スティーブジョブズの伝記。「また、検索結果に表示されます。

    もちろん、このことは、あまりにも大きなAの問題ではありませんが、ホビットは「フオ」の言葉だった、「ビット」、「人」、と幸い有効な、どのような混乱に検索結果がありません。これらは非常にいくつかの爬虫類にクレソンを準備し、オーバーセグメンテーションはシソーラスの含有量を増加させることによって解決することができます、クレソンの映画は、援助の言葉に、すべての辞書に参加しています。

  • リソースの別名

    これは、より人間的な、我々のシステムは、よりインテリジェントになります。我々はこのような状況に遭遇することが多い、検索Baiduのとき、私たちは「オープンクルミの武器」を検索すると、Baiduは私たちを連想させる、「あなたが探しているノキア?。ではありません」私たちは検索すると、「世界で最高の言語、」Baiduは私たちを連想させる、「あなたが探しているPHPではないですか」。同様に、「星間」星間ためのユーザ検索では、ユーザーのためのマッチング結果を提供すべきです。

    我々は、オンライン翻訳の複雑さを理解していない、ちょうどクレソンをクロール継続する必要があり、映画はその上に英語のテーブルに作られています。また、アカウントにいくつかのオタクの特別なニーズを取るために、私たちはテーブルの日本人を行う必要があります。

  • 英語の単語

    英語も言葉を必要としますか?スペースは、境界なしの単語ではありませんか?あなたは、このような翻訳は英語だけでPHPを使用していますので、私は当初、考えていた、正常であり持っている  explode(' ', $query) 機能を。

    しかし、私はちょうど(2015年2月1日夜9時59分35秒)検索ログは、いくつかの問題を参照することが判明、今日の  xartの  キーワードは169回検索された、  xart  キーワード検索だけで54回行われているが、X-芸術はその公式の用語ああ(私はそんなに知っている、なぜ私に聞かないでください)です。ただxartに向け統一コード、xartとxartを調整し、私はそう。

  • BitTorrentのPythonの開発者は、低い初期バージョンを使用し、そして、多くのライブラリは、BitTorrentのを直接使用するオープンソースでされて、直接PHPプラットフォームに移植されたライブラリと補助機能がいくつかあります;(ペトル青白いが書いた  bencodeが  あまりにも彼の妻を称賛しました彼は私に尋ねた:なぜあなたは、コードの膝を書くのですか)?

各ノードはクライアントとして動作するため、P2Pは、BTは中央サーバーを必要としません知っている人の原則を理解するだけでなく、そう0x0Dの偉大な神に基づいて、サーバ、  dhtfckは DHTの爬虫類を書いて、それはとてもときに、ネットワーク内のDHTノードを装っああ、あなたはああ、この種子をダウンロードしたい誰かが、その後、確かにこのDHTネットワーク内にあります。他のクライアントが急流をダウンロードしたい場合、それは私のノードについて尋ねられたとき、私が知っている、DHTネットワークブロードキャストに起動しますシード。だから私は、MySQLに、この情報の種を保存しました。

全体のプロセスは、より具体的な外観DHTすることができ  DHTプロトコル

注:私はこの情報を、あなたは磁気リンクを構築することができ、情報のinfohash急流を保存したが、それでもシードファイルを取得していない、我々は他の手段でシードファイルを取得する必要があります。

Pythonのクローラーは、ブラインドを見つけるためのイニシアチブを取ることです。大規模なインターネットページに種子や磁気のリンクを探しています。種子は、その後、種子はPythonの可能爬虫類ない人気の種子、あり、何度も聞かれている場合、人々が求めてきたときにDHTの爬虫類は、パッシブ待ちとなり、照会の記録結果にそれを置きますA。

PythonのBitTorrentのオープンソース版ので、ので、私のDHTクローラもパイソンを使用しています。サーバーとして、ツイストフレームワークを使用してください、お馴染みのnodejs学生は、このフレームワークの特性を知っている必要があります:非同期ネットワークIO、ほとんどの開発者は、唯一のIO非同期nodejsで理解したが、N年には早くもnodejsよりもねじれているが。

現在実行中の爬虫類は、私はDHTのマルチスレッドサーバーベースのソケットを書いた一週間前、非常にシンプルなバージョンです。(2015年2月1日)今のところ、それは6日間実行している、と45234859磁気リンクの合計を集めてきました。

磁気検索サイトは、毎日の要約を更新しています

https://www.cnblogs.com/cilisousuo/p/12099547.html

おすすめ

転載: www.cnblogs.com/cilisousuo/p/12110831.html