検索エンジンの紹介

検索エンジンの紹介

グラフLR A [サーチエンジン]塗りつぶしをスタイル:#1 cc66ffのA - > B [4段階] A - > C [爬虫類] A - > D [<BR>逆索引語文書行列] C - > E [抗チート<BR>リンク関係] C - > F [OPIC <BR>のPageRank] A - > G [ネット&暗い2つの困難] D - > I [ワードブレーカ&NLP] I - > J [文書番号<BR>単語頻度<BR>位置] D - > K [動的インデックス三つのモジュール] K - > L [分散<BR>&ワードドキュメント] D - > M [フレーズクエリ]

この記事を読んで、「これは、検索エンジンである:コア技術を説明し、」研究ノート

検索エンジンは、インターネットや検索エンジン技術の重要な部分は、現在ある情報過多の主な問題は、解決するための手段と考えることができます

4つの段階に分けている検索エンジンを開発するために使用される技術に従うことができます:

  1. このような検索ボックスを含有していないなどのカテゴリ、hao123HOMEを。この時点で、必要が手動でサイトや要約を分類します
  2. テキストの検索、ユーザーの検索やページに一致するモデルを用いた情報検索。そして、これは別のページの間には独立した関連性はなかったです
  3. アカウントに人気のあるWebページ(重要)度の尺度を使用する関係上、テキスト検索に基づいて、ページ間のリンク(ハイパーリンク)との関係を取って、リンク解析、
  4. ユーザー中心、ユーザ中心、理解し、利用者の個々のニーズを満たします。例えば、ユーザーは、Appleを検索し、実際にそれはiphone 11を検索する必要があります

ターゲットの検索エンジンは、次のとおりです。より速く、より正確に、より完全な

検索エンジン技術のアーキテクチャ

- > B(Webクローラーは、同様のWebページを<BR>)B - > D [転置インデックス<BR> <リンク関係>] C [クラウドプラットフォーム#00FF00 A:グラフLR A((インターネット))塗りつぶしのスタイル] - > DE [抗チート] - > DスタイルE塗ります。#cc66ffのD - > F [コンテンツ類似<BR>リンク解析] F - > G((ページランク))H((ユーザ) )スタイルH塗ります。#00FF00のH - > I [キャッシュ] I - > G

関連概念

  • シードURL&Webクローラーは、Webクローラーは、最初のURLの提供を開始する必要があり、URLはシードURLです
  • Webページの分類&ウェブクローラは、ダウンロードされた、(URLの爬虫類がキューに参加している)、あなたは、未知のページをページを見ることができますダウンロードする、有効期限が切れ
  • 爬虫類の分類、バッチ式(到達目標停止)、増分(クロールノンストップ)、垂直(爬虫類の特定の領域に焦点)
  • フレンドリーな爬虫類、果たす爬虫類の禁止は合意キャッチサイトの一部のプライバシーを保護するために、キャッチのサイト最小限のネットワーク負荷を
  • 爬虫類は、戦略をクロールほぼ無限の資源は、それが更新ウェブページのさまざまな種類とそれらの異なる戦略をクロールしているので、限られたリソースとウェブクローラの、
    • 幅優先トラバーサル
    • 不完全なページランク、これらのURLのページとURL解析のクロール一部は、その後、ちょうどより多くの重要なページをつかみます。簡単な方法:グラフのノードとして表示されたページは、大きいのより一般的な重要性のページ番号(私たちは不正行為を考慮していない)へのリンクです。PageRankのネットワーク全体はほぼ不可能なので、プロセスの一部だけ
    • OPIC(オンラインページの重要度の計算)、および非考え方と全く同じのPageRank。それぞれの新しいページが同じ現金与えキャッチされ、現金は現金の大きさに応じてソートシステムにURLすでに、現在のページのURLに均等に分割されます。PageRankのスピードとリアルタイムの面でOCIP相対的な優位性
    • 主要駅の優先順位
  • クロールページの更新ポリシー
    • 過去の参照、未来過去の確率頻繁に更新され、頻繁に更新されたWebページが比較的大きい、ポアソン過程
    • ユーザーエクスペリエンス戦略、インパクトのあるページはできるだけ早く更新されるべきです
    • 異なるクラスターサンプリング戦略、ページの更新頻度の異なる種類
  • 分散クロール
    • マスター・スレーブ爬虫類
    • 爬虫類ピアツーピア

ダークウェブ

いわゆるダークネットは、データベースに保存されているものを指しますが、ハイパーリンクを介してアクセスすることができないリソースのセット。簡単に言えば、ネットワークリソースには、暗い、いわゆるまたはネットワークは、検索エンジンでインデックス化することは困難ではありません。Ctripのチケットデータは、このプロセスの目的のためにウェブクローラの組み合わせを介して、チェックアウトする必要が自動化が困難である、普通の暴力はクロールより大きな圧力をもたらすために、サイト逮捕されます

ダークWebクローラー技術的な問題が2つあります:

  • あまりにも多くの組み合わせは、どのように慎重に選択されたポートフォリオを問い合わせるには?
  • クエリテキストボックスのほとんどは、どのように適切なコンテンツクローラを入力してください?

いくつかの技術的な問題に上記の二つのソリューションは、あなたは2.6節で「これは、検索エンジンである」を参照してくださいすることができます

指数

インデックスは、コア検索エンジン技術の一つである素早く見つけるための検索エンジンの基礎となっています

いくつかの概念

  • テキストオブジェクトの形で存在する文書(DOC)、またはサブワードユニットの独立したストレージシステムの分解能とすることができます。などPDFやWord、HTML、XML、など
  • 文書行列の格納形式 - 逆索引(逆索引)は、次の単語は、インデックスを反転します。書類はすぐに転置インデックスを介して取得する単語に基づいて、この単語リストを含めることができます。実装転置インデックス一般的に使用されるハッシュテーブルと多分岐ツリー
  • 単語辞書、検索エンジン、通常ユニットのインデックスが単語である、単語辞書は、文字列のコレクションで、ドキュメントセット内のすべての単語がこれまでに構築
  • インバーテッドリストは、同じ単語が異なる文書に表示されること、および同じドキュメント内の単語や情報の文書間の関連付けを保存するために数回、反転リストを表示される場合があります
  • 転置ファイルを格納するすべての単語とそれらに対応する転置ファイル一覧
  • 単語が文書コレクション内のドキュメントの現在の数で表示されていることを示す文書頻度、

単語 - 文書行列

Word文書行列は、次のような文書に特定の単語の存在を示すために使用されます。

ドキュメント1 ドキュメント2 ... Nドキュメント
用語解説1 持っています
... ... ... ... ...
用語集のn 持っています ...

ワードブレーカ

英語の言い回しでは、単語間のスペースは自然な区切り文字としてではなく、区切り文字に明確な境界をシンプルによるだけで中国語の単語、文や段落ではなく、正式な単語の区切り文字、単語の処理があります単語のシーケンスに再結合し、特定のプロセス仕様に従って単語の連続したシーケンス。

検索語の基本的な要素は、検索エンジンで、単語文書行列を作成するために、私たちは言葉システムは、文書内のすべての単語を抽出し、使用する必要があります

ワープロ文書、自然言語処理(NLP)の1は、コアツールですが、NLPは、ビッグデータの時代は非常に重要なツールです単語分割アルゴリズムの説明を行いません。この記事では、詳細な情報は、他の文書を参照することができます。

転置インデックスの例

例の文書:

文献 ドキュメントコンテンツ
1 Googleマップの父はFacebookを利用して終了しました
2 Googleマップの父はFacebookを利用して参加します
3 Googleマップの創設者ラスのFacebookに参加するためにGoogleを去ります
4 GoogleマップとWaveの父親は、Facebookがプロジェクトをキャンセル終了しました
5 Googleマップラスの父は、ソーシャルネットワーキングサイトのFacebookに参加しました

ワード周波数、ワードの頻度、及び文書逆索引の例の場所を有します。

WordのID 単語 文書頻度 反転リスト(文書番号、ワードの頻度、場所)
1 グーグル 5 (1; 1; <1>)、(2; 1; <1>)、(3; 2; <1; 6>)、(4; 1; <1>)、(5; 1、<1> )
2 創業者 1 (3; 1; <3>)
... ... ... ...

単語「Googleは」5つの文書に登場し、そして第三の文書に二回登場し、言葉でそれぞれ最初の単語と6位でのドキュメント

確立し、インデックスを更新

3つの方法で一般的なインデックス:二回文書法、並べ替え、より一般的に使用法は、アルゴリズムをマージされてマージ。データのみメモリストレージを使用して、より大きな流出アルゴリズムに使用できません。マージ

ダイナミックインデックス

転置インデックス、インデックスと一時削除された文書のリスト:私たちは、その後、システムは3つの主要コンポーネントがあり、ダイナミックな文書コレクションを検索するときに動的インデックスを作成する必要があります

ドキュメントの変更は、最初の一時的なインデックスを構築します。削除&処理を再度追加、削除された文書が削除された文書リストに維持する必要が応じた文書を更新し、クエリの結果を返すときにクエリ結果をフィルタリングするために、文書のリストを削除する必要があります。

グラフLR A((クエリ))塗りつぶしのスタイル:#00FF00 A - > C [一時インデックス<BR> <新規ドキュメント>] A - > D [転置インデックス] C - > E [削除された文書リスト<フィルター>] D - > EE - > F((照会結果))

インデックスは、様々な戦略を更新:完全に、再構築、再結合、および混合場所の更新戦略、元の本3.6を参照して詳細に説明しました。戦略と爬虫類同様の異なるとの言葉は、属性インデックスの更新ポリシーが異なる場合があります。

複数フィールドインデックス

一部のドキュメントには、電子メールなど、いくつかの構造は、送信者、受信者、タイトルとテキストを持っており、いくつかの検索は、このような受信者だけのリスト内の検索として、文書内の検索構造の一部を示しています。情報構造と語の文書構造とマルチフィールドインデックス間の情報は、ドキュメントを取得するには、いくつかの方法が必要です

3つの方法で一般的な複数フィールドインデックス:

  • 複数のインデックス、文書の構造の各部分のための指標の確立、すなわち
  • 反転リスト、ドキュメントのインデックスのみを確立するが、追加された行、フィルタリングこれらの非指定の位置情報の結果をその後の使用の単語のリストダウン情報構造
  • 拡張リストモード、及び第二の方法は上記と同様であるが、位置情報は、インバーテッドリストに格納されていません。例えば、文書の構造の詳細な説明の拡張リスト:最初の21ワードの最初の単語は、送信者の情報なので、結果には、クエリワードは1〜21の単語を配置されていない場合、あなたは髪に配置されていない結果を知ることができます個人情報の断片で

分散インデックス

検索エンジンのための分散型索引付けを構築し、唯一の分散量データを使用することができる現在の技術の処理のために、二つの溶液がありますワードによって分割文書区分に従って

ドキュメントは、マシンのすべての容量で割ってすべてのマシンにブロードキャストする場合、各クエリが発行されます、別のドキュメントのインデックス作成のために等しい、別のマシンであります

単語が異なる単語のインデックスに応じて別のマシンに分けられ、クエリは、機械の一部のみを必要とします

言葉でインデックス化は、次のような欠点を持っているので、一般的に使用される方法は、文書によってインデックスが作成されます。

  • 悪いスケーラビリティ、追加の各文書は言葉を多く含むドキュメントいるため、異なるマシンの多くに関与しますが、これらの言葉は、別のマシンインデックスです
  • ロードバランシングが悪い、いくつかの非常に一般的な単語は、そのような索引語のマシンが他のマシンよりも多くのリソースを必要とします
  • 貧しいフォールトトレランス
  • クエリの制限他の人が安定した状態の検索を押す必要がありながら、言葉で割っは、唯一、道を照会する(後述)の単語一度使用することができます

お問い合わせ

インデックスの設立は、インデックス、インデックスのクエリを照会するために使用することができた後、二つの方法があります:ドキュメント一度、単語たら

  • 文書たら、

    原稿反転リストは、類似性の最終的な文書とクエリフィールドの各計算ユニットを含有し、文書の最終的なスコア選別、残りの文書を計算します

  • 単語たら、

    ユニットとしての単語を確認するには、各クエリは、単語、完全な単語のクエリ次の単語の前に調査に関与するすべての文書上のドキュメントをスコア。文書のすべての単語を蓄積し、最終的なスコアのスコアであります

フレーズクエリ

一般的なフレーズ問い合わせ方法:位置情報のインデックス、ダブルインデックスの単語やフレーズのインデックス

位置情報は、インデックス化直感的な方法を、そのメッセージの言葉は、比較的長い時間が含まれて効率的ではありません

ダブルワードインデックス二つの単語に共通する2ワードメッセージとの間の接続を確立するには、ダブルワードの最初の単語ですぐに単語の下に見つけることができます。収納スペースの多くを消費しますダブルワードインデックスは、それは一般的に、共通のフレーズをこの方法でのみ使用されています

フレーズインデックスがフレーズやインデックスなどの単語を見ていると、インデックスは一般的に、フレーズの人気フレーズデータマイニングを取得するために必要とされます

語句はまた属性やカテゴリは、異なる属性のメッセージは異なるインデックスを使用することができます

おすすめ

転載: www.cnblogs.com/jiahu-Blog/p/11621816.html