ビッグデータベース - 大規模なインターネット・データ・プロセッシング(鵬「ビッグデータ」放課後の運動の回答)

1.インターネット情報クロール方法の説明。

   インターネット情報は、自動的に最も一般的で効果的な方法をつかむウェブクローラを使用することです。

世論のシステムのアーキテクチャの構成の説明。

   ユーザ端末 - >獲得層 - >分析レイヤー - >プレゼンテーション層 - >ユーザ

                                              

3.中国語の単語のセグメンテーションアルゴリズムは、いくつかのカテゴリに分けることができますか?

   保留中の中国語の文字列である文字列照合に基づいて、(1)分割方法、文字列が辞書に存在する場合、「可能な限り包括的として、」一定の規則に従って一致する辞書エントリは、それがあると考えられます文字列マッチングの成功。

  単語は、特定の単語の組み合わせであるので、(2)ワードの統計に基づく方法は、この文脈において、に隣接する単語の共起の頻度が高いほど、より多くの可能性が高いその単語の組み合わせの下にある単語を構成します。

  セグメンテーションベース(3)の方法は、メソッドが同時にあいまいな語文章情報及び意味情報、及び単語の意味および構文解析することによって問題を解決することを理解しました。

4.一般的なツールテキスト単語何?

   (1)MMSEGセグメンテーションツール

  (2)スタンフォードNLTKセグメンテーションツール

転置インデックス原理の5の説明。

   また、「逆インデックス」または「逆ファイル」として知られる逆インデックス(転置インデックス)は、インデックスデータ構造です。迅速な全文検索と新しい最小の処理コストを目的とした「コンテンツ」の間で転置インデックスのマッピングを確立する(例えば、単語、数字)と「位置」(例えば、データベース、ファイル、ファイルのグループ)の記憶内容、データベースに追加されたファイル。転置インデックスによって、あなたはすぐ下でそれを含むファイル検索できる「コンテンツを。」

転置インデックスの更新戦略の6説明。

                                            

7. 簡単にインデックスを達成するために反転します。

                                          

8.人気のあるWebソートアルゴリズムは何?

   (1)トラフィックに基づくアルゴリズムをソートします。このアルゴリズムは、より重要なページ、大きいトラフィックです。

  (2)アルゴリズムをソート重み付け単語頻度と単語の位置、例えば、TF-IDFアルゴリズム、アルゴリズムBM25。

  (3)のPageRankアルゴリズム、レピュテーションアルゴリズムとしてリンク分析に基づくアルゴリズムを、ソート。

  (4)に基づいてインテリジェントなソートアルゴリズム。

9.簡単なTD-IDFアルゴリズムの主なアイデア。

                                 

10. BMアルゴリズムは、主要なアイデアを概説しました。

                                  

11.簡単な履歴情報検索システムアーキテクチャ。

  面向历史领域的智能信息检索引擎,从互联网上抓取重大历史事件的网站内容,经过数据汇聚和整合从而在数据库中建立专门的数据库。通过在数据库中检索与用户查询条件匹配的相关记录,然后将查询结果进行优化,并按照一定的排序方式将最终结果返回给用户。

                                       

おすすめ

転載: www.cnblogs.com/lsm-boke/p/11964395.html