説明
偶然にも、私は、ヘルプの学生に小さなコーパス分析ツールを作った中国の一括エクスポートデータ、アカウンティングなどのクイック統計文、BBCコーパス北京語言大学を使用してデータソースは(現在このコーパスの語学学校は、北朝鮮を使用するように変換されています)外からはアクセスできません。
爬虫
私は、独自のサーバー、昼と夜の小さな爬虫類プットを書いて、データベースサーバ自身へのデータの数万の節約になります。
- 爬虫類V1.0、データをクロール簡単なページングは、データの後に、データベースに格納されます;北コーパスへの展開の迅速なアクセスの後に発見された場合、他のサイトが500に簡単で、クロール爬虫類の長い時間と繰り返しを私を導きました。
- V1.1の爬虫類は、タイミングがタスクがクラッシュ再起動をブレークポイントのアクセスの頻度を減らすように設定し、追加され、展開後の計算時間は、データの10ワットのクロールを見つけるために、20時間を要するが、あまりにも長い間、完成されています。
- 爬虫類V2.0、二つのスレッドを開いたオープン2クローラープロセス、爬虫類の電子メールまたは完全な崩壊思い出させる、導入時間5時間後に20時間から減少クロールは、完了したクロールを覚まします。
アリ・フライング・アイス
アリは初めて飛んで氷コンポーネントライブラリ、コード、ビルド、パッケージを書くのに便利、非常に滑らかなプロセスを見つけ、コンパイル結果が良好で、足場はまだ非常に健全で、開発アジャイルの使用に適し、UIコンポーネントライブラリも非常に効果あり良いです。