Baidu Knows Q&A 集約収集ソフトウェア アンチクロール版ドキュメント/Python 収集スクリプト

皆さんこんにちは、タオ・シャオバイです〜

 Baidu では集計収集ソフトウェアのドキュメントをご存知ですが、これまではデモ動画を作成しただけで詳しい紹介はしていませんでしたが、今回は更新された内容を踏まえて詳しくご紹介します。

1. ソフトウェア言語: Python 

2.ロジック:キーワードによる一括収集---複数の記事の集約---ローカルtxtに保存 

3. 設定ファイルの説明:

ソフトウェアを入手したら、まず config.ini 構成ファイルを変更します。このファイルには次のカスタム コンテンツが含まれています。

パス: キーワード呼び出しパス;

bf_num: 同時実行数。最大値は 20 です。20 を超えると、ソフトウェアは自動的に 20 同時実行に変更します。

out_path: データ出力パス;

title_mode: タイトルモード、0 1 2 3 4、意味は次のとおりです。

キーワードシングルタイトル:1

タイトルシートのタイトルを知る: 2

キーワード+タイトルを知る ダブルタイトル:3

タイトルを知っている + タイトルを知っている: 4  

ランダムタイトルパターン:0

title_f、title_b: ダブル タイトル コネクタ。 注: リンクにスペースを使用する場合は、英語の二重引用符を使用してください。たとえば、「 」。これは、リンクにスペースを使用することを意味します。

title_len: タイトルの長さ制限フィルタリング。タイトルの長さが 30 を超える場合、フィルタリングされます。

Article_seq: 抽出順序の切り替え。記事 ID の抽出順序がランダムに乱れているかどうか。例: 123456789... 連続記事、ランダムにスクランブル: 951326487... 0 はデフォルトの
順序で抽出、1 は記事の順序を乱す

Article_num: カスタマイズされた記事の集約数: 最小値は 2、最大値は 10 です。0 に設定すると、3 ~ 5 個の記事のランダムな組み合わせになります。

上記の主な機能はお客様のご要望に応じた追加内容であり、今後もお客様からのご質問を募集し、最適化・バージョンアップを行ってまいります。

4. 使用するには、ライセンスを購入し、それをコンピュータにバインドする必要があります。

5. 集約されたデータを自動的にマッピングします。

6. Baidu に基づく集約データのカスタム ロジックを知る必要がある場合は、ロジックをカスタマイズするために私に連絡してください。

7. その他の注意事項: キーワード.txt および config.ini ファイルを開いて編集するには、notepad++ を使用してください。編集にはメモ帳を使用しないでください。コンピュータが異なれば、不明なエラーが発生する可能性があります。

8. デモコレクションビデオ:

Baidu は収集ツール ソフトウェアのデモンストレーション、記事結合集約 Web サイトの更新、迅速な収集、一括収集を知っています。

おすすめ

転載: blog.csdn.net/u012917925/article/details/133244188