セキュリティ侵入テストにおける無料でオープン ソースのスーパー キーワード URL 収集ツール。
#####################
免責事項: ツール自体に良し悪しはありません. 利用者の皆様には, 関係法令を遵守する前提でツールをご利用いただきますようお願いいたします. 「ネットワーク保安法」およびサポート研究を学び、違法および犯罪行為に使用しないでください。また、このツールの悪用による損失は、私または開発者とは何の関係もありません。
####################
superl-url キーワードの URL コレクション:
Python ベースのオープン ソースで無料のキーワード URL 収集ツール。
キーワードに基づいて検索エンジン コンテンツの検索結果の URL コンテンツを収集する軽量のソフトウェア プログラム。
このプログラムは、主にセキュリティ侵入テスト プロジェクトで使用され、さまざまな CMS システムの 0DAY 影響のバッチ評価と同様に、関心のある Web サイトをバッチ収集するための小さなプログラムでもあります~~
関連するウェブサイトの実際のアドレスやタイトルなどの情報を検索エンジンから自動的に収集し、ファイルとして保存し、重複する URL を自動的に削除できます。同時に、複数のドメイン名を無視するようにカスタマイズすることもできます.
プログラムの機能
複数の検索エンジン (Baidu、Sogou、360 が組み込まれています) の同時収集、モジュール構造、拡張が容易、無制限の追加をサポートします。
得られるのは検索エンジンの検索結果の実際のURLアドレス
Pythonで開発されたクロスプラットフォームで、すべてのコードは完全にオープンソースであり、バックドアがバンドルされるリスクがなく、更新も簡単です。インターネット上のURL収集ソフトの多くは、WINDOWSで実行可能なファイルであり、検索エンジンのアップデート後、正常に使用できなくなるものも多くあります。
強力なフィルタリング機能。さまざまなトップレベル ドメイン名をフィルタリングでき、検索結果で youku.com に属するサブドメイン URL をフィルタリングするなど、指定したタイトルに特定のキーワードを含む URL をフィルタリングできます。TXT 構成フィルタリングをサポートします。
重複する URL を自動的に削除する
保存する結果の形式は、構成ファイルを介して柔軟にカスタマイズできます。たとえば、パラメータ付きの元の実際の URL のみを出力したり、ドメイン名のみを出力したり、タイトルと検索エンジン名を同時に出力したりします。
コレクションに参加している検索エンジンは、柔軟にオンとオフを切り替えることができます.たとえば、Baidu のみを使用する場合は、他の検索エンジンのパラメーターを False に設定できます.
python3版とpython2版に同時に対応!良心のオープンソースの小さな製品~~~
異なる検索エンジンのページあたりの表示数は、個別にカスタマイズできます (検索エンジン自体がサポートしている場合)。
複数プロセスの同時収集をサポートし、検索エンジンごとに 1 つのプロセス
ブロックされないように、各ページ コレクションの時間間隔をカスタマイズできます。
収集したWebページの【実URL】と【タイトル】をリアルタイム表示。前の [ID] は、現在のページの検索エンジン結果の X 番目のアイテム データに対応します。
保存タイプはカスタマイズ可能で、現在、ローカル txt としての保存とリモート MYSQL データベースへの書き込みをサポートしています!
superl-url のインストールと使用
git clone https://github.com/super-l/superl-url.git
依存関係をインストールする
python3:pip install ConfigParserpip install tldextract
Python2:pip install tldextractpip install -i https://pypi.tuna.tsinghua.edu.cn/simple configparser
プロンプト モジュールが存在しない場合は、プロンプトに従ってインストールしてください。
使い方
「ハッカー」というキーワードで関連サイトを集めて、検索結果の最初の3ページを集めたい場合は、次のように入力します。
キーワードを入力してください:ハッカー
ページ数:3
構成ファイルの説明 config.cfg:
ノード パラメータの例 値の説明
グローバル save_type mysql 保存タイプは、ファイルの場合はファイルまたは mysql を選択でき、ローカル txtとして保存します
グローバル sleep_time 各検索がページの処理を終了した後の 1 待機時間。
save file txt に表示される URL の種類。realurl=実際の Web サイト アドレス baseurl=元の検索エンジン アドレス urlparam=パラメーター付きの実際の Web サイト アドレス
filter filter_status True フィルターを有効にするかどうか。有効にした場合、フィルター ドメイン名とタイトルは有効になりません
filter filter_domain ドメイン名
フィルターをフィルターするかどうか True filter_title True タイトル
ログをフィルタリングするかどうか write_title True タイトル
ログを表示するかどうか write_name True 検索エンジン名を表示するかどうか
engine Baidu True Baidu 検索エンジン モジュールを有効にするかどうか
engine sougou True Sogou モジュールを有効にするか
どうかエンジン so False Soso モジュールが有効になっています (sosoは現在クロールできません)
pagesize baidu_pagesize 50 ページあたりのエントリ数
pagesize sougou_pagesize 50 ページあたりのエントリ数
pagesize so_pagesize 10 ページあたりのエントリ数
正しく構成する必要があります
mysql ポート 3306 ポート
mysql ユーザー root ユーザー名
mysql パスワード root パスワード
mysql データベース superldb データベース名
mysql テーブル search_data テーブル名
ファイル save_pathdir 結果 保存タイプがファイルの場合、保存するパスがここに設定されます。現在、 program
plugin pr True Reserved プラグイン関数、現在サポートされていません
データベース作成テーブルの sql ステートメント:
CREATE TABLE `search_data` (
`id` int(11) unsigned NOT NULL AUTO_INCREMENT,
`engine` varchar(20) NOT NULL DEFAULT '',
`keyword` varchar(100) NOT NULL DEFAULT '',
`baseurl` varchar(255) NOT NULL DEFAULT '',
`realurl` varchar(255) NOT NULL DEFAULT '',
`urlparam` varchar(255) NOT NULL DEFAULT '',
`webtitle` varchar(255) NOT NULL DEFAULT '',
`create_time` int(10) NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=MyISAM AUTO_INCREMENT=395 DEFAULT CHARSET=utf8;