サイト全体のツールを入手する

最近、ビジネス上の必要性から、サイト取得ツール全体について少し勉強しました。クローラーを使用して、具体的にはサイト全体取得ツールを使用してみてはいかがでしょうか? クローラーは、ターゲットを絞った方法で Web サイトの構造を設計する必要があり、場合によっては、ローカライズ後に Web サイト上のすべての情報のみを分析する必要があるためです。これはサイトツール全体の利点です。もちろん、サイト全体をコピーするのに十分なローカルスペース、トラフィック、時間が存在することが前提となります。

私が検討したものの、実際には使いにくいと思われるツールを 2 つ簡単に紹介します。

PyWebコピー

その名前が示すように、これは pip を通じて直接インストールできる Python 用のツールキットであり、その目的は Web ページのコピーや Web サイトのコピーという私たちのニーズに非常に対応しています。

このツールの主な欠点は、完全には機能しないことです。最初のステップを試してみたところ、中国のサイトからダウンロードしたものはすべて文字化けしており、エンコードを設定するパラメーターが見つかりませんでした。また、予備実験の結果、多くのリンクが認識できないことが判明した。

ウィゲット

ダウンロードアーティファクトである wget が、ファイルのダウンロードに使用できるだけでなく、サイト全体のダウンロードにも使用できることがインターネット上で予期せず発見されました。

しかし、ネットワークで導入されているコマンドラインは予備実験の結果使えず、wgetのドキュメントも閲覧してみましたが、サイト全体が何千ページものテキストからどの機能をダウンロードしているのか分かりませんでした。このツールは確かに優れたツールであるとしか言えません。主に、私自身のスタッフが優秀すぎるためです。

HTTrack

HTTrack は、最終的に私のビジネスニーズを満たしたツールです。

汎用性の観点から見ると、Linux、MacOS、Windows で実装されているクロスプラットフォームソフトウェアであるため、コンピュータを変更したり、サーバーホスティングが使用できなくなったりすることを心配する必要はありません。

本ソフトウェアは操作性の観点から、コマンドラインからの操作が可能であり、GUIインターフェースも提供しています。ネット上の友人の中にはパラメータが複雑すぎるという意見もありましたが、個人的にはコア機能の実現にはデフォルトのパラメータを使用するだけで複雑ではなく、ユーザーの多様なニーズに応えるためにオプションのパラメータが多数用意されていると感じています。今日の World Wide Web の発展により、非常に多くの規格とファイルの種類が存在し、ソフトウェアの設計があまりにも愚かになり、対応できない要件が存在するはずです。

クロール効果の観点から、3 つの Web サイトをテストしましたが、Web サイトのバックアップの完全性には非常に満足しています。

おそらく、速度が私が想像していたほど速くないという欠点があり、50,000 ページを含む Web サイトをコピーするには 2 日以上、3 日近くかかりました。しかし、より速く進む方法はありません。

この記事はmdniceマルチプラットフォームによって公開されています