オリジナルソース:https://www.cnblogs.com/Charltsing/p/XPath2Doc.html
多くの人がサイトWordテンプレートから収集されたデータの一部を入力する必要があり、マニュアル操作も時間がかかり、エラーが発生しやすいので、私は友人にこのツールを書きました。このプログラムは、テンプレートファイルDOCX形式をサポートしています。
このプログラムは、自動化されていない、収集ツールをクロールされません自動的にウェブサイトにログインすることはできません。手動でログインし、必要なデータ・ページを見つけ、その後、プログラムをキャプチャするボタンをクリックしてWebブラウザー内で独自のウィンドウを必要とする、それがウェブデータDOCXツールの半自動充填です。
仕組み:
Webページの各要素は、それがなるのXPathステートメントを表現することができるので、我々は、Webページのソースコードを開いたXPathの文を経由して、テキストのページ要素を取得するには、ブラウザを読むことができます。
チュートリアル:http://www.w3school.com.cn/xpath/index.asp
のXPath文が方法を取得:
通常、我々は、Webページを開くには、GoogleのChromeブラウザを使用することができ、開発者ツールのインタフェースを起動するには、F12キーを押しを、要素のオプションをあなたが最終的に必要な位置データを見つけるまで、カードの下に、あなたがウェブコンテンツが三角形を開け、影で覆われて見ることができ、マウスの動きに、あなたはさらに正確な位置を見つけることができます。マウスの右ボタン、ポップアップメニューで見つかったテキストは、コピーのコピーのXPathを選択し、必要なXPathステートメントを取得するには、メモ帳に貼り付けます。
それは明らかである:/ TBODYが買収に影響するがある場合は、この問題に関する内部手続きが処理されているが、いくつかの特別な場合には、まだデータ収集に影響を与える可能性があり、手動でのXPath文のうち、コピーを削除することができます。
ソフトウェアの動作環境:
Windows7のSp1のオペレーティングシステムは、次のコンポーネントをインストールします(重要:あなたがインストールしない場合は、VCのライブラリは、プログラムが起動しない):
1、.NET Frameworkの4.5.2。https://www.microsoft.com/en-us/download/details.aspx?id=42642
2、32ビットVC2017(またはそれ以降)ランタイム 。 https://support.microsoft.com/zh-cn/help/2977003/the-latest-supported-visual-c-downloads vc_redist.x86.exeダウンロード上述の構成要素は、通常、Windows10システムで来る、個別にインストールする必要はありません。Windows10 1903実行して。これは、Windows XPオペレーティングシステムをサポートしていません。ソフトウェアの取扱説明書:1、General.ini、カスタムの.ini、カスタムテンプレートの.docx:このプログラムの仕事は、3つのプロファイルがかかります。2つのファイルの後、独自の定義に名前を付けます。 General.iniファイル格納ディレクトリは、デフォルトのプログラムディレクトリで、埋めることができない、INIファイルとDOCXテンプレートファイルに定義されています。 カスタムの.ini、ソフトウェアのユーザーは、自分のコレクションのXPath文と最後の世代で使用されるDOCXテンプレートファイルを作成することです.docxのカスタムページテンプレートは、iniファイルを設定する方法の手順を参照してください。マーク「@ <#0001#> @」文字DOCXテンプレートファイルは、INIファイルで定義されたWebページのコレクションの内容を置き換えるために使用される文字列のようなものであることに注意してください。iniファイルには、接頭辞と接尾辞を定義し、キーワードテンプレートファイル名を置き換えます。図2は、このプログラムを使用する前に、あなた自身のDOCX INI設定ファイルやテンプレートファイルを構築してください。(参考プロファイルとテンプレートの起訴の両方をチェックするために、企業の外観、空に目を含めてもよいです)
これは、文書コレクション、注意URL設定の異なる部分に対して異なるURLを使用してテンプレートファイルのサポートことに留意すべきです。
3、使用:
プログラムを開始-テンプレートを選択してください- 、次のドロップダウンメニューを開くためのボタンデータの収集、ポイントに黒い三角形をクリックして収集するセクションをクリックしてください。ページが完了したロード、コンテンツは手動で、クエリを入力し、特定のデータページを見つけるために、クエリをクリックして、データを収集するために、ボタンをクリックし、右側のリストを観察する必要があるブラウザを待って、既に必要なデータを取得していません。データ・ページの必要性を見つけ、URLがロードされ、ブラウザを待つように変更された場合、収集される次のセクションを選択し、ドロップダウンメニューを開いて続行します。ボタンデータ取得した権利のリストをクリックすると、データの第2の部分を与えることが観察されていません。など、すべてのデータ収集が完了するまで。
URLは次の部分のドロップダウンメニューをクリックする前に、二つの部分の前後で同じである場合は、まず、このようなデータの新しいページの後のようにブラウザで新しいデータを、再度問い合わせる必要があります取得の次の部分を選択するには、ドロップダウンメニューをクリックしてください。その後、一部が再キャプチャする必要がある場合は、名前のドロップダウンメニューの一部をクリックしてください(ブラウザが変更されない場合は、次の部分は、データが間違っている、Webページから直接ページをデータがかかります。クリックすると、同じURLの下)、および一部繰り返し買収キャプチャするボタンをクリックしてください(この時間は、ブラウザのデータ・ページを変更することができますが、結果のデータは別の会社です)。
結果リストを集めることによって得られたデータは、偏差がある場合は、変更をクリックします。XPathの声明何か問題がある場合、あなたは、ない、(XPathの文はすぐにブラウザを変更した後、ブラウザは最高の効果的なデータ・ページで再クロールデータになります)、その検査結果を参照してくださいプログラムでXPathステートメントを変更するために変更することができます手動で自分自身を保存し、INIファイルに保存されました。
リスト内のデータが正しい場合、DOCXテンプレートコンテンツのプレビューウィンドウは、正しいです、あなたは、ドキュメントの作成]ボタンをクリックすることができ、生成されるファイル名を記入し、ソフトウェアが自動的に生成するテンプレートを置き換えるためにインデックスページデータ列をクロールするために使用します。 DOCXドキュメント。
プレビューウィンドウの右下隅にはDOCX Word文書が非標準文書のテキストのための完全なサポートが見つからないか脱臼表示されることができないことに留意すべきです。このような場合、あなたは(シングルスペース)標準テキスト形式に無視する、またはテンプレートファイルすることができます。
压缩包中自带了企查查、天眼查配置文件和起诉书的简单模板,供使用者参考。
本程序使用有一个门槛:通过手工操作Chrome得到网页数据的XPath语句。
建议电脑小白找个略懂鼠标操作的人帮助获取和填写INI配置文件
也可以在本贴留言,或百度联系作者以获取对程序的使用帮助。
软件操作演示可以看压缩包中的 Demo.gif 动画文件
下载链接:链接:https://pan.baidu.com/s/13hegfjZr1T9XVJqQKudPuQ 提取码:2t3m
联系QQ 564955427