クローラーの基本-Webページの基本構造

Webページの基本構造

Webページは、サーバー側のフォルダーに保存されているファイルです。静的な場合もあります(Javascriptを含めることもできますが、クライアントがこのWebページにアクセスすると、プログラムによって読み込まれず、画像のようにダウンロードされます。はい。これは以前のWebページの一般的な操作のようです)、または動的にすることができます。Wordpressを使用して独自のWebサイトを作成すると、内部のWebページはPHPプログラムによって動的にロードされます。

静态网页编写简单加载速度快,但是存在巨大的缺陷,它无法变化更别提和用户互动。动态网页在这种情况下应运而生,它可以实现搜索,查询,登录注册等等诸多好玩的功能

Webページは、HTML、Javascript、CSSの3つの部分に分けることができます。

  1. HTMLは、ページの全体的なレイアウトを指定します。HTMLにはページ内のすべての要素が含まれているため、高度な一般性が必要です。一般的に使用されるアナロジーは、それがWebページのスケルトンであるというものです。
  2. Cssは、HTMLテキストコンテンツのレイアウトと装飾用です。ここで、レイアウトとは、HTML要素の位置を変更できdisplay:float;float:left、HTML要素をその親要素の左側の境界線に押し付ける効果を生み出すことを意味します。装飾効果については、文章の内容を美しくすることは言うまでもありません。针对字体我们可以选择它们的样式,大小颜色,位置;针对图片,我们可以选择透明度,圆角边框,位置。
  3. Javascriptは、HTMLテキスト内に記述されたネストされたスクリプトファイルです。もちろん、外部ファイルとして参照することもできます。実際、CSSファイルも同じ方法で参照されます。Javascriptの場合、一般的な操作は、カルーセルをWebページに追加し(Taobaoにログインすると、すぐに表示されます)、フォームを送信することです。私のJavascriptは十分ではないので、説明が単純すぎるかもしれません

Webページの基本構造を理解する必要があるのはなぜですか?

回答:実際、クローラーを実行する場合、最も重要なことは、Webページの応答を分析して必要なデータを抽出することです。もちろん、それを抽出することもできません。それなら、他の人が持っているWebサイトにアクセスしてみませんか。製?(笑)Webページの基本的な構造がわかれば、必要な要素をより正確に見つけることができます。Pythonクローラーでは、XpathセレクターとCSSセレクター(これらはすべてWebページ要素を見つける方法です)は、Webページ構造がWebページコンテンツを配置する方法を理解することに基づいている必要があります。

Webページの構造とXpath。

复制一个完整的Xpth路径:/html/body/div[1]/div[1]/div[1]/div/div[3]/button[1];你看到的是从网页的跟节点层层定位后的路径,你必须理解这些HTML标签之间的逻辑关系,才能准确定位到自己想要的元素注:これは私が開発者ツールからコピーしたものです。私は通常、このように記述しないか、怠惰すぎて長く記述できません。

Webページの構造とCSSセレクター

css的选择器用于精准的定位需要修饰的元素,可分为:Class属性选择器,HTML标签选择器,还有ID选择器詳細な説明はここでは行いません。

注:Xpathには独自の文法があり、xmlドキュメントとHTMLドキュメントの内容を正確に見つけることができるため、時間をかけて理解する必要があります。

この記事はXpathを学ぶのに十分です

おすすめ

転載: blog.csdn.net/weixin_47249161/article/details/113967266