Pythonクローラー2の概要:HTMLの知識の概要

☞░GoLaoYuanPythonはhttps://blog.csdn.net/LaoYuanPythonブログ

1.HTML言語の概要

HTMLは、プログラミング言語ではなく、一連のマークアップタグを使用して要素の役割をマークするマークアップ言語であるハイパーテキストマークアップ言語を指します。マークアップ言語は、マークアップタグを使用してページのコンテンツを記述します。マークされたタグはページに表示されず、タグ内のコンテンツのみがページに表示されます。

2つ、HTMLタグとHTML要素

HTMLタグタグは通常HTMLタグと呼ばれ、のようなタグ名と呼ばれる山かっこで囲まれたキーワード<html>、<a>、<h1>です。ラベルでは大文字と小文字は区別されませんが、小文字を使用することをお勧めします。(X)HTMLバージョンでは小文字が必須であり、より厳密です。

タグは、開始タグと終了タグに分けられます。HTML要素は、開始タグから終了タグまですべてを参照します。

開始タグは、対応するHTML要素の開始位置をマークするために使用され、終了タグは、HTML要素の終了位置をマークするために使用されます。

ラベルはシングルラベルとダブルラベルに分かれており、どちらも開始ラベルと終了ラベルが必要です。違いは、シングルラベルの開始ラベルと終了ラベルが1つの山かっこで書かれているのに対し、二重ラベルは2つの山かっこで書かれていることです。シングルラベルはエンプティラベルとも呼ばれ、ダブルラベルはクローズドラベルとも呼ばれます。<br />シングルタグの終了タグは、シングルタグなど、タグの直角ブラケットの前にあるバックスラッシュです。ダブルタグの終了タグは、左アングルブラケット開始タグよりも1つ多いバックスラッシュの後にあります。 as<html></html>はペアの開始タグと終了タグです。

3、HTML要素の分類

異なるHTMLタグに対応するHTML要素は、場所の特性に応じて2つのカテゴリに分類できます。

  1. ブロック要素
    は、主にWebサイトのアーキテクチャ、ページレイアウトの構築、コンテンツの伝達に使用されます。一般的なブロック要素に対応するタグは、address、blockquote、center、dd、dl、dt、div、dir、fieldset、form、h1- h6、 hr、isindex、li、menu、noframes、noscript、ol、table、p、pre、table、u、ul、つまり、これらのタグに対応するHTML要素はブロック要素です。ブロック要素は、幅と高さ、内側と外側の余白を設定し、新しい行から開始できます。ブロックレベルの要素が幅と高さを設定しない場合、幅はデフォルトで親要素(コンテナ)の幅になります。高さは、コンテンツのサイズに応じて自動的に入力されます。
  2. 線要素(インライン)
    線要素は、コンテンツの表示を強化し、太字、斜体などの詳細を制御するために使用されます。一般的な線要素に対応するタグは、a、abbr、頭字語、b、bdo、big、br、cite、 code、Dfn、em、font、i、img、input、kbd、label、q、s、samp、select、small、span、strike、strong、sub、sup、textarea、tt、u、var ...など。 、行要素とその他の要素が1行にあります。高さ、行の高さ、上下の余白は変更できません。幅はテキストまたは画像の幅です。変更できません。左右の内側を設定できます。線要素と他の線要素は同じ線上に置くことができます。

4、ラベルの入れ子

ダブルタグの開始タグと終了タグの間に他のタグをネストできますが、次のルールに従う必要があります。

  1. 2つのタグをネストする場合は、開始タグと終了タグのレベルが同じであることを確認する必要があります。つまり、開始タグは外側のレベルにあり、終了タグは外側のレベルにある必要があります。
  2. ネスト関係を反映するようにHTMLテキストを作成するときは、ネストされたタグの内側のタグを外側のタグに対してインデントすることをお勧めします。
  3. ブロック要素タグにはライン要素タグを含めることができますが、ライン要素タグにはブロック要素タグを含めることはできません。他のライン要素タグのみを含めることができます。
  4. タグは、ホバーを使用してパスを完全に書き込みたいと考えています。
  5. 疑似クラス(ホバー/リンク/訪問済み/アクティブ)はタグにのみ追加できます。CSSをサポートするブラウザーでは、疑似クラスはリンクのさまざまな状態を表します。これらの状態には、アクティブ状態、訪問済み状態、および未訪問状態、およびマウスホバー状態:
  • リンクはアクセスのための接続で使用されます。
  • 訪問済みは、すでに訪問済みの接続で使用されます。
  • ホバーは、マウスカーソルが置かれている接続に使用されます。
  • アクティブは、フォーカスを取得する接続(クリックなど)で使用されます。
  1. ブロック要素タグ間:
    1)ブロックタグはh1、h2、h3、h4、h5、h6、p、dtタグにネストできません;
    2)li要素はul、ol、divに埋め込むことができます;
    3)埋め込むことができますin div他のブロック要素のネスト;
    4)ブロック要素が他のタグとネストされている場合、同じレベルはブロック要素、またはブロック要素の一部やライン要素の一部ではなく、すべてのライン要素である必要があります。場合<div><span></span><p></p></div>、このモードが間違っているスパンが行要素であり、pはブロック要素であるので、これは間違ったネスティングです。

タグはネストできますが、ブラウザのレンダリング効率を向上させるために、タグのネストはできるだけ使用しないでください。

5、ラベルの属性

HTMLタグには属性を含めることができます。属性はHTML要素の追加情報を提供します。属性は開始タグでのみ使用でき、常に名前と値のペアの形式で表示されます。属性はスペースで区切る必要があります。属性小文字を使用します。一般的に使用される属性は、クラス(スタイルクラス)、ID(属性名)、スタイル(表示スタイル)、タイトル(タイトル)、整列(整列)、bgcolor(背景色)、色(色)です。
<p class="textline" name="line1"><a>タグは、HTMLのリンクを定義し、リンクアドレスが<a>指定されている中でのような、タグのhref属性:

<a href="https://blog.csdn.net/ LaoYuanPython " > 老猿Python</a>

6.一般的なラベルと意味

  1. <html> 与 </html>:タグのペア間のコンテンツをHTML言語テキストとしてマークするために使用されます。
  2. <body> 与 </body>:タグのペア間のテキストが表示されるページコンテンツをマークするために使用されます。
  3. <hn> 与 </hn> :Nは1〜6で、ラベルのペア間のテキストを見出しとしてマークするために使用されます。
  4. <p>与 </p>:独立した段落として表示されるタグのペア間のテキストをマークするために使用されます。
  5. <a>与 </a>:タグのペア間のテキストをURLリンクとしてマークするために使用されます。
  6. <img>:画像をマークするために使用されます。これは、次のような単一のラベルです。<img src="LaoYuanPython.jpg" />
  7. <br />:改行をマークするために使用される単一のラベル。
  8. <hr /> :単一のラベル。水平線を表示するために使用されます。
  9. <!--注释内容-->:メモを保存するために使用されます。
  10. <center>:中央揃えのコンテンツを定義します。
  11. <font> :フォントを定義します。
  12. <u>:下線付きのテキストを定義します。
  13. <i>:斜体のテキストを定義します。
  14. <b>:太字のテキストを定義します。
  15. <big>:大きな文字を定義します。
  16. <em>:定義はテキストに焦点を合わせています。
  17. <small>:小さい文字を定義します。
  18. <strong>:トーンを強調するように定義します。
  19. <sub>:添え字を定義します。
  20. <sup>:上付き文字を定義します。
  21. <ins>:挿入された単語を定義します。
  22. <del>:削除された単語を定義します。
  23. <link>:タグは、ドキュメントと外部リソースの関係を定義します。この要素は、ヘッド部分にのみ存在できますが、何度でも表示できます。

このセクションでは、HTML言語の基本的な知識を簡単に紹介します。理解できないことがある場合は、オンラインで詳細を確認できます。この知識は、クローラープログラムがWebページのコンテンツを解析するために非常に重要です。基本的な概念を理解していないと、Webページの解析に関する知識を十分に理解できません。さらに、このセクションで紹介するコンテンツは包括的ではなく、最新ではありません。たとえば、ラベル分類に関して、行要素ラベルはさらに細分化されています。フォーマット制御ラベルにはCSSスタイルを使用することをお勧めします。詳細は紹介しません。興味のある方は、w3schoolで詳細をご覧ください。

ブログは簡単ではありません、サポートしてください:

この記事を読んで何かを得た場合は、いいね、コメント、ブックマーク、サポートに感謝します!

Pythonクローラーの紹介の詳細については、「Pythonクローラーの紹介」
列のURLを参照してくださいhttps//blog.csdn.net/laoyuanpython/category_10762553.html

古い類人猿についての有料コラム

  1. 有料のコラム「https://blog.csdn.net/laoyuanpython/category_9607725.htmlPyQtを使用したグラフィカルインターフェイスPythonアプリケーションの開発」では、PythonベースのPyQtグラフィカルインターフェイス開発の基本的なチュートリアルを具体的に紹介しています。対応する記事ディレクトリは「https: //blog.csdn .net / LaoYuanPython / article / details / 107580932 PyQtを使用して、グラフィカルインターフェイスのPythonアプリケーション列ディレクトリを開発します";
  2. 有料のコラム「https://blog.csdn.net/laoyuanpython/category_10232926.htmlmoviepyオーディオおよびビデオ開発コラム」では、moviepyオーディオおよびビデオの編集および合成処理の関連メソッドと、関連編集および関連編集を処理するための関連メソッドの使用について詳しく説明しています。記事に対応する合成シーンディレクトリは「https://blog.csdn.net/LaoYuanPython/article/details/107574583moviepyオーディオおよびビデオ開発コラム記事ディレクトリ」です。
  3. 有料の列「https://blog.csdn.net/laoyuanpython/category_10581071.htmlOpenCV-初心者のためのPythonの難しい質問」は「https://blog.csdn.net/laoyuanpython/category_9979286.htmlOpenCV-Pythonのグラフィックと画像」です。処理「コンパニオンコラム」は、OpenCV-Pythonグラフィックスと画像処理の学習で遭遇する問題のいくつかに対する著者の個人的な認識の統合です。関連情報は基本的に古い猿による繰り返しの研究の結果であり、OpenCVを助けます-Python初心者からより詳細にOpenCVを理解するために、対応する記事ディレクトリは「https://blog.csdn.net/LaoYuanPython/article/details/109713407OpenCV-Python初心者難しい質問コレクション列ディレクトリ」です。
  4. 有料コラム「https://blog.csdn.net/laoyuanpython/category_10762553.htmlPythonクローラー入門」では、クローラー紹介の基礎知識など、インターネットフロントエンド開発者の視点からクローラー開発の内容を紹介しています。クロールCSDNの記事情報、記事、コメント、その他の実際のコンテンツなどのブロガー情報を取得します。

最初の2つの列は、特定のPythonの基礎はあるが、関連する知識がない初心者の読者に適しています。3番目の列は、「https://blog.csdn.net/laoyuanpython/category_9979286.htmlOpenCV-Pythonグラフィックスと画像処理を組み合わせてください。使い方を学ぶ。

Pythonの基礎が不足している場合は、Lao Yuanの無料のコラム「https://blog.csdn.net/laoyuanpython/category_9831699.htmlコラム:Python基本チュートリアルディレクトリからPythonを最初から学ぶことができます

Old Apeの読者に興味があり、喜んでサポートする場合は、有料のコラムを購入することを歓迎します。

古い類人猿からPythonを学びましょう!

☞░LaoYuanPythonブログ投稿ディレクトリhttps://blog.csdn.net/LaoYuanPython░に移動します

おすすめ

転載: blog.csdn.net/LaoYuanPython/article/details/113031157