ライブラリbeautifulsoup爬虫類のエントリ(A)

//www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id12:まず公式文書、HTTPSのbeautifulsoupを掲載

応答URLを取得するためのライブラリを要求したが、実際にページコードを取得し、あなたが望む結果を得るために、我々はbeautifulsoupで欲しかっ抽出することができ、このライブラリを、調べる必要があります。

ダウンロードしてインストールし、我々が持っている公式ドキュメントを、またパーサについてはこちらを言いたいです。HTMLパーサライブラリのpython標準ライブラリのサポートに加えてbeautifulsoupは、他の類似した、lxmlのとhtml5libをサポートしています。

パーサは個人的な選択となります公式文書から、このテーブルの上に。

 

次に、テキストを入力し、我々は最初のオブジェクト、スープ= BeautifulSoup(HTML、「lxmlの構築しなければならない 」)、 ライブラリの要求をHTML、あなたもあなた自身を書くことができます要求に進めることができ、もちろん、使用することができスープ= BeautifulSoup オープン"index.htmlを" ))このメソッドは、独自のHTMLを開きます。

HTMLはその後、htmlタグ、出力HTMLタイトルタグをsoup.titleすることができ、同じトークンに遭遇した最初の出力soup.aとラベルがある場合、それを確認することです。

我々のニーズを満たすことができない唯一の最初のラベル、我々は、すべてのタグデータがfindAllのall_aという= soup.findAllと友達(「A」)このメソッドを使用する必要があります必要がある、あなたはラベルの全てを取得することができ、しかし、この時間は、ラベルの付いた出力は、単にコンテンツを取得したいです、あなたができる、all_a.string、文字列メソッドを使用する必要があります。

いくつかの単語の男は、最初の公式ウェブサイトをキビH2タグを試し、その字幕がダウンしてクロールしてみてください、と述べました

BS4 インポートBeautifulSoup
 インポートLXML
 インポート要求

URL = ' https://www.mi.com/ ' 
試みアナログブラウザ 
    キロボルト= { ' のUser-Agent '' のMozilla / 5.0 ' } 
    R&LT = requests.get(URLを、ヘッダー= キロボルト)
     #1 のステータスコードチェック
    r.raise_for_status()
    r.encoding = r.apparent_encoding 
    スープ BeautifulSoup(r.text = ' lxmlのを' のためのタグ soup.findAll(' H2 ' ):
         印刷(tag.string)
 を除く" 失敗クロール"

そして、文字列の方法について話すことは、このように公式文書で説明しました

単純に、あなたは、ラベルの他のラベルを取得していないとき、あなたは他の小さなラベルやコンテンツがある場合は、どれもたとえば、値を返さないこのメソッドが出力タグの内容を、しかし、タグを呼び出し、置きます再びキビラベルをクロールし、

これは、返されたデータの値はnoneです

我々は、データギャップが時々クロールしますが、時に空白を使用することができますしたくない場合は、クロール.stripped_strings方法は空白を取り除くために

次に、このような私は、我々が最初に私はラベルを見つけることができますラベルを持つ上記の1、と彼の親の出力を持つラベルとしてラベル上に位置付けについて話しています。親アプローチ、同じトークン、.next_siblings.previous_siblingsは、現在のノードの特性の兄弟を見つけることができます

 

おすすめ

転載: www.cnblogs.com/afei123/p/11223215.html