クローラーの通常の式、xpath、bs4

クローラーは、Webページ操作を実行するブラウザーをシミュレートするために人を置き換えることです
。1通常の式
最初の機能は、データ取得、データマイニング、AIなどによく使用されるデータをキャプチャすることです
。2番目の機能は、チケットの取得などを実現することです。
通常の式について説明します。 *?
それらの中で。*は折り返されない文字列に一致することを意味し、疑問符は可能な限り短い文字に一致することを意味します

次に例を示します。(Webページのソースコードを取得するには、Webページの空白スペースに配置し、右クリックしてWebページのソースコードを表示します)
MyStr = '' '

<link rel="apple-touch-icon" href="https://img3.doubanio.com/f/movie/d59b2715fdea4968a450ee5f6c95c7d7a2030065/pics/movie/apple-touch-icon.png">
<link href="https://img3.doubanio.com/f/shire/bf61b1fa02f564a4a8f809da7c7179b883a56146/css/douban.css" rel="stylesheet" type="text/css">
<link href="https://img3.doubanio.com/f/shire/ae3f5a3e3085968370b1fc63afcecb22d3284848/css/separation/_all.css" rel="stylesheet" type="text/css">
<link href="https://img3.doubanio.com/f/movie/8864d3756094f5272d3c93e30ee2e324665855b0/css/movie/base/init.css" rel="stylesheet">
<script type="text/javascript">var _head_start = new Date();</script>
<script type="text/javascript" src="https://img3.doubanio.com/f/movie/0495cb173e298c28593766009c7b0a953246c5b5/js/movie/lib/jquery.js"></script>
<script type="text/javascript" src="https://img3.doubanio.com/f/shire/92c148e64e4f81dc6fad7f3355308ee8cacecd92/js/douban.js"></script>
<script type="text/javascript" src="https://img3.doubanio.com/f/shire/0efdc63b77f895eaf85281fb0e44d435c6239a3f/js/separation/_all.js">

'' '
import re
fpn = r' <リンク。href = "(。?)" '
r = re.findall(fpn、MyStr)
for i in r:
print(i)

プログラムを実行して、必要なものにクロールします
。2。2番目はxpathです(パスを確認した後、目的のパスを取得できます)(Webページを右クリックして、対応するXpathパスを確認します)。 、ただし、初めて自分で行うのが最善です)
同じことが上記のURLのコンテンツをクロールすることであり、コードは次のとおりです。

#最初にlxml
から要素オブジェクト
生成しますimport etree e = etree.HTML(MyStr)#
ナビゲーションを開始します
r = e.xpath( "// link / @ href")
for i in r:
print(r)

コード内のいくつかのステートメントの意味
//ラベルの下のすべてのデータ
/レイヤーごとに検索
@属性
3を選択します。bs4#
これらのメソッドの2つを使用しますfind()は最初のデータ
を返しますfind all()はすべてのデータを返します

bs4のライブラリを簡単に紹介します。Beautiful Soupは、HTMLまたはXMLファイルからデータを抽出できるPythonライブラリです。お気に入りのコンバーターを使用して、ドキュメントのナビゲーション、検索、およびドキュメントの変更の通常の方法を実現できます。BeautifulSoupは、数時間または数日を節約します。勤務時間
https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#から、関連ドキュメントの紹介を表示できます。

1のURLを引き続きクロールします。サンプルコードは
、bs4から次のようになります。importBeautifulSoupsoup
= BeautifulSoup(MyStr、 'lxml')
r = soup.find_all( 'link')
for i in r:
print(i.get( 'href' ))

おすすめ

転載: blog.csdn.net/qwerty1372431588/article/details/104862930