昨日、爬虫類のシンプルなアーキテクチャについて学習によって: - Wikipediaのエントリをクロール今日は、特定の演習は、彼が持っていただろう
まず環境日食+ python3.8
特定のフレームワークを見てください:
url_manager:URLマネージャー; html_downloader:ウェブサイトのダウンローダ; html_parser:ページパーサー; html_outputer:取得出力
一般的に、我々はより多くのを懸念しているパーサーです:どのページからデータを抽出するために - 通常は彼を参照してくださいを抽出するページモジュール内の要素の内容を確認する権利を選択
たとえば:右を選択
エレメントを点検
HTMLとして右編集
所望の生成のモジュールコードをコピー
<DDクラス= "タイトルlemmaWgt-lemmaTitle">
ブロック鎖</ H1> <H1の>
爬虫類のパーサでは、使用します:
title_node = soup.find(' DD '、class_が= " lemmaWgt-lemmaTitleタイトル").find(" H1 " ) res_data [ ' 表題' ] = title_node.get_text()