Wikipediaのエントリをクロール2日目 - Pythonの爬虫類小さな練習

  昨日、爬虫類のシンプルなアーキテクチャについて学習によって: - Wikipediaのエントリをクロール今日は、特定の演習は、彼が持っていただろう

まず環境日食+ python3.8

特定のフレームワークを見てください:

url_manager:URLマネージャー; html_downloader:ウェブサイトのダウンローダ; html_parser:ページパーサー; html_outputer:取得出力

一般的に、我々はより多くのを懸念しているパーサーです:どのページからデータを抽出するために - 通常は彼を参照してくださいを抽出するページモジュール内の要素の内容を確認する権利を選択  

 

たとえば:右を選択 

エレメントを点検

HTMLとして右編集

所望の生成のモジュールコードをコピー

<DDクラス= "タイトルlemmaWgt-lemmaTitle">
ブロック鎖</ H1> <H1の>

爬虫類のパーサでは、使用します:

  title_node = soup.find(' DD '、class_が= " lemmaWgt-lemmaTitleタイトル").find(" H1 " 
        res_data [ ' 表題' ] = title_node.get_text()

おすすめ

転載: www.cnblogs.com/1983185414xpl/p/12177593.html