初心者の爬虫類(A)

1.はじめに
クローラパイソン前に達成、主に、より根本的なurllibは使用されている、urllib2のを達成、この実装は、比較的原始的であった、それは前に(また、より激しいエンコードする場合は特に、抽出情報、正規表現マッチングを使用する必要がされています記事の転載は、ウィキペディアの爬虫類を、http://blog.csdn.net/zhyh1435589631/article/details/51296734)embarrassments。ここでは、書かれたコードを簡単にするために、CSSセレクタを使用して、実装beautifulsoupリクエスト+を使用します。  
 
2.基本情報

もちろん、これらの二つのモジュールを使用する前に、2つのモジュールが、いくつかの導入を必要としない:
依頼主なライブラリは良いパッケージをhttp機能で、基本的なHTTP操作し達成することができます
beautifulsoupは主にHTML、XMLページの完璧な1対の提供します私たちはツリー構造としてHTMLページになるように分析方法は、実際には、彼はhtmlタグは、ツリーノードとして解析されています。
公式ドキュメントを要求:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
BeautifulSoup公式文書:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh .htmlを

3.コードの実装
コードは次のコードでは、我々は2つのサイトをクロールして、言っていない、比較的簡単であり、百科事典はembarrassments。
1  - * -コーディング= UTF8 - * - 
2つの 
3  インポート要求
 4  から BS4のインポートBeautifulSoup
 5  
6  DEF qiushibaikeを():
 7      含量= requests.get(' http://www.qiushibaike.com ' ).content
 8      スープ= BeautifulSoup(コンテンツ、' html.parser ' 9  
10      用の DIV  soup.find_all(' DIV ' { ' クラス'' コンテンツ'}):
 11          印刷div.text.strip()
 12  
13  DEF )(ustcjob:
 14の      ヘッダー= { ' のUser-Agent '' のMozilla / 5.0(X11;のLinux x86_64の)ヤモリ)クロムなどのAppleWebKit / 537.36(KHTML、/ 50.0.2661.102サファリ/ 537.36 ' }
 15      コンテンツ= requests.get(' http://job.ustc.edu.cn/list.php?MenuID=002 '、ヘッダ= ヘッダ).content
 16      スープ= BeautifulSoup(コンテンツ、' html.parser ' 17  
18      のためヨップ soup.find_all(' DIV ' { ' クラス'' Joplistone ' }):
 19          のための項目 Jop.find_all(' ' ):
 20              プリント " %-30s%-20s%-40s "(item.a.text.strip ()、item.span.text.strip()、item.span.next_sibling.text.strip())
 21  
22  
23  なら __name__ == ' __main__ ' 24      qiushibaike()
25      ustcjob()

IV。結果を達成

 

 

 

おすすめ

転載: www.cnblogs.com/qq991025/p/11831776.html