1.はじめに
クローラパイソン前に達成、主に、より根本的なurllibは使用されている、urllib2のを達成、この実装は、比較的原始的であった、それは前に(また、より激しいエンコードする場合は特に、抽出情報、正規表現マッチングを使用する必要がされています記事の転載は、ウィキペディアの爬虫類を、http://blog.csdn.net/zhyh1435589631/article/details/51296734)embarrassments。ここでは、書かれたコードを簡単にするために、CSSセレクタを使用して、実装beautifulsoupリクエスト+を使用します。
2.基本情報
もちろん、これらの二つのモジュールを使用する前に、2つのモジュールが、いくつかの導入を必要としない:
依頼主なライブラリは良いパッケージをhttp機能で、基本的なHTTP操作し達成することができます
beautifulsoupは主にHTML、XMLページの完璧な1対の提供します私たちはツリー構造としてHTMLページになるように分析方法は、実際には、彼はhtmlタグは、ツリーノードとして解析されています。
公式ドキュメントを要求:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
BeautifulSoup公式文書:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh .htmlを
3.コードの実装
コードは次のコードでは、我々は2つのサイトをクロールして、言っていない、比較的簡単であり、百科事典はembarrassments。
1 #- * -コーディング= UTF8 - * - 2つの 3 インポート要求 4 から BS4のインポートBeautifulSoup 5 6 DEF qiushibaikeを(): 7 含量= requests.get(' http://www.qiushibaike.com ' ).content 8 スープ= BeautifulSoup(コンテンツ、' html.parser ' ) 9 10 用の DIV 内 soup.find_all(' DIV ' { ' クラス':' コンテンツ'}): 11 印刷div.text.strip() 12 13 DEF )(ustcjob: 14の ヘッダー= { ' のUser-Agent ':' のMozilla / 5.0(X11;のLinux x86_64の)ヤモリ)クロムなどのAppleWebKit / 537.36(KHTML、/ 50.0.2661.102サファリ/ 537.36 ' } 15 コンテンツ= requests.get(' http://job.ustc.edu.cn/list.php?MenuID=002 '、ヘッダ= ヘッダ).content 16 スープ= BeautifulSoup(コンテンツ、' html.parser ' ) 17 18 のためヨップに soup.find_all(' DIV ' { ' クラス':' Joplistone ' }): 19 のための項目で Jop.find_all(' 李' ): 20 プリント " %-30s%-20s%-40s "%(item.a.text.strip ()、item.span.text.strip()、item.span.next_sibling.text.strip()) 21 22 23 なら __name__ == ' __main__ ' : 24 #qiushibaike() 25 ustcjob()
IV。結果を達成