第三ジョブ-MOOCの研究ノート:PythonのWebクローラーと情報抽出1.登録中文大学MOOC

 

1.登録中文大学MOOC

2.ソング日間の教師「のPythonのWebクローラや情報抽出」MOOCコース北京理工大学を選択 

 

 

3週4にコースの内容0番目の週の完了を学び

4.画像やウェブサイトを提供する学習プロセスを証明するために、学習の進捗を示しています。

5.学習経験と利益について話す、研究ノートの1,000未満の単語を書きます。

 

        導入の先生で、中国のムークラスと私の最初の接触。このコースの周りのことで、私は収穫の多くを持って、歌の先生の日「のPythonのWebクローラや情報抽出」で、私は多くのことを学びました。最初から教師はちょうどPythonは、爬虫類は、あまりにもあまりない理解することは、以前の研究では、それが唯一の理解の表面上にあると言います。このコースでは、技術をクロールし、解析する最適なネットワークデータにPythonのコンピューティングエコシステムを導入し、二つの重要なルートのWebクローラー技術を構築するために特定の機能を教える:リクエスト-BS4-REとScrapyを、広く使われているアマゾン、グーグルの内容については、PayPalの、Twitterや他のよく知られている国際的な企業。コース内容は、入力された大規模なデータ処理データマイニング、データ中心の人工知能不可欠な実用的な基礎の分野では。一般的なWebクローラーの爬虫類は、ネットワーク全体でクロール対象のリソースウェブクローラであるネットワーク全体を、と呼ばれます。そのような爬虫類が膨大でありクロール、及び範囲は、大きいデータの非常に典型的な大量であるため、クロールの性能要件は、非常に高い主に大規模な検索エンジンで使用されるクロールなどの対象データインチ フォーカスWebクローラー:クローラ、またテーマとして知られているが、テーマはによるものである事前定義された選択我々は通常、クローラを使用したものであるウェブクローリング爬虫類の一種、爬虫類を行っています。インクリメンタル爬虫類:この爬虫類のクロールがのみ更新されていない場所を変更することなく、場所のページの更新を取ります。だから、時間が新しいページ深いWebクローラーのほとんどは:クローラは、この深いページをクロール。比較的深いものです。

        当然の最初の週では、サードパーティのライブラリがライブラリを要求し、私は7つの主要なアプローチを学びまし導入

request.request()构造一个请求,支撑以下各方法的基础

request.get() 获取HTML网页的主要方法,对应于HTTP的GET

request.head()获取HTML网页头信息的方法,对应于HTTP的HEAD

request.post()向HTML网页提交POST请求的方法,对应于HTTP的POST

request.put()向HTML网页提交PUT请求的方法,对应于HTTP的PUT

request.patch()向HTML网页提交局部修改请求的方法,对应于HTTP的PATCH

request.delete()向HTML网页提交删除请求的方法,对应于HTTP的DELETE

通过学习让我知道了request库是同步请求,也就是从发出请求到收到响应,这样可以节省我们大量的工作时间,完全的满足HTTP的测试需求。

       在第二周的课程中,学习了Beautiful Soup库。学习了它的基本元素如:Tag,Name,Attributes,NavigableString,Comment。通过学习了解到HTML的基本格式是树形结构。之后我还了解到了scrapy框架,它是一个快速功能强大的网络爬虫框架。常用的命令有:startproject创建一个新工程;genspider创建一个爬虫;settings获得爬虫配置信息;crawl运行一个爬虫;list列出工程中的所有爬虫;shell启动URL调试命令行;scrapy是一种具有持续爬取,商业服务,高可靠性的功能和特点,而且是Python语言里最好的爬虫框架,可具备千万级URL爬取管理与部署,是一种爬虫能力很强的框架,具备企业级专业爬虫的扩展性,可以很好的在企业中进行使用。

       在这几周的课程学习中,让我对网络数据爬取和网页解析的基本能力有了一个详细的梳理,从Requests自动爬取HTML页面自动网络请求提交——Robots.txt网络爬虫排除标准——Beautiful Soup解析HTML页面→Re正则表达式详解提取页面关键信息→scrapy框架。从requests库到scrapy框架的学习,让我意识到了Python的学习是一个漫长的过程,包含了许许多多的知识点,需要掌握的东西也很多,也让我感受到了爬虫在我们的日常生活中的重要性,现如今是互联网的时代,而网络爬虫已经成为自动获取互联网数据的一种主要方式,Python对于我们学习和工作都起到了很重要的作用,大大的降低了我们的时间,更快更好的对信息进行提取。通过这次课程的学习,使我受益匪浅。接下来我会继续对Python网络爬虫与信息提取这门课程的学习,在未来有更好的发展。

おすすめ

転載: www.cnblogs.com/Chenjim/p/11756353.html