1.登録中文大学MOOC
2.ソング日間の教師「のPythonのWebクローラや情報抽出」MOOCコース北京理工大学を選択
3.毎週、4週間の最初の0週間のコースを完了し、ジョブを完了することを学びます
4.画像やウェブサイトを提供する学習プロセスを証明するために、学習の進捗を示しています。
5.学習経験と利益について話す、研究ノートの1,000未満の単語を書きます。
研究ノートと収穫
最初の週:リクエストライブラリー
インストール1.requestsライブラリ:PIPは、インストール要求
インポート要求2.テストライブラリがインストールされている要求
R&LT requests.get =(「http://www.baidu.com」)
r.status_codeステータスコード
成功にアクセスするために200を
r.encoding = 「UTF-8」
r.text
3.操作クロールBaiduのページのスクリーンショット:
七つの主な方法は、ライブラリを4.requests
requests.request():リクエストを作成します
requests.get():Webページを取得するための主な方法
requests.headは():ページのヘッダー情報を取得します
requests.post():POSTメソッドがWebに要求を提出します
requests.put():提出方法は、Webページへの要求を置きます
requests.patch():ページを送信するために、部分修正要求
requests.delete():Webページへの要求を提出削除
第二週の:美しいスープを
1.beautifulスープのインストール:インストールPIP beautifulsoup4
2.beautifulスープライブラリが解決され、トラバース、メンテナンス「タグツリー」関数ライブラリ。
3.beautifulスープパーサライブラリはhtml.parser、lxmlの、XML、html5libあり
---終わり---コンテンツを復元
1.登録中文大学MOOC
2.ソング日間の教師「のPythonのWebクローラや情報抽出」MOOCコース北京理工大学を選択
3.毎週、4週間の最初の0週間のコースを完了し、ジョブを完了することを学びます
4.画像やウェブサイトを提供する学習プロセスを証明するために、学習の進捗を示しています。
5.学習経験と利益について話す、研究ノートの1,000未満の単語を書きます。
研究ノートと収穫
最初の週:リクエストライブラリー
インストール1.requestsライブラリ:PIPは、インストール要求
インポート要求2.テストライブラリがインストールされている要求
R&LT requests.get =(「http://www.baidu.com」)
r.status_codeステータスコード
成功にアクセスするために200を
r.encoding = 「UTF-8」
r.text
3.操作クロールBaiduのページのスクリーンショット:
七つの主な方法は、ライブラリを4.requests
requests.request():创造一个请求
requests.get():获取网页的主要方法
requests.head():获取网页头信息
requests.post():向网页提交post请求的方法
requests.put():向网页提交put请求的方法
requests.patch():向网页提交局部修改请求
requests.delete():向网页提交删除请求
第二周:beautiful soup
1.beautiful soup的安装:pip install beautifulsoup4
2.beautiful soup库是解析、遍历、维护“标签树”的功能库。
3.beautiful soup库解析器有html.parser、lxml、xml、html5lib
第三周:re正则表达式
1.正则表达式常用操作符:*表示前一个字符0次或无限次扩展,例如:abc*为ab、abc、abcc、abccc...
+表示前一个字符1次或无限次扩展,例如:abc+为abc、abcc、abccc...
?表示前一个字符0次或1次扩展,例如:abc?为ab、abc
{m}表示扩展前一个字符m次,例如ab{2}c为abbc
{m,n}表示扩展前一个字符m到n次,例如ab{1,3}c为abc、abbc、abbbc
2.re的主要功能函数
re.search():在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match():在一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall():搜索字符串
re.split():将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer():搜索字符串,返回匹配结果的迭代类型
re.sub():在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串
第四周:scrapy爬虫框架
1.Engine:控制所有模块之间的数据流
2.Downloader:根据请求下载网页
3.Scheduler:对所有爬取请求进行调度管理
4.Downloader Middleware实施Engine、Scheduler和Downloader之间进行用户可配置的控制
5.Spider解析Downloader返回的响应
6.Item Pipelines的操作包括:清理、检查和查重爬取项中的HTML数据、将数据存储到数据库
7.Scrapy的常用命令:startproject:创建一个新工程
genspider:创建一个爬虫
settings:获得爬虫配置信息
crawl:运行一个爬虫
收获
通过学习嵩天老师的《Python网络爬虫与信息提取》,对爬虫知识有了部分了解。网络爬虫又被称为网页蜘蛛,是一种按照一定的规则,自动的抓取信息的程序或者脚本。爬虫技术是通过链接地址来寻找网页。通过这几天的学习,也体会到爬虫技术的有趣之处,但是要掌握这门技术,还是需要花很多心思去学习。在平台学习的过程中,也发现资源的广泛性,只要想学习,就可以从平台上寻找到各种有用的课程,通过学习课程,掌握知识。要学会好好利用这些宝贵的资源。