慕课心得---python网络爬虫及技术

1.环境搭建:pycharm 也安装了anocode便于后期数据分析

2.搭建web网站;自己编的客户端来访问。

   Flask安装-----自己写一个页面

   通过urllib requests来访问该页面----之后可以看到爬取的内容

3.web网站的get方法:客户端发送------>服务器获取

      客户端:编码---发送         urllib.request.urlopen(url)来访问服务器返回的数据

       flsk.requeddst.args.get("字段名")  服务器获取到客户端的

    web网站的post方法:【可发送大量数据 相比get】

 flsk.requeddst.form.get("字段名")  服务器获取到客户端的

4.web下载文件:客户端通过URLopen()打开网址,其read方法读取下来,open()打开要保存的地址,write()保存到指定路径。

5.web上传文件:

服务器端    获取上传名称flask.request.values.get();获取上传的二进制数据flask.request.get_data().

客户端  打开要上传的文件并读取其内容,设置文件头信息 用headers字典,通过URLopen传到服务器端

6.web学生信息管理程序来练习:

客户端:创建student对象,增删改查的sql语句在服务器端-----这里只写入口方法

服务器:数据库放在服务器端。openDB来打开数据库,之后通过游标对数据看进行增删改查操作,根据客户端的操作值来匹配 决定调用哪个方法。通过json对象将内容传到客户端

7.正则表达式:

import re;//引入包

reg=r"\d"r表示正则表达式的原始数据

re.search(reg,st)会在st中找出符合reg的内容

[]匹配里面任意一个,^在里面表示“否定”

\b表示单词的结尾

\s匹配任何空白符

8.html文档结构和文档树:BeautifulSoup是一个函数库,BeautifulSoup(content,"lxml")这就是一个BeautifulSoup对象,打点调用prettify就是吧content的BeautifulSoup对象整理好  打印出来-----就是文档结构类型。

9.BeautifulSoup的函数来查找元素:将网页代码转载成BeautifulSoup对象,BeautifulSoup对象有find/find_all方法  其中find_all方法功能强大,因为find方法只返回符合条件的第一个,而厚重返回的是列表

找元素find(name【=None时表示匹配所有的】,attrs={里面是键值对})

找元素的属性值find(元素[属性名])

获取文本值元素.text

高级搜索:可以设置自己查找的函数

获取元素父节点:tag.parent

获取元素的直接子节点:tag.children

获取元素的子孙节点:tag.desentent

获取节点的兄弟节点:tag.next_sibling /   tag.previous_sibling

使用css语法查找:类似jq选择器

发布了233 篇原创文章 · 获赞 20 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_42565135/article/details/104300911
今日推荐