python爬虫搜索引擎学习心得

pyton爬虫打造搜索引擎的学习心得

1.创建虚拟机：virtualenv scrapytest
2.启动虚拟机:进入虚拟机：cd scrapytest然后cd Scripts然后执行activate.bat,如果退出虚拟机则执行deactivate.bat
3.用python3.5创建虚拟机：在虚拟环境scrapytest下Scripts下运行virtualenv -p D:\WorkSpace\python3.5.3\python.exe scrapypy3
4.创建python项目：在进入虚拟机的情况下，执行scrapy startproject ArticleSpider创建python项目
5.镜像：https://pypi.douban.com/simple/
6.安装django:先下载压缩包，解压到与python同目录下，进入django目录，执行命令：python setup.py
7.创建python项目：在进入虚拟机的情况下，执行scrapy startproject ArticleSpider创建python项目
8.爬取网站：进入项目根目录，然后执行scrapy genspider jobbole blog.jobbole.com
9.启动spider:例如启动jobbole,需要进入项目根目录，然后安装pypiwin32,执行命令pip install pypiwin32,然后执行scrapy crawl jobbole
10.要在命令行爬取数据，例如爬取http://www.jobbole.com/网页的数据，执行命令scrapy shell http://www.jobbole.com/
11.安装requests库，进入项目根目录，执行pip install requests
12.爬虫:自动获取网站数据的程序,关键是批量的获取
13.反爬虫:使用技术手段防止爬虫程序的方法
14.误伤:反爬技术将普通用户识别为爬虫,如果误伤过高,效果再好也不能用
15.拦截:成功拦截爬虫,一般拦截率越高,误伤率越高
16.反爬虫的目的:
1).初级爬虫:简单粗暴,不管服务器压力,容易弄挂网站;
2).数据保护;
3).失控的爬虫:由于某些情况下,忘记或者无法关闭的爬虫
4).商业竞争对手
17.安装随机切换user-agent进入虚拟环境中,执行pip install fake-useragent
18.西刺免费ip代理:提供了好多免费ip代理
19.安装selenium:pip install selenium(Selenium也是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。)
20.部署环境：在项目路径下执行scrapy-deploy bobby -p ArticleSpider
21.爬取jobbole网站命令:scrapy genspider jobbole blog.jobbole.com
22.在命令行查看爬取到的数据：先安装pypiwin32:pip install -i https://pypi.douban.com/simple/ pypiwin32,然后再执行scrapy crawl jobbole
23,在cmd命令下查看爬取数据：1).scrapy shell http://web.jobbole.com/94332/
2).title = response.xpath(“/html/body/div[1]/div[3]/div[1]/div[1]/h1”)
3). title
4). 查看title的值执行title.extract()
5). 查看title的值执行title.extract()[0]
24.安装图片库进入虚拟环境执行：pip install -i https://pypi.douban.com/simple/ pillow
25.安装数据库驱动：pip install mysqlclient
26.在article虚拟环境中安装elasticsearch,执行命令：pip install elasticsearch-dsl
27.连接远端服务器：telent localhost 8080(8080是端口号)
28.爬虫停止，暂停：在项目中创建一个文件夹job_info,然后在控制台启动虚拟环境，执行scrapy crawl lagou -s JOBDIR=job_info/001
29.分布式爬虫的优点：
1).充分利用多机器的宽带加速爬取
2).充分利用多机的ip加速爬取速度

python爬虫搜索引擎学习心得

pyton爬虫打造搜索引擎的学习心得

猜你喜欢