python爬虫搜索引擎学习心得

pyton爬虫打造搜索引擎的学习心得

1.创建虚拟机:virtualenv scrapytest
2.启动虚拟机:进入虚拟机:cd scrapytest然后cd Scripts然后执行activate.bat,如果退出虚拟机则执行deactivate.bat
3.用python3.5创建虚拟机:在虚拟环境scrapytest下Scripts下运行virtualenv -p D:\WorkSpace\python3.5.3\python.exe scrapypy3
4.创建python项目:在进入虚拟机的情况下,执行scrapy startproject ArticleSpider创建python项目
5.镜像:https://pypi.douban.com/simple/
6.安装django:先下载压缩包,解压到与python同目录下,进入django目录,执行命令:python setup.py
7.创建python项目:在进入虚拟机的情况下,执行scrapy startproject ArticleSpider创建python项目
8.爬取网站:进入项目根目录,然后执行scrapy genspider jobbole blog.jobbole.com
9.启动spider:例如启动jobbole,需要进入项目根目录,然后安装pypiwin32,执行命令pip install pypiwin32,然后执行scrapy crawl jobbole
10.要在命令行爬取数据,例如爬取http://www.jobbole.com/网页的数据,执行命令scrapy shell http://www.jobbole.com/
11.安装requests库,进入项目根目录,执行pip install requests
12.爬虫:自动获取网站数据的程序,关键是批量的获取
13.反爬虫:使用技术手段防止爬虫程序的方法
14.误伤:反爬技术将普通用户识别为爬虫,如果误伤过高,效果再好也不能用
15.拦截:成功拦截爬虫,一般拦截率越高,误伤率越高
16.反爬虫的目的:
1).初级爬虫:简单粗暴,不管服务器压力,容易弄挂网站;
2).数据保护;
3).失控的爬虫:由于某些情况下,忘记或者无法关闭的爬虫
4).商业竞争对手
17.安装随机切换user-agent进入虚拟环境中,执行pip install fake-useragent
18.西刺免费ip代理:提供了好多免费ip代理
19.安装selenium:pip install selenium(Selenium也是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。)
20.部署环境:在项目路径下执行scrapy-deploy bobby -p ArticleSpider
21.爬取jobbole网站命令:scrapy genspider jobbole blog.jobbole.com
22.在命令行查看爬取到的数据:先安装pypiwin32:pip install -i https://pypi.douban.com/simple/ pypiwin32,然后再执行scrapy crawl jobbole
23,在cmd命令下查看爬取数据:1).scrapy shell http://web.jobbole.com/94332/
2).title = response.xpath(“/html/body/div[1]/div[3]/div[1]/div[1]/h1”)
3). title
4). 查看title的值执行title.extract()
5). 查看title的值执行title.extract()[0]
24.安装图片库 进入虚拟环境执行:pip install -i https://pypi.douban.com/simple/ pillow
25.安装数据库驱动:pip install mysqlclient
26.在article虚拟环境中安装elasticsearch,执行命令:pip install elasticsearch-dsl
27.连接远端服务器:telent localhost 8080(8080是端口号)
28.爬虫停止,暂停:在项目中创建一个文件夹job_info,然后在控制台启动虚拟环境,执行scrapy crawl lagou -s JOBDIR=job_info/001
29.分布式爬虫的优点:
1).充分利用多机器的宽带加速爬取
2).充分利用多机的ip加速爬取速度

猜你喜欢

转载自blog.csdn.net/kbh528202/article/details/80549363