CSDN刷博 - 最简单有效的方法
2017年01月22日 13:41:02 ctsas 阅读数:26573 标签: 爬虫 刷博 csdn python 更多
个人分类: 电脑技术
版权声明:去他的版权声明,随便转。互联网本该自由开放 https://blog.csdn.net/ctsas/article/details/54668053
首先声明刷博是不对的。ok,明确这一点后我们来探讨技术。
csdn是防爬虫功能的,如果直接简单的刷新并不会增加访客数量,如果简单的抓取是得不到也是打不开网页的。
经过测试发现
-访客数量与ip无关,与cookie关,它对每个访问者给一个特定的cookie
//就是说,只要清除cookie再刷新就ok了
-刷新频率不能太快,太快会被记录。
方法一
手动清除浏览器cookie再刷新
方法二
使用wap浏览器
http://www.pctowap.com/air/m.blog.csdn.net/article/details?id=54647581#
然后输入你要刷的链接
然后设置,取消cookies,勾上局部刷新
然后设置定时刷新
方法三
利用Python2.7自己写一个小程序
import time
import urllib
import urllib2
url = 'http://www.pctowap.com/air/m.blog.csdn.net/article/details?id=54632384#'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
values = {'name': 'WHY',
'location': 'SDU',
'language': 'Python'}
headers = {'User-Agent': user_agent}
data = urllib.urlencode(values)
req = urllib2.Request(url, data, headers)
cnt = 1
while cnt <= 10000:
response = urllib2.urlopen(req)
print cnt
cnt += 1
time.sleep(1.0)
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
执行结果
方法四
这是方法三的升级,我们可以把Python代码交给linux服务器去执行。
我使用的是openshift 免费空间,它空间很强,简直就是一个vps啊,可以shh链接,类linux操作。有兴趣的自己去申请一个,申请过程这里就不写了。
我们把方法三的代码保存为 work.py
然后让程序一直在后台跑就达到我们的目的了。执行命令:
nohup python work.py &