使用简单的python语句编写爬虫定时拿取信息并存入txt - 代码天地

使用简单的python语句编写爬虫定时拿取信息并存入txt

其他 2018-05-03 15:53:26 阅读次数: 4

# -*- coding: utf-8 -*-    #解决编码问题
import urllib
import urllib2
import re
import os
import time

page = 1
url = 'http://www.qiushibaike.com/text/page/4/?s=4970196'     #爬取的目标网站
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    # print response.read()
    content = response.read().decode('utf-8')  #解决编码问题
    pattern = re.compile(r'<div.*?class="content".*?<span>(.*?)</span>.*?</div>',re.S)  #第一个参数是匹配要爬取的内容,这里使用正则去匹配
    items = re.findall(pattern,content)   
    f=open(r'.\article.txt','ab')       #txt文件路径
    nowTimes = time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))    #获取当前时间
    f.write('时间:{}\n\n'.format(nowTimes),);   #txt文件中写入时间
    for i in items:
        i.encode('utf-8')
        agent_info = u''.join(i).encode('utf-8').strip()
        f.writelines('段子:%s%s\n'%(str(agent_info),os.linesep))   #分行存入
        # f.write('%s'%str(agent_info))
    f.close()   

    # print items

except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason


布置定时任务使用crontab。 (具体crontab使用方法可见http://blog.csdn.net/daivon_up/article/details/71266814):

猜你喜欢

转载自www.cnblogs.com/zxtceq/p/8985753.html

使用简单的python语句编写爬虫定时拿取信息并存入txt

python使用pandas读取xlsx数据并存入txt

python 爬虫使用正则爬取51job内容并存入txt

Python读取Excel表格并存入txt文件

Python获取腾讯新闻并存入txt文件

用python抓取智联招聘信息并存入excel

python爬虫爬取ip记录网站信息并存入数据库

使用pydicom处理dcm文件提取信息并存储在csv

python3 读取txt、csv、mat文件数据并存入array具体实现

python随机生成一个矩阵并存入txt文件

Python爬取论文标题、作者、摘要等信息并存入MySQL--简述爬虫是如何将爬取数据存入MySQL数据库

python3简单爬虫并存入mysql数据库

Python爬虫——显示疫情数据并存入mysql中

使用Python原生爬虫爬取博客文章的简单信息

Python爬虫PyQuery库简单爬取信息并录入数据库

python爬取银行理财产品信息（共12多万条）并存入MongoDB

python项目实战：用多进程(multiprocessing)+多线程(threading)的方式并发爬取智联招聘爬虫岗位信息并存入MongoDB

Python爬虫（三）：爬取猫眼电影网经典电影TOP100信息并存入本地Markdown文件（下）

Python爬虫（三）：爬取猫眼电影网经典电影TOP100信息并存入本地Markdown文件（上）

爬虫简单之二---使用进程爬取起点中文网的六万多也页小说的名字，作者，等一些基本信息，并存入csv中

[Python2.7]爬58同城职位信息存入txt文件中

【python】从web抓取信息

python 网页抓取信息

Python提取信息测试

使用selenium抓取信息

python requests爬虫使用lxml解析HTML获取信息不对等的问题

Python爬虫伪装浏览器，初步提取信息！

Python将爬虫爬取信息写入Excel中

爬虫22-使用selenium爬取信息

保存igv的信息，igvtools接口的使用：将igvtools查看bam文件的结果保存为txt文件，并提取信息

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)