Python 获取txt - 代码天地

Python 获取txt

其他 2018-06-05 05:27:30 阅读次数: 1

#get jingdong.com 获取京东电子书
#coding=utf8
import re,urllib
#-------------取得目录
def getlist(url):
    #获取目录的正则表达式
    re_jdebook = r'<li(.+?)</li>'
    #'\r\n'代替换行
    ##re_jdebook = r'<a href="(.+?)"\r\n +?title="(.+?)">\r\n'
    page = urllib.urlopen(url).read()
    #re.DOTALL Make the '.' special character
    #match any character at all, including a newline
    #匹配任何符号，包括换行
    r1=re.compile(re_jdebook,re.DOTALL)
    content = re.findall(r1,page)
    return content

#---------------------取得每一篇文章的内容
def getOne(address):
    rr = r'<p>(.+?)</p>'#r'<div id="zoom">(.+?)</div>'
    paper = urllib.urlopen(address).read()
    rr1=re.compile(rr,re.DOTALL)
    cont = re.findall(rr1,paper)
    #for para in cont:
        #print para
    return cont

#---------download ebook
def downloadbook(content,bookname='book'):
    book = []
    for cc in content:
        if url in cc:
            ncc = re.findall(r'<a href="(.+?)"\r\n +?title="(.+?)">\r\n',cc)
            print ncc[0][0],ncc[0][1]
            book.append(ncc[0][1])
            book += getOne(ncc[0][0])
            book.append('\n')

    f = open(bookname+".txt",'w+')
    for line in book:
        f.write(line+'\n')
    f.close()
#-----------
#目录页地址
url = 'http://read.jd.com/4281/'
downloadbook(getlist(url),u'日月')#中文前加'u'防止产生乱码

猜你喜欢

转载自blog.csdn.net/viomag/article/details/38930469

Python 获取txt

python批量获取图像路径txt

Python获取腾讯新闻并存入txt文件

python获取文件夹下所有TXT文件，将部分内容生成新的TXT，并生成列表

python+opencv获取本地视频信息并写入txt文档中（附python源码）

python连接mysql数据表查询表获取数据导入到txt中

<Python 2.7>爬虫获取天气历史按月份存为txt文件

【Python】获取某个项目的依赖包（生成 requirements.txt）

python 递归获取文件夹目录，获取文件夹下文件。存储到本地txt文件中。

使用Python3获取360影视首页上电影的名称，年份，评价，播放链接并保存为txt文本

Python 快速获取文件夹中的所有文件名，并保存到txt文件中

获取txt编码的方法

python读取txt文件

write in TXT file by python

Python读写txt文件

python txt文件处理

python———txt的读写

Python读入txt文件

Python保存TXT文件

python合并txt

mac python读取txt

python txt基本操作

python txt、excel读写

python的print输出txt

python 的requiremens.txt

Python txt读写(待)

Python requirement.txt

python 读取txt文件

python对txt的读写

python的txt文件存取

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)