从PubMed的HTML页面提取标题和摘要文本 - 代码天地

从PubMed的HTML页面提取标题和摘要文本

其他 2019-05-03 09:24:45 阅读次数: 0

#Author：Alex.Zhang
import urllib.request
import re
pmids=['18235848','18235847','18235849']
count=0
for pmid in pmids:
    count+=1
    url='https://www.ncbi.nlm.nih.gov/pubmed/?term=%s'%pmid
    handler=urllib.request.urlopen(url)
    html=handler.read()


    title_regexp=re.compile('<h1>.{5,400}</h1>')
    title_text=title_regexp.search(html.decode('utf-8'))
    abstract_regexp=re.compile('<h3>Abstract</h3><div class\=""><p>.{20,3000}</p></div>')
    abstract_text=abstract_regexp.search(html.decode('utf-8'))
    titlee='abstract'+str(count)
    with open(titlee,'w',encoding='utf-8') as en:
        en.write('tile')
        en.write(title_text.group())
        en.write('\n')
        en.write('abstract:')
        en.write(abstract_text.group())

    print('Title:',title_text.group())
    print('abstract:',abstract_text.group())

只需要把PMIDS的不同号输进去就会为你生成一系列的文档啦！

猜你喜欢

转载自www.cnblogs.com/klausage/p/10804249.html

从PubMed的HTML页面提取标题和摘要文本

Html为表格添加标题和摘要

提取文本摘要学习

python爬虫pubmed论文标题

使用Python和GloVe词嵌入模型提取新闻和文章的文本摘要

中文文本摘要提取（文本摘要提取有代码）基于python

EasyNLP玩转文本摘要（新闻标题）生成

抓取页面，提取标题，内容，并插入dbmongo

Word文档转html并提取标题

从超大html表单提取标题和input的属性，以及在input特定属性前插入内容

从html富文本中提取纯文本

使用简单提取方法实现的文本摘要器

PubMed

html _ 提取html片段内的纯文本

【NLP论文分享 && 摘要生成】长文本摘要生成/提取（曼彻斯特大学&&含源码）

如何给HTML页面的文本设置字符和单词间距

HTML页面文本框可编辑和禁止编辑

文本摘要

HTML标题和段落的使用

使用HtmlParser提取HTML文本块

ChatGPT实现HTML网页文本提取

使用openxml提取word中的文本和图片并转为Html

38 - 提取HTML页面中的URL

Python提取中文关键词和摘要

【Html】【细节】html页面设置编码，标题，图标

Java实现从Html文本中提取纯文本

Serverless 实战：如何结合 NLP 实现文本摘要和关键词提取？

HTML（二）属性，标题，段落，文本格式化

HTML头信息标签和标题标签

HTML标题大小和字体的大小的关系

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)