写在前面
其实这个工具在年初的时候使用过,最近翻看自己以前的笔记时候又看到了。
我觉得这款工具是很不错的文献检索工具,具体的操作以及参数也比较简单。
搜索指定关键词就可以查到相关的文献名称、摘要(CN/EN)以及DOI号等信息。
对于了解相关领域/关键词的文献还是很有帮助。
公众号:生信技术
安装 PyPubMed
# 要求Python环境 Python3.6+
pip3 isntall pypubmed
#若安装速度太慢报错,可使用镜像来加速,输入下面命令:
# 清华镜像
pip3 install pypubmed -i https://pypi.tuna.tsinghua.edu.cn/simple
# 豆瓣镜像
pip3 install pypubmed -i https://pypi.douban.com/simple
# 阿里云镜像
pip3 install pypubmed -i https://mirrors.aliyun.com/pypi/simple
安装后,测试一下安装是否成功,输入下方命令行:
pypubmed
出现如下提示,表示安装成功:
# 查看当前版本:
pypubmed --version
# 更新 pypubmed 到最新版本:
pip3 install -U pypubmed
添加 API_KEY 参数
为了提高访问频次限制,首次使用推荐添加 API_KEY 参数。
API_KEY 生成方法:注册 NCBI 账号并登录,然后访问下方链接,点击生成你的API_KEY。
链接:
https://www.ncbi.nlm.nih.gov/account/settings/#accountSettingsApiKeyManagement
输入命令:
pypubmed -k YOUR_API_KEY search -h
# -k 参数只需首次使用时添加。
文献检索功能
关键词/ PMID 检索
首次使用,可先输入使用帮助命令行
pypubmed -h
查看常用命令和使用说明。
这里介绍几个常用命令:
pypubmed search
Options:
-min, --min-factor FLOAT # 可限定要检索的文献的最小影响因子。
-l, --limit INTEGER # 可限制输出文献个数(重点提示:建议每次检索,一定要根据需求进行NCBI关键词检索结果测试,获取最佳关键词并输出文献个数限制,一次性输出太多(eg上万条)会导致运行时间太长等问题出现)。
-o, --outfile TEXT # 可指定输出结果的文件名称,默认的是 pubmed.xlsx。
-c, --cache # 翻译时,运行太慢,或中断,可将翻译好的结果存储到缓存文件中。
-cit, --cited # 获取引用信息
-n, --no-translate # 不翻译摘要
查询示例
需要检索标题或摘要中包含关键词 genome 和 assembly,并输出前5个文章,指定输出文件名:genome_assembly.xlsx。
我们可以先使用PubMed高级检索功能,得到字段:
genome[Title/Abstract] AND assembly[Title/Abstract]
然后输入如下命令即可:
pypubmed search "genome[Title/Abstract] AND assembly[Title/Abstract]" -l 10 -min 10 -o genome_assembly.xlsx
# 搜索10篇影响因子为10分以上,且关键词为genome以及assembly的文献输出到 genome_assembly.xlsx
高级检索
输入下面命令行:
pypubmed advance-search
从上面动图可看出有51种方式进行检索可以同时选择多个检索内容
如,想要检索基因组组装方面的文献,按提示进行选择:
最终得到的检索字段如下:
query box now: ("genome"[Title/Abstract]) AND ("assembly"[Title/Abstract])
得到的检索文献数量如下:
final query box: ("genome"[Title/Abstract]) AND ("assembly"[Title/Abstract])
count: 17123
query: "genome"[Title/Abstract] AND "assembly"[Title/Abstract]
detail: "genome"[Title/Abstract]:448474, "assembly"[Title/Abstract]:200656
如果需要下载的话,可继续后续操作,但在文献数量较多时,不建议用这种方法下载,更推荐使用前述方法。
文献引用格式批量生成
pypubmed citations -h
Options:
-m, --manual 使用手动引用,默认使用ncbi
-f, --fmt [ama|mla|apa|nlm] 引用的格式
-o, --outfile TEXT 输出文件名[stdout]
查询示例:
导出2个 PMID 的参考文献引用格式(在前面xlsx文件输出的第一列):34914854、34914839,输入如下命令即可:
pypubmed citations 34914854 34914839 -f apa