AI搜索引擎助力科学家创新

开发者希望通过帮助科学家从大量文献中发现联系从而解放科学家，让他们专注于发现和创新。

图片来源：The Project Twins

对于专注于历史的研究者Mushtaq Bilal来说，他在未来科技中投入了大量时间。

Bilal在丹麦南部大学（ University of Southern Denmark ）欧登塞分校做博士后，他的研究方向为19世纪文学中小说的演变。然而，最有影响力的是他的在线教程，他在其中作为学术界和利用人工智能（AI）迅速扩张的搜索工具之间的非正式大使。

多年来，借助于文学背景，Bilal一直在解构学术写作的过程，但现在他的工作已经有了新方向。他说：“去年11月ChatGPT出现时，我意识到可以使用不同的AI应用程序实现许多写作步骤的自动化。”

由机器学习和大型语言模型驱动的新一代搜索引擎正在超越关键字搜索，从科学文献错综复杂的网络中提取并建立关联关系。一些程序，如Consensus，可对是非问题给出基于研究背景的答案；其他程序，如Semantic Scholar，Elicit和Iris，仅能充当数字化助手，如整理参考目录，推荐新的论文和生成研究摘要等。整体上，这些平台为写作早期提供了便利。然而，批评家指出，这些程序尚未通过测试，有可能会延续学术出版过程中存在的偏差。

工具开发团队表示，这些工具是为了应对“信息过载”（information overload），释放科学家们的创造性。华盛顿州西雅图的艾伦人工智能研究所（Allen Institute for Artificial Intelligence ）的Daniel Weld和Semantic Scholar的首席科学家表示，科学知识的增长速度如此之快，以至于科学家几乎不可能掌握最新的研究进展。“大多数搜索引擎会帮你找到论文，但需要你自己尝试获取其中的信息。”他说。AI工具可将论文精炼为关键点从而有助于使这些信息更易于获取，Weld说。“我们都是Google Scholar的忠实粉丝，我仍然觉得它很有帮助，但我们可以做得更好。”

## 下一个伟大的想法

做得更好的关键在于另一种类型的搜索。Google Scholar，PubMed和其他标准搜索工具使用关键字来定位相似的论文。相比之下，AI算法使用向量比较。论文被翻译成一组数字，称为向量，其在“向量空间”中的接近程度对应于它们的相似性。“我们可以解析搜索查询的更多含义，因为向量中嵌入的上下文信息比文本本身嵌入的更多。”，位于加利福尼亚州旧金山的Consensus的首席软件工程师Megan Van Welie解释说。

Bilal使用AI工具跟踪论文之间的联系，进入了有趣的兔子洞。在研究巴基斯坦小说中对穆斯林的描述时，基于他的搜索，AI生成的推荐引导Bilal走向孟加拉文学，并在他的论文中阐述了这部分内容。博后期间，Bilal专注于研究安徒生童话在印第安殖民地是如何被解释的。“所有花在孟加拉文学史上的时间都涌了回来，”他说。Bilal使用Elicit来迭代和完善他的问题，利用Research Rabbit识别来源，Scite（它不仅告诉用户论文被引用的频率，还会指出施引论文中的具体内容）来跟踪学术论著。

位于伦敦卫生与热带医学学院的冈比亚医学研究委员会单位疫苗学团队的研究技术员Mohammed Yisa关注了Bilal的Twitter（现在称为X），有时Yisa会花时间测试Bilal推文中提到的平台。

Yisa特别喜欢使用Iris，这是一个创建类似地图的可视化搜索引擎，将论文与主题相连接。将“种子论文”输入到Iris中会生成一个相关出版物的嵌套地图，类似于世界地图。点击地图的深层部分就像从全国范围的视图缩放到州（子主题）和城市（个别论文）。

Yisa表示：“我认为自己是一个视觉学习者，地图可视化是我以前从未见过的。”他目前正在使用这些工具识别关于疫苗公平性的综述性文章，“看看谁现在在谈论它，正在说什么，以及什么还没有被提到”。

其他工具，如Research Rabbit和LitMaps，通过节点的网络映射将论文连接在一起。一款针对医疗专业人士的搜索引擎System Pro，创建了类似的可视化效果，主题之间通过相关性连接在一起。

尽管这些搜索依赖于“提取算法”（ extractive algorithms）来提取有用的片段，但一些平台正在推出生成式功能，使用AI创建原始文本。例如，艾伦研究所的Semantic Reader“将AI引入到PDF手稿的阅读体验中”，Weld说。如果用户在方程式中遇到一个符号或者在文中引用，会弹出一个卡片，显示符号的定义或引用论文的AI生成摘要。

Elicit正在测试用于生成更好查询的头脑风暴功能以助于创建一种比前四个搜索结果更好且提供多论文摘要的方式。该方法使用了Open AI的ChatGPT，但只在科学论文上进行了训练，因此与基于整个互联网的搜索相比，它对于“幻觉”（生成的文本中看似正确但实际上不准确的错误）的容忍度较低，Ought公司的工程主管James Brady解释说。“如果你正在发表与你的声誉有关的声明，科学家们希望得到更可靠、可以信任的信息。”

尼日利亚伊巴丹大学的生物医学研究员Miles-Dei Olufeagba仍然认为PubMed是金标准，称其为“医学科学家的避难所”。Olufeagba尝试过Consensus、Elicit和Semantic Scholar。他表示，来自PubMed的结果可能需要更多时间来整理，但最终会找到更高质量的论文。他说，AI工具“往往会丢失一些对文献检索至关重要的信息”。

AI工具可以帮助研究者更深入地挖掘文献，找到新的研究前沿。然而，这类工具也存在一些问题。首先，它们可能会复制和放大现有的偏见。例如，如果AI工具主要依赖于英语的研究文献，那么它可能会忽视非英语的研究成果。此外，如果机器学习模型主要是根据西方的研究文献训练的，那么它可能偏向于西方的观点和方法。其次，这些工具可能会过度简化复杂的科学论文，从而导致误解或误导。

尽管存在这些问题，但许多研究者还是看好这些工具的潜力。Bilal表示，尽管他注意到了一些限制，但他仍然觉得这些工具对他的研究非常有帮助。他说：“我觉得这是一种力量，可以帮助我提高效率，更好地理解我正在阅读的内容，找到新的联系。”

早期阶段

AI平台也容易出现与其人类创建者相同的偏见。研究反复证明学术出版和搜索引擎在某些群体（包括女性[1]和有色人种[2]）方面呈现劣势，这些劣势也在存在于AI工具。

例如，带有重音字符的名字的科学家们描述了使用Semantic Scholar创建个人资料的困难。并且，由于包括Semantic Scholar和Consensus在内的几个搜索引擎使用引用计数和影响因子等指标来确定排名，发表在著名期刊或引人注目的作品无论如何都会排在研究更相关的作品之前，从而产生了Weld所称的“富者愈富效应”。（Consensus联合创始人兼首席执行官Eric Olson表示，一篇论文与查询的相关性始终是确定其排名的首要指标。）

这些引擎没有明确将预印本标记为需要更严格审查的内容，并且将其与经正式同行评审的已发表论文一起显示。而对于有争议的问题，比如儿童疫苗是否导致自闭症或人类是否对全球变暖，Consensus有时会返回延续错误或未经验证的答案。对于这些充满争议的问题，Olson表示，团队有时会手动审查结果并标记有争议的论文。

然而，开发人员表示，最终验证任何声明是用户的责任。这些平台通常会标明何时进行beta测试，有些平台还有标志指示论文的质量。除了一个“有争议”的标签外，Consensus目前正在开发一种方法来标注研究类型、参与者数量和资金来源，Elicit也有类似的功能。

但加拿大蒙特利尔的AI公司Hugging Face的科学家Sasha Luccioni警告说，一些AI公司过早的发布产品，是因为它们依赖用户改进产品，这是科技初创企业界的常见做法，但与科学界不太契合。有些团队不肯公开他们的模型，这使其很难通过伦理上审查。例如，Luccioni研究AI模型的碳足迹，但她表示很难获得基本的数据，例如模型的大小或训练期间的时间——“这些基本的东西并不会泄露任何机密”。而早期的Semantic Scholar等平台会分享其基础软件，以便其他人可以在此基础上进行开发（Consensus、Elicit、Perplexity、Connected Papers和Iris都使用Semantic Scholar语料库），“现如今，公司不提供任何信息，所以这已经不再是科学的问题，而更多地成为了产品问题”。

对于Weld来说，这就更需要确保Semantic Scholar的透明度。“我确实认为人工智能发展很快，而‘让我们领先于其他人’的动机可能会推动我们朝着危险的方向发展，”他说。“但我也认为人AI技术可以带来巨大的益处。世界面临的一些主要挑战最好是通过真正充满活力的研究计划来解决的，这就是每天早上让我充满激情的原因——帮助提高科学家的生产力。”

参考文献：

[1]. Ross, M. B. et al. Nature 608, 135–145 (2022).

[2]. Salazar , J. W. et al. JAMA Int. Med. 181, 1248–1251 (2021).

阅读原文内容：

doi: https://doi.org/10.1038/d41586-023-01907-z