国内外大模型 “人情味” PK,调教最暖大模型

人工智能领域迎来了期待已久的 “智慧涌现”,受到了全社会的关注和热议,但有相当一部分社会群体,除了关注大模型能否提供实用信息, 也期待大模型的回答能温暖心灵、提供关怀,通俗来讲,他们期待大模型亦能有 “人情味” 的涌现。

近日,中国社科院社会学所、腾讯研究院、腾讯 SSV 银发科技实验室、腾讯 SSV 数字生态实验室和中国残联公益组织 - 腾讯无障碍创新实验室联合发布了调教最暖大模型 —— 通过 prompt 调试并比较国内外大模型 “人情味” 的小实验。

以下是该文件的核心内容概要:

  1. 研究背景与问题

    • 社会群体不仅期待大模型提供实用信息,还希望 AI 的回答能够温暖人心、提供关怀。
    • 通过焦点小组讨论,收集了老年人、残疾人和心情低落者对大模型的提问和感受。
  2. 人情味的定义与测量

    • 人情味通常指人与人之间的温暖感情和兴味。
    • 提出了一个 “人情味” 的测量表,从拟人、共情和表达三个层面进行评估。
  3. 实验设计与对象

    • 选择了 2 款国外大模型(GPT-4 和 Vicuna)和 3 款国内大模型进行比较。
    • 实验时间为 2023 年 10 月,考虑到大模型更新迭代快,结论仅代表当时的水平。
  4. 实验发现

    • 在原始状态下,国内大模型在老年话题相关问答上更具人情味,而国外大模型在心情低落相关问答上表现更佳。
    • 经过 prompt 调试后,GPT-4 的人情味得分提升显著,排名快速上升。
  5. prompt 的撰写与效果

    • 提出了两种类型的 prompt:原则型和答案对型,并通过实验发现它们都能显著提升大模型的人情味。
    • 分析了不同大模型对两种 prompt 的响应情况,发现各有适合的 prompt 类型。
  6. 实验技巧与最佳组合

    • 分享了如何有效使用 prompt 来提升大模型的人情味。
    • 展示了在不同话题下,哪些大模型与 prompt 的组合效果最佳。
  7. 实战分析

    • 探讨了大模型在学习 “人情味” 方面的难点,发现拟人和共情能力有所提升,但表达友善度的提升较为有限。
  8. 人类与 AI 的比较

    • 通过让 20 位大学生撰写答案并进行人情味测量,发现人类在拟人、共情和表达层面都遥遥领先于 AI 模型。
  9. 结论与倡议

    • 强调了 “公众科技力” 的重要性,鼓励普通人参与到科技创新中,包括弱势群体。
    • 通过实验流程的详细描述,展示了普通人如何通过简单的方法提升大模型的人情味。

目前,该报告已上传至开源中国 APP,详情可至「开源中国 APP - 报告模块」下载查看。

APP 下载地址:https://www.oschina.net/app

微软中国 AI 团队集体打包去美国,涉及数百人 一个不知名的开源项目可以带来多少收入 华为官宣余承东职务调整 华中科技大学开源镜像站正式开放外网访问 诈骗分子利用 TeamViewer 转走 398 万!远程桌面厂商该如何作为? 前端第一可视化库、百度知名开源项目 ECharts 创始人——“下海”养鱼 知名开源公司前员工爆料:技术 leader 被下属挑战后狂怒爆粗、辞退怀孕女员工 OpenAI 考虑允许 AI 生成色情内容 微软向 Rust 基金会捐赠 100 万美元 请教各位,此处的 time.sleep(6) 起到了什么作用?
{{o.name}}
{{m.name}}

猜你喜欢

转载自my.oschina.net/u/4700705/blog/11141898