活动报名|语言模型的安全评估:前沿进展与挑战

498cde63035570cd211877c9dc9f9841.png

2023年7月14日(周五)上午11点「智源Live第46期|Evaluating language models for safety」将在线举办,本期活动邀请了Mila-魁北克AI实验室博士生Alan Chan进行线上报告《语言模型的安全评估》,欢迎预约观看并参与线上交流。

eb399b567e100210548cb57240519d54.jpeg

Alan Chan

Alan Chan是Mila-魁北克AI实验室博士生,由David Krueger和Nicolas Le Roux联合指导。此前,他在Martha White的指导下、在阿尔伯塔大学(University of Alberta)攻读硕士学位,从事强化学习研究。

他曾是剑桥大学的研究访问学者和Stability AI的顾问,也曾在华为加拿大公司担任实习研究科学家。Alan致力于通过技术和社会技术方法确保人工智能的安全和广泛有益的发展。他在基础模型方面的技术工作侧重于开发严格的方法,以识别可能加剧灾难性风险的能力。

思维链如何解锁并释放大模型的隐藏能力

人工智能的快速发展产生了越来越具有通用性与可用性的模型。与此同时,我们对这些能力的最大限度以及它们可能加剧灾难性风险的程度的不确定性越来越强。我将讨论以语言模型评估作为减轻此类风险的基础。目前的方法包括定性分析、行为基准测试、特定伤害途径的测量与可解释性。

作者将概述每种方法,包括我和其他人近期的一些工作,并分析它们各自的优缺点。最后,我将讨论评估中的开放性问题,包括可扩展性和社会规模效应的评估。

活动时间:7月14日(周五)11:00-12:00(上午)

活动形式:线上直播,点击“阅读原文”进行预约;扫描二维码进入交流群

23db180feee77a7a6d18b264607a25c6.png

交流群

猜你喜欢

转载自blog.csdn.net/BAAIBeijing/article/details/131651226