人工智能项目的伦理审查

吴国平北京市隆安律师事务所

人工智能的发展，已经由语音识别、图像识别向场景、模式识别以及自我决策甚至自我感知发展，已经有科院团队从事机器拥有自我意识的研究，并且取得了一定的进展，在不远的将来，一切将成为现实。或许未来的我们，再次回首今天我们讨论的问题时，就会发现此时的我们是多么的幼稚。如同刚刚出生的婴儿，我们正在小心翼翼地培育AI，充满期待但是又对它的未来毫无概念。正是因为如此，各个专业的研究人员分别从各自不同的角度展示出了对未来的焦虑。

事实上，AI项目的最隐秘也是最危险的应用领域还在于军事领域，因为任何商业实体用于AI项目的研发投入能力都无法与一个国家的经济实力相比，美国公开的信息显示将很快推出基于人工智能的F35无人战斗机，但是因为军用的AI项目是以战争为目的，或者更直接的说是以破坏对方的军事设施、毁灭对方的战斗人员为目的，但是对军用AI项目进行伦理审查又涉及战争与伦理的关系，远远超过对商业行为进行审查的范围，因此本文所讨论的范围仅限于商业主体以商业目的开发的人工智能项目。

与传统的伦理问题不同，对AI项目的伦理审查因为涉及众多计算机问题，因而并非单纯的伦理学能够独自解决的问题，因为涉及伦理、公共政策、计算机科学以及法律问题，因此需要程序员、法律专家、政治学家和伦理学家共同参与才能完成。缺少任何一个环节，就可能造成误解和偏差，事实上，我们发现，现有的研究已经显现出这样的问题。

以自动驾驶的研究为例，有机构在网站上（http://moralmachine.mit.edu/hl/zh）针对自动驾驶的伦理风险发起了问卷测试，如下图所示，测试者分别选取了四种场景，每种自动驾驶车辆的选择都会导致部分人员或者宠物死亡。测试结果显示，接受调查的人员点击提交的结果分别显示了不同的社会价值偏好、年龄偏好、性别偏好、财富偏好和动物偏好。

图例1 图例2

图例3 图例4

研究者通过上述调查发现，在多数和少数人中间，倾向于保护多数人的生命，在保护乘客还是保护行人中间倾向于中立，伦理学研究者通过上述调查试图解释自动驾驶程序设计者在面对上述图例的“两难困境”时可能会通过算法的设定并最终导致有悖伦理的事故，特别是上述算法的设定是通过AI模式实现时，这种伦理性的审查会显得格外必要。在上述伦理学研究者的角度，接受调查问卷的群体之所以接受牺牲少数人换取更多人的程序设计，是因为人们会无意识地将生命的价值进行简单的加法计算，尽管这本身是否合乎伦理就值得探讨，毕竟个体生命的价值是不能通过数学的方法进行衡量的，但是伦理学研究者提出上述调查的意义就在于，它将AI项目中风险的决策模式与可能的伦理矛盾问题清楚的呈现在我们面前。

法律界会因此研究上述无人驾驶车辆AI项目的决策模式，如果真的如上述调查问卷那样发生死亡事故，应该由哪个主体以何种方式承担责任，如果AI控制的无人车采用了“牺牲少数”的设计，那么对于最终所发生的侵害结果，因为上述决策将多数人死亡的危险降低为少数人死亡的危险，符合风险最小的利益衡量标准，会有法律人（笔者看到有法学教授持此观点）认为无人车程序的设计方不应承担刑事责任。与伦理学研究者的结论类似，法律界上述结论同样面临质疑，因为在图例2中，右侧行人原本是安全的，但是基于上述“牺牲少数”的标准，原本安全的人却遭受无妄之灾而成为了“被牺牲”的人。按照法律判断的逻辑性，只有现有的法律条款或法律原则才可以作为评判的依据，尽管紧急避险条款为上述判断提供了可能的依据，但是如何由法律规则判断图例2中右侧4个人的价值小于左侧5个人的价值，这似乎又回到了上一段讨论的伦理学研究者的困境中。

如果读者认真阅读上面的内容的话，会很自然地被引导到伦理争论和法律分歧上，很少有人会把眼光放在调查问卷本身上，事实长，我们不难发现其中的问题，图例的选择无论怎样都是陷阱（都会有人死）。2016年，德国成立自动驾驶道德委员会，在一年后颁布了关于自动伦理的标准，即在事故不可避免时，自动驾驶系统不能基于如年龄、性别等个人特征来区分众人以做出选择决策。这似乎回归到了伦理研究者分析的起点—生命是无价且不能衡量的。但是法律人针对类似的“扳道工”问题已经讨论了多年。更有法律人紧急呼吁，在自动驾驶领域，法律的制定已经落后甚至阻碍了技术的发展。

事实真的如此吗？我们把图例作为真实可能发生的现象进行讨论时未曾认真研究图例的真实性，如果图例根本不可能发生，或者图例中假设的决策机制并非想象中的那样，我们所有讨论的意义又在哪里？

我们不难发现，上述讨论中缺少了程序员的声音，至少我们应当把眼光聚焦到自动驾驶的决策机制上，只有深入的了解其中的技术细节，我们才能得到适当的答案，或者我们才能重新认识这一问题。

为了探究这一问题，就如将AI在军事领域的研究应用进行排除一样，我们依然需要首先界定我们研究的范围，根据国际汽车工程师协会的分类，自动驾驶技术分为Level 0-Level 5共5个等级，L0指的是人工驾驶，L1指辅助驾驶(已部分使用)、L2为半自动化、L3为高度自动化、L4为超高自动化驾驶(工况具有局限性)、L5为全自动化驾驶(达到人类驾驶水平)。

因为我们讨论的主题是AI的决策机制是否违背人类的伦理，因此对人类驾驶进行辅助的例如车道偏离警告、自动紧急制动和应急车道辅助系统等就没有讨论的必要，无论现阶段的技术水准能否达到，我们需要聚焦的是代替人类决策、代替驾驶者承担操控车辆的职责、允许驾驶员从事其他活动的AI自动驾驶系统。

与人类的驾驶体验一样，自动驾驶系统由硬件类的摄像头、毫米波雷达、激光雷达等传感器组成的感知模块；二是以芯片搭载的AI程序，这一部分涉及图片识别，因而计算量和传输的数据量较大，相当于人的大脑；三是指令执行模块，例如车辆加速的指令，人类驾驶加速的实现只需踩下加速踏板，自动驾驶加速的实现是将电信号发送到电子控制单元（ECU）从而实现电喷系统中喷油嘴喷油量的调整。

感知模块分为普通摄像头和红外摄像头组成的视觉传感器、以导航系统和高精度地图为主的定位传感器、雷达传感器、以OBD/IMU组成的汽车姿态传感器。其中雷达传感器是重要的感知部分，通常在车身上布置6个检测周围的激光雷达，虽然不同生产厂家的数据略有差异，但是车头前部和车身尾部的雷达传感器最远探测距离约有200m，车身左右两侧设置的超声波雷达传感器用于近距离探测。

根据上面的表述，单纯的雷达监测很容易监测到车道内的障碍物（暂不考虑天气、干扰等因素），因此汽车会提前减速以避免发生事故，自动驾驶的控制指令执行时间可以控制在100ms以内的控制级别，因此上文图例2中所示的事故根本就不会发生，但是我们考虑的问题是AI系统根据人员数量进行驾驶方向选择决策的伦理审查问题，因此需要进一步讨论系统是如何识别障碍物的种类以及数量的问题。一般来讲，障碍物的识别是通过车辆上的相机实现的，安装在车辆上的相机可能因为车速、路面反馈等原因相对于初始位置出现抖动，进而影响相机所捕获的图像数据，但是AI技术可以解决如何有效检测路面上的障碍物的问题。

激光雷达每个发射机在每秒内可以发送十万以上组脉冲，也就是说在 1 秒内，有 100,000 组脉冲完成一次发射/返回的循环扫描获取点云数据，利用相机采集包含障碍物的二维图像，计算2d图像中的障碍物在三维世界里的真实位置，该真实位置也可以称之为障碍物在现实世界中的位置。计算过程中，激光雷达与高精度导航地图结合，并通过云计算确定障碍物的种类。

某种情况下，判断行人的数量有时是很难的技术问题，特别是有小孩被遮挡的情况下，由于AI算法缺陷或其他技术限制，会出现障碍物种类判断的错误（尽管没有厂家承认这一点），障碍物种类的判断直接决定风险大小的评判，很容易造成事故。

当我们沿着伦理审查者的角度深入研究技术问题时发现，我们预设的思路实际上与AI体现的决策模式是完全冲突的，至少两者根本就不在一个数据模型中。自动驾驶系统的风险设定模式，决定了它并非如伦理审查者所设想的那样：分辨障碍物种类（人）--障碍物的数量（几个人）--作出判断（伦理审查者所说的取舍）。自动驾驶系统的风险评估系统中，各个感知模块的信息可以综合由AI系统进行分析，但是这并无妨害单个感知系统评定的危险信号跳过上述“综合决策”的过程而直接进入决策模式。简单的说，无需分辨障碍物的种类，只要通过雷达感知有障碍物，车辆即刻减速。通过自动驾驶车辆厂家公开的数据，印证了上述的决策系统，不同感知模块获取的信息各自向车辆控制模块发送信息，被称之为“广播系统”，通过第一感知模块将障碍物信息广播出去的方案，相对于自动驾驶车辆综合自身安装的所有感知设备识别障碍物的方案，具有更高的安全性，从而可更早进入减速避让等决策程序。

我们不难发现，上述决策过程，并没有用到复杂的AI程序，相对于通过复杂的视觉识别程序，实现更安全的方法竟然是省掉“AI程序”，这样的结论一定不是伦理审查者所要的结论--我们似乎又走到了死胡同中，我们不得不再次深入地研究是否还能找到其他出路。在上述的广播系统中，第一感知模块的信息之所以跳过AI系统直接进入决策模式，是因为第一感知模块广播的风险系数高于其他感知模块广播的信息（条件1），并且该风险系数属于紧急的状态（条件2）。至少我们可以得出结论，在上述2个条件下，自动驾驶系统中不可能会出现伦理研究者所设定的“决策陷阱”。

上述结论来源于自动驾驶厂商公布的有关决策体系的信息，但是这样的决策体系是否适用于所有的自动驾驶系统呢？下面我们将从一个自动驾驶事故去分析这一问题，美国亚利桑那Uber自动驾驶测试车在Tempe 市撞到一名中年女子Herzberg，致后者死亡。美国全国运输委员会（NTSB）时候公布了一份报告，报告显示雷达在事故发生前 5 秒就探测到有行人经过了，但在软件设计上的一系列失误还是让自动驾驶系统慢了半拍，直到碰撞发生前 0.2 秒才踩了急刹。

根据上述报告，Uber自动驾驶车辆并未像我们讨论的广播系统决策系统那样决策，尽管我们很容易发现这样的决策系统从理论上来说无疑是有优势的。NTSB的报告可以让我们了解Uber自动驾驶系统的决策过程，在碰撞发生前 5.2 秒，车辆雷达监测到Herzberg，将 Herzberg 划归为“其它”物体，随后碰撞发生前 4.2 秒，AI系统又将 Herzberg 重新归类为“车辆”，碰撞发生前 3.8-2.7 秒的时间段中，AI系统在“车辆”与“其它”的分类结果中跳动了好多次，碰撞发生前 2.6 秒，AI系统又将 Herzberg 和她的自行车识别为“自行车”，但是AI系统从未将 Herzberg 分类为“行人”。

我们需要把我们的目光再次回到文首伦理学者的调研图片上，对于图片来讲，我们很容易判断在车辆路线上一共有几个人，也很容易判断车辆的危险。但是对于AI系统来讲，有些障碍仍然是难以跨越的，例如人很容易通过步态识别盲人，但是自动系统却很难。有别于人类自然而然的判断，AI系统首先需要判断障碍物的类型，而后才能根据系统内预存的该类型物体的速度判断障碍物是否会出现预设的路线上，上述Uber的AI系统因为一直在“犹豫”如何识别障碍物（骑自行车的Herzberg女士），因而无法判断Herzberg女士准确的运动轨迹，当前的AI系统也就无法准确评估当前的风险，最终导致了灾难。

这个示例并没有让我们找到一直探寻的伦理困境的答案，Uber的上述事故与伦理判断毫无关系，只是更坚定了我们之前的判断，伦理研究者目前的研究方法严重脱离了AI系统的决策机制。

想要复现伦理研究者所设想的场景，需要自动驾驶系统准确识别出“人”并且判断“人”的数量，如上面Uber案件，自动驾驶系统目前从诸多障碍物中区分“人”仍有难度，事实上，现有的技术与安全规范（类似于法律规定，但是效力较小）还存在矛盾的地方，如果简单以雷达判断人以及人的数量，因为人体在无负重行走时，躯干部分的摇摆幅度较小，雷达监测的躯干部分的点云变化相对于四肢部位的点云变化更小，从点云分布来看，躯干部分相对于人体的其他区域更稳定，所以可以提取出躯干部分的点云作为人体的稳定区域的点云。以此为基础，可以分析识别上述问题。但是，因为雷达无法区分其他车辆的同频脉冲光，因此无法单独准确完成相关监测任务。

AI算法的重要作用在此处显得尤为重要，AI系统的学习模块与感知模块连接，可以获取摄像头数据、车辆速度、汽车方向、定位数据、地图数据、障碍物的距离和障碍物速度，通过历史数据作为数据源对算法进行优化，通过预设结果不断调整各参数的权重，深度学习算法使得AI内部的决策机制一直处于“黑盒”状态，当深度学习结果出现明显偏差（将黑人识别为猩猩）时，程序员不能通过传统的修改数据库设置的方法进行调整，而只能通过特定的算法重新更正其误差，此时如果要求程序员解释为什么AI系统做出如此决策，程序员是很难解释其具体步骤和原理的。但是，这正是自动驾驶系统合规性审查的重要部分，ISO 26262要求安全规范及其实施的双向可追溯性，即任何最终的操作指令都可以通过测试和实施细节来追溯以保证其符合相关规范和要求，这无疑戳中了深度学习的弱点，也是文首伦理研究者不可逾越的技术障碍。

当然，本文不是讨论ISO26262的合规性审查问题，尽管貌似这与AI自动驾驶的伦理审查有一定的关联，我们仍需回归到文首的“伦理陷阱”决策问题。分析至此，我们不难理解为何谷歌的伦理审查委员会如此短命，即使深度学习算法在自动驾驶的应用仅仅局限于障碍物识别过程，根据部分自动驾驶厂商公开的信息，实现自动驾驶的程序语句有2亿多行代码，尝试去分析如此量级的代码逻辑，即使是经验丰富的程序员也是十分漫长和艰巨的任务，事实上，鉴于该部分代码所对应的商业价值，任何厂家不可能轻易配合针对此部分的审查，况且，目前没有任何一个政府机构有如此的权威和实力可以进行如何规模的审查。

至此，对自动驾驶AI系统进行外部的伦理审查目前仍缺少可行的机制，唯一可以切入的机会就是在发生交通事故后进行溯回性的审查，NTSB针对Herzberg死亡的调查为我们提供了思路，Uber后期提供了0.1秒为单位的系统运行记录，国内的自动驾驶厂商能否提供完备的事故“日志”仍需后续检验，并且国内的交通事故调查归属公安部门，伦理审查者应以何种身份参与调查或者公安部分应当如何在调查中增加伦理审查的视角，这都需要相关机制不断完善。需要强调的是，不同于文首引用的“伦理决策”陷阱，厂商确有将驾驶者的保护设置为优于路人保护的动机（谁也不会买频繁让驾驶者死亡的车辆），需要审查厂商是否会基于上述商业动机，在程序设定过程中违反伦理标准，将路人对应的风险系数故意设定为低于驾驶者风险系数的做法。

AI系统的伦理审查，特别是针对自动驾驶的伦理审查，仍处于初步探索的阶段，但是有一点是毋容置疑的，伦理审查应当同合规性审查一样列入审查的机制，AI系统不可能随时按照我们期望的规矩去运行，厂商也不能在事故发生后仅仅声明“改进了算法、升级了系统”，需要一个机制以确认AI系统没有违反相关的伦理规则。同时，为了保证相关调查所依据的数据未经篡改，应当尝试设置自动驾驶系统代码的第三方存储、备案体系，或者针对可能隐瞒数据或拒不提交数据的行为出具处罚的规定。此外，单学科是很难完成如此复杂的任务，国内的监管部门应当引入程序员、伦理研究者和法律人士共同参与，唯有如此才能避免空洞、脱离AI决策机制的意见。

人工智能项目的伦理审查

猜你喜欢