(来源:Shawna X )

人工智能需要自我解释能力

一个名为“可解释性”的人工智能研究领域已经出现,旨在改变人工智能的“黑箱”使其更加透明。

妮可·里其洛

Nicole Rigillo

人类学家,就职于加拿大蒙特利尔Element AI公司,她也是博古睿研究院2018-2020年“人类变革”研究项目的研究员。

2020.09.16 / 阅读时长15分钟
Noema

从评估保险的覆盖范围,到诊断重症监护病人,再到寻找新的药物治疗方法,全球健康危机中的许多决策都是在智能软件的协助下做出的。虽然人类可能仍然是最终的决策者,但机器学习算法可以发现人类思维所无法发现的模式和联系。

目前公共卫生官员和技术部门制定了联合应对COVID-19的计划,人工智能支持的干预措施发挥了核心作用。能够在疾病爆发前预测疫情的预测软件、可以监测物理距离的技术、以及基于蓝牙的接触者追踪手机应用等都已成为对抗病毒持续传播的可能措施。然而,这些工具的潜在大规模应用对其决策的公平性和透明度提出了重要考验。

人类的决策是可审核的和可解释的。它们被写入法律条款、专家系统和形式逻辑算法。如果发现这些决策可能是错误的,我们是可以对它们提出质疑的。但对于基于机器学习的人工智能系统所做出的决策,我们则更难对其产生信任和提出质疑。我们通常称这样的系统为黑箱——它们使用专有代码,或是计算极其复杂,以至于连创造它们的科学家也无法发现它们的错误、理解它们的推理过程。

这一挑战衍生了一个名为“可解释性”的人工智能研究领域,一个位于机器学习、社会科学与设计的交汇处的崭新领域。可解释性专家通过建造更为透明的或能解释其推理过程的模型来解决人工智能的黑箱问题,以便人类用户能够充分理解、适当信任并有效管理无数影响人类事务的人工智能系统。可解释性模型提供了一种视角,让我们了解机器是如何进行推理的,以及为什么它们有时会犯错误。这也是政府监管人工智能系统的一个重要方面。例如,加拿大、欧盟和英国规定,当政府自动做出了关乎个人自身的决策,个人有权获得解释。

我的一位前同事、H2O.ai公司的数据科学家巴哈德·卡莱吉(Bahador Khaleghi)不久前对我说:“无论机器学习模型变得多么聪明或复杂,它们都必须要有某种与人类交流的方式。否则,这些类人机器人就会成为不会说话的天才。”卡莱吉的这种担忧也反映在了一系列更为广泛的的讨论中,这些讨论涉及可解释性在以下方面可以发挥的作用:确保遵从法规,检测偏见,排除故障,强化机器学习模型,以及建立保护机制以防止敌对技术通过恶意输入来欺骗模型。

机器学习模型,比如人工神经网络,已被证明在语音和物体识别等任务中十分成功。但它们是如何做到这一点的在很大程度上仍是一个谜。人工神经网络模拟人脑的生物组成,使得计算机无需明确编程即可进行“学习”。这种网络使用的是人工神经元的数学计算,这些人工神经元通过分层排列进行数据处理。初始输入层将数据(图像、市场数据、信用记录)传送到一个或多个“隐藏层”进行处理。然后,链接到一个输出层,生成包括图像标签、股票市场走势的预测及某人是否应该得到贷款在内的各种结果。人工神经网络通过一组带标签的数据得到训练和验证。如果预测不正确,它会调整计算方式,通过“学习”来提高准确性。


“无论机器学习模型变得多么聪明或复杂, 它们必须要有某种与人交流的方式。”


“可解释性”的类型
最近出现了几种新的“可解释性”技术,使得人工神经网络可以向人类解释它们的推理过程。去年由Open AI和谷歌合作开发的“激活地图集”就是一种对实现图像分类的计算机算法黑箱进行可视化的方法。“激活地图集”以特征可视化为基础,是一种通过对模型处理图像时所激活的人工神经元进行分组,来研究模型的隐藏层所表征的内容的技术。

该方法可用于识别机器学习中的细微错误。下图的可视化显示,一个试图区分炒锅和煎锅的模型错误地将面条与炒锅联系起来,而没有识别炒锅更具代表性的特征,如深的碗口或短柄。


Open AI和谷歌的“激活地图集”显示,该机器学习模型错误地学会了通过是否有面条来区分炒锅和煎锅。(Open AI)

显著图是另一种让人工智能系统能够至少部分解释其决策的方法。RISE方法生成显著图或热图,突出显示图像中对分类最为重要的的部分。将照片输入图像分类器时,它将输出一组标签以及相关的权重或确定度级别。然后,RISE生成一个热图,显示图像中的每个像素对该图片分类的重要性。在以下示例中,RISE对模型如何检测一张包含白羊和黑羊的图片进行了解释,说明白羊在模型将物体鉴别为“羊”时的重要性,另外,模型将黑羊识别为一头牛,这可能是因为该模型的训练数据集中缺少黑羊的数据。


RISE方法生成的显著图让我们了解了人工神经网络通过关注图像的哪些部分来对图像进行分类。(Pascal视觉目标分类)

“反事实解释”是另一种用于解释机器学习模型输出的方法,该方法能够解释为获得不同的结果所需对输入数据作出的最小更改是什么。这使得人们能够有效理解如果某些初始条件不同,算法决策将如何改变。这种解释特别适用于基于多元数据输入,且为了防止歧视而需要做出解释的决策。例如,一个被拒绝贷款的人可能会得到如下解释:更高的收入或不同的编码会改变他们的资质。以下是一次假想的互动行为:

算法:“您的贷款申请被拒绝了。”
申请人:“为什么?”
算法:“如果你每月不是赚750美元,而是1000美元,那么贷款申请就会被接受。”
申请人:“除了我的收入和职业类型,我还可以怎么做来获得贷款?”
算法:“你已经有两笔贷款了。如果你还清那两笔贷款,你就会得到这笔贷款。”
在缺乏明确审计要求的情况下,被自动决策影响的个人很难得知他们收到的解释是否准确,以及是否掩盖了隐秘的偏见。


“类人机器人可能会成为不会说话的天才。”


“监管护栏”
在更广泛的第三方审计制度形成之前,监管机构需要限制算法在制定关乎人类的决策中的作用。例如,加拿大颁布的关于自动化决策的指令将无人直接参与的自动决策限制在低风险决策范围内,即对个人和社区的权利、健康或经济利益有着微小或中等影响的决策。并且加拿大似乎有可能进一步收紧监管。目前加政府正在考虑两项政策——一项是通过赋予个人以向所有实体(不只是政府)作出的自动化决策寻求解释的权利,从而扩大目前的解释权政策范围;另一项是赋予人们不受制于完全基于自动化处理做出的决策的权利。

随着对人工智能在人类各种决策方面发挥更为突出作用的论证逐步展开,我们还需要建立问责体系。当代的自动化系统,例如那些用于自动飞行的系统,已经呈现出了人和机器之间复杂且分散的控制形式的特征。这种情况在人工智能驱动的系统中只会加剧,因为与传统的自动化系统不同,人工智能驱动的系统仍然缺乏强有力的监管制度,可能会将用户置于危险之中。

例如,无人驾驶汽车需要人类驾驶员保持警惕,并坐在驾驶员的位置与人工智能系统合作,但当系统无法处理某一情况时,需要立即进行交接,这意味着驾驶员没有足够的时间来安全地切换任务。我们需要明确界定人工智能系统的设计者、人类用户和服务供应商的责任范围,以便能够在人工智能系统出现故障时知道应该由谁来承担责任。

此外,我们需要更好地理解人类智能和机器智能之间的差异。例如,2018年的一项研究显示,与人类不同的是,一些深度学习计算机视觉算法在识别图像时更依赖于纹理而不是形状。对于这样的算法,在将物体识别为猫的时候,猫的皮毛比其特征形状更为重要,而后者往往是人类做识别的主要参考方面。当用大象的皮肤填充猫的图像时,算法识别出它们是大象而不是猫。

最近,多伦多大学计算机系的博士生萨那·托那卡波尼(Sana Tonekaboni)对我说,用于训练人工智能系统的数据集同时设置了它们观察这个世界的术语。这意味着人工智能的“背景知识”可能与人类合作者不同,而且必然是有限的。托那卡波尼正在开发一种帮助医生预测重症监护病房中的心脏骤停现象的机器学习模型。“模型的输入仅限于生理数据,如心率等”,她说道,“如果一个来到急诊室的病人在言语、行为或其他方面表达出自杀的冲动”,这些行为通常不会被机器监测捕捉到并添加到患者的病例中,“那么这个模型显然不能将这一因素纳入其预测之中。”


算法:“您的贷款申请被拒绝了。” 申请人:“为什么?”


如何信任会思考的机器
鉴于这些背景知识的差异,我们需要思考人类如何信任并加深对人工智能系统思考方式的理解,这被乔治城大学管理学助理教授詹妮弗·洛格(Jennifer Logg)称为“机器理论”。洛格的研究表明,对人工智能系统的信任在一定程度上取决于用户对自己在特定领域的能力和专业知识的估计。外行人表示,在需要自己对“客观”可观察的表象做出决定时,他们更相信算法而不是自己,例如基于照片对人的体重进行预估。但经过训练的专家,比如那些在国家安全领域工作的专家,则表示他们更相信自己的评估。

来自行为经济学和用户体验的研究进一步表明,人工智能辅助的协同决策需要人类重新关注如何理解和利用智能机器的问题。“谷歌大脑”的研究员蔡嘉莉(Carrie Cai)发现,不同的解释会导致用户对算法能力得出不同的结论。蔡和她的同事们在旨在识别用户绘制的简单草图的人工神经网络Quick Draw中向用户展示了不同的界面。如果网络无法识别草图——例如一个牛油果——那么它会向用户提供两种解释。“标准”解释向用户展示了该模型正确识别过的其他牛油果的图像,而“比较性”解释则向用户展示了类似形状物体的图像,比如梨或土豆。


左侧的界面为用户提供了“标准”解释,通过提供其他用户绘制的能够被正确识别的牛油果的图像,说明人工神经网络为何无法识别该用户绘制的牛油果草图。右侧的界面提供了一种“比较性”解释,向用户呈现了神经网络“认为”该用户试图绘制的物体是什么。(Carrie J.Cai,Jonas Jongejan,Jess Holbrook)

接受“标准”解释的用户倾向于更信任人工神经网络:他们表示对系统有更好的理解,并认为系统具有更高的能力。而另一方面,收到“比较性”解释的用户则认为该网络的能力较低但更具“亲和力”。蔡嘉莉和她的同事提出,这是因为此种解释暴露了神经网络的局限性,可能会产生意外,但这些结果同样也展示出,神经网络虽然失败了,“但确实努力尝试过”。

蔡嘉莉的研究表明,“可解释性”方法也高度依赖于界面设计,后者的调整会影响用户对智能机器的信任。这意味着设计师可能会对人类用户如何培养他们的“机器理论”施加显著的影响。例如,如果仅向用户展示“标准”解释,通过隐藏一些盲点,用户可能会认为人工神经网络具有高出实际水平的能力,这会导致用户对它错误地产生了超过安全程度的信任。为了有效地避免以上情况的发生,针对人工智能系统的法规和第三方审计以及“可解释性”方法至关重要。

建立对智能机器的信任是一个复杂的过程,需要多个群体的参与,如“可解释性”专家、监管机构和人机交互研究人员。更好地理解人工智能系统如何进行“推理”是弥合人类和机器智能之间差距的必要步骤。这对于人们对人工智能在决策中应发挥何种作用的预期管理也至关重要。

更多优质内容推荐

Noema
文明国家的反击
布鲁诺·马桑斯(Bruno Maçães)
Noema
分享财富 恢复健康
瑞·达利欧(Ray Dalio) 等 2 位作者
Noema
进食即对话,食物即技术
汉娜·兰德克尔(Hannah Landecker)