社会机器人何以可能?*

——朝向一种具身卷入的人工智能设计


How are Social Robots Possible? Toward an Embodied Engagement Approachto Design of Artificial intelligence

 

陈巍/CHEN Wei1 赵翥/ZHAO Zhu2


《自然辩证法通讯》2018年第1期

“人工智能哲学”专栏


(1. 绍兴文理学院脑与社会心智实验室,浙江绍兴 312000;2. 云南师范大学心理学系,云南昆明 650500)

(1. Brain and Social Mind Laboratory,Shaoxing University, Shaoxing, Zheing, 312000;2. Departmentof Psychology, Yunnan Normal University, Kunming, Yunnan, 650500)

 

原发期刊:《自然辩证法通讯》2018年第1期“人工智能哲学”专栏

摘  要:当前,AI已经在高级思维与问题解决上取得了长足的进步,但在设计与开发用于人机互动的社会机器人上仍然面临诸多的难题。与各种社会机器人的互动中感知到它是一个可以提供某种互动的自主体究竟意味着什么?我们用什么标准来判断当前的人机互动中包含“真正”的社会性?通过整合社会神经科学、动物行为学、发展心理学等多个学科领域内的研究证据,具身卷入的社会互动观认为社会机器人的AI设计需要应对如下问题:(1)如何利用系统1直接知觉社会行为?(2)机器人的形态与生物学规律如何影响社会互动?(3)如何让社会机器人与人类建构共同任务?这将为AI在设计社会机器人上反思图灵测试的前提假设以及处理“4W/H”问题提供丰富启示。

关键词:社会机器人;人工智能;人机互动;具身认知;卷入性;镜像神经元


Abstract: Over the past decades,Artificial Intelligence (AI) advanced significantly within the realm ofabstract reasoning and problem solving. But the flourishing of AI didn’t expandto the realm of design and developing social robots. Cognitivist AI encountersmany formidable problems when applied to social cognition. What differs aninteractive agent from a physics object when subject percept environment? Whichconditions qualify human-robot interaction to be truly social interactive? By synthesizingevidences came from social neuroscience, ethology, developmental psychology,etc. Based on the approach of embodied engagement, we summarize three aspectsworth to be considered when design and developing social robots in the future.(1) How to use a low level, automatic system to accomplish the directperception of social behavior? (2) What morphology and biological law can beused in social robot to enhance experience of human-robot interaction? (3)Which pattern of interaction can build a joint task between human and robot?The inquiry and clarify of those questions may inspire further reflection ofTuring test and 4W/H problem faced by social robot and provide an alternativeview of AI design.

Keywords: Social Robots; ArtificialIntelligence; Human-Robot Interaction; Embodied Cognition; Engagement; MirrorNeuron


 

一、引言


从古希腊开始,人类就将理性作为自身独特性的标志,亚里士多德甚至认为人类不同于其他动物之处是人类的理性,并进一步主张思考是人类存在的终极目的。这种认识论立场影响了之后多个学科的发展。例如,古典经济学则把“理性人”作为了学科的基础假设,并试图在该假设上解释复杂的社会行为。心理学中认知主义将人类心理的源头——大脑——描述为一个操作抽象符号和表征并做出决策的推理机器,主导着个体的感受和行为。人类对抽象理性的强调在图灵测试(Turingtest)这里达到一个顶峰。该测试由阿兰•图灵(Alan Turing)于1950年提出,实验方法大致是评审人员通过一个设备(计算机)向无法直接看见和接触到的另一方提问,并通过收到的回答与之进行交谈。对方可能是一个计算机程序,也可以是一个真正的人。在进行过交谈之后,评审人员要判断对方是计算机程序或真正的人。随着计算机运算的越发快速,程序愈发巧妙,人工智能(以下简称AI)在该测试中取得很大进展。在2014年,俄罗斯AI专家米尔维塞罗夫(V. Veselov)等开发的聊天程序尤金•古斯特曼(Eugene Goostman)假装自己是一名13岁的男孩并成功的使得超过30%与之互动的评审认为“他”是一名真人,标志着AI首次通过了图灵测试。除了使用语言进行交谈,在其他强调决策和推理任务中,AI同样取得了非凡的成绩。1997年,美国IBM公司制造的深蓝在与人类国际象棋世界冠军卡斯帕罗夫对弈时取得了胜利。2016-2017年,美国Google旗下DeepMind公司制造出的Alpha Go在象征人类理智巅峰的围棋比赛中相继击败了人类的冠军选手李世乭、柯洁。伴随着AI领域的进步,亚马逊、苹果和微软等科技公司相继都推出了民用的智能助手。AI已经全面渗透至人类日常生活的各个角落。

遗憾的是,相对于AI在高级思维与问题解决上的蓬勃发展,以AI为“大脑”的实体的、社会性机器人设计现状却呈现出另一番尴尬景象。其中,让机器参与人类生活中的各方各面一直是很多AI专家的梦想。随着人机交互领域的高速发展,各种截然不同的“种类”的新型社会机器人被设计、开发出来甚至投入商业活动,上述问题变得尤为凸显。这给我们如何来提炼并描绘各种不同类型的“社会互动”出了一个难题。例如,简单的卡通舞蹈机器人Keepon[a1] (长得像黄色的小鸭),有着表达和社会指向能力的Leonardo(看上去像普通毛绒玩具),能够做出表情的KASPAR(一种用于自闭症辅助治疗的人偶)以及Ishiguro设计的高度仿真的类人少女机器人Kodomoroid。然而,AI在言语和棋类领域取得的巨大成就为何没有突破性地应用于社会机器人领域?与各种社会机器人的互动中感知到它是一个可以提供某种互动的自主体(agent)究竟意味着什么?我们用什么标准来判断当前的人机互动(human-robot interaction,HRI)中包含“真正”的社会性?下文中,我们将通过回顾当前社会神经科学、动物行为学、发展心理学等多个学科领域内有关生物自主体之间社会互动的行为、心理与神经机制,为AI中社会性机器人的设计与有效的人机交互提供启发。

二、从“两个脑”到具身卷入的社会互动

人类的交流能力是我们生存并徜徉在社会性世界之中,参与文化形成,推动社会发展的必要条件。传统认知主义(cognitivist)的交流观建立在符号、表征化的语言与思维能力之上。在目前的大部分AI中,一般意义上的机器人系统由认知(计划,决策)、感知(导航,感觉环境)、动作(运动性,操作能力)、交互(输入,输出)系统四个部分构成[1]。社会机器人的设计思路都基于认知主义的立场,即,在设计时使用了制造者(人类)对于刺激的表征方限定了机器人对周围环境的表征方式。让机器人将外部的刺激物与这些表征进行匹配、联结,并让AI操弄这些表征和符号来实现计算、推理、语义理解和决策。这其中AI所使用的符号、表征因为是由设计者规定的,与该系统认知周围环境的方式是割裂的,并且与自身的结构和活动能力没有必然的联系。整个系统的执行都基于内部对抽象表征和符号计算后的输出[2]。为了让该种机器人理解其他个体的行为,需要设计者将行为的意义强加于机器人身上,并让机器人尽量准确的识别具有意义的信号并能够在大量的相似知觉刺激中进行分辨。其工作模式大概是识别一个社会信号,然后根据规则计算出合适的反应。

的确,在生物系统进行社会活动时,也存在这类基于抽象符号、表征推理的系统。例如,从上世纪70年代中后期开始受到广泛关注的“心智理论”(theory of mind)或心智化(mentalizing)能力就强调个体在知觉他人的社会性行为时,使用了抽象的表征基于规则对他人的行为进行了因果性的解释。例如,在观察到他人一天没有进食,并准备打开冰箱。个体对于他人为何打开冰箱的会做以下推理:因为人不吃东西会饿,饿了需要进食,冰箱里通常放置食物,所以这个人要打开冰箱拿取食物。这种取向将生物个体当作一个朴素的科学家,在不断的观察中建构和修正自己的理论,并对周围的社会性事件做出更为准确的解释。与认知主义者制造的机器人一样,在心智理论的框架下,生物体所使用的表征和周围的世界也是割裂开的,个体可以理解任何能通过因果、逻辑联系起来的行为。唯一的区别是计算过程是通过大脑或计算机完成。

然而,过去的十余年中,一系列实验研究提供的充分证据指向,社会理解、默契和成功的合作也高度依赖于非言语的身体交流。这意味着我们需要对他人以及与之动态、在线的同步性中去解码动态社会行为的线索。简单的节律性的对齐(rhythmic alignment)与运动同步性(motor synchronization)可以影响合作与群体实体性(group entitativity)(指一群人被知觉为结合在某个一致单位中的程度,例如,拔河过程中团队发力的一致性)。社会心理学中的变色龙效应(chameleon effect)发现,非言语的自动化模仿会增进人际之间的友好感,促进依存的自我建构并支持合作目标的产生。总之,交流可以被视为人类互动与组织的“社会黏合剂”(socia lglue)。非言语的交流对于建立、维系和监控社会互动是不可或缺的。这种社会互动也被称之为“我们模型”(we-mode),它包括对高阶心理现象的人际调节,例如自我建构、合作与群体实体性[3]。

这方面最具有持久影响力的证据是镜像神经元(mirror neurons)的发现,它们不仅在猴子执行一个动作时被激活,例如猴子用力抓住目标物,而且当猴子被动观察一个由其他个体执行的相似动作时也会被激活。镜像神经元凭借这种能力去匹配观察到的和所执行的操作,同时去编码“我的行动”和“你的行动”。镜像神经元最初发现于猴子大脑腹侧前运动皮层(PMC)的F5区和顶下小叶区(IPL)。现有大量研究指向人类大脑中存在着类似的镜像神经元系统[4]。

综上,大脑中存在两个系统理解社会行为并指导互动。系统1是镜像神经元系统所代表的一种较为原始的、自动化地理解他人的方式,更多地处理侦测与空间、身体信号相关的较为早期的社会信息,该系统可以视为社会侦测系统(social detection system)。系统2是心智理论所代表的心智化脑区,这一系统通过抽象的推理理解社会行为,主要参与对他人情绪、命题态度的评估。该系统可以视为一个社会评估系统(social evaluation  system)。通常来说,实现社会互动需要如下步骤:首先,在互动中,我们通常内隐地区分人与物。人们的内在体验、理智、动机或行动意图在“常识心理学”(folk psychology)框架下得以描绘。物理对象的行为可以在“常识物理学”框架中使用物理力的影响而给予充分的解释(至少在牛顿力学的范畴之内)。其次,上述分析决定了交流的现象仅仅可适用于两个自主体之间的互动,而不适用于两个物。为了实现在其环境中适应生存的目的,前两者可以交换信息。再次,通过“心智化”或“镜像化”的方式来理解、模拟、想象或建模他人的内在体验,实现与他人的有效互动([3], p.2)。

当然,两个系统相互配合,使得个体在社会认知中既高效又灵活地处理复杂的知觉信息。例如,其他灵长类虽然在信念推理(belief reasoning)的任务上无法与人类婴儿相比,但不妨碍它们依然具有复杂的社会性行为[5]。婴儿在能够表征信念以前就可以仅仅依靠对事件的描述预测动作[6]。然而,在当前的AI中对于系统2的设计与模拟仍然凌驾于系统1。

忽视系统1对AI的影响较早反映上世纪80年中后期著名的AI专家布鲁克斯(Rodney Brooks)倡导的努韦勒(Nouvelle)AI进路。该进路强调认知能力是与生物体自身的知觉能力、解剖结构和运动方式密切联系的。即,认知能力取决于个体所存在的“周遭世界”(Umwelt)。个体能够知觉到环境的哪些方面,能够对这些被知觉的对象做出怎么样的反应。在AI领域,这种非认知主义的突显系统在AI被称为“卷入性”(engagement)。所谓的卷入性系统强调个体的认知是在与周围互动过中自我组织、自我产生、自我发展起来的,而不是被第三者预先(pre-given)规定的。这些表征仅仅服务于系统与环境之间的互动,而不以设计者(人类)能直接识别的形式出现。个体对环境的表征并不独立于身体存在某个特定的位置,而是广泛分散于个体与环境互动中产生感受刺激的各个部分。因此,系统的知识源自于主观的活动经验,其行为模式受制于自己的躯体([2], p.443)。基于突显观设计出来的AI系统与具身认知的思路有部分重合,特别是其形成认知的方式与Gibson所提出的示能性(affordance)这一概念为极为相似。突显系统通过让机器人探索环境,形成自己行为与周围世界的关系,实际上是从无意图的尝试行为阶段逐渐使自己的感觉运动系统习得周围环境的示能性的过程[7]。这一学习过程将知觉环境和执行动作紧密的联系到了一起。

这种联系也存在于镜像神经元系统中。镜像神经元的激活方式暗示了我们在自己执行动作和知觉他人做出的动作基于了同一套系统。而不是如过去认知主义者所认为的那种三明治结构,在大脑中有一个独立于执行系统和知觉系统的计算模块负责理解周围的世界。镜像神经元系统为无社会认知提供了一种无需思考的社会认知模式,并将交流中传递了大部分信息的姿态和身体语言带回了社会认知领域当中([4], pp.760–761)。在这里需要强调的是,镜像神经元之所以用自身的动作表征来理解他人并不是因为自身的运动表征是一种预设的,固定的抽象表征(这种观点依然没有跳出认知主义的解释框架)。感觉运动经验不仅仅是一个中介,而是构成了行为目标的组织结构(teleological organization)。个体的感觉运动经验是在运动系统与周围世界互动中逐渐稳固下来的,我们对于他人行为的理解取决于自身的运动范围和特定动作对环境产生的后果。个体的认知能力与知觉和动作系统有着密切的关系。

三、具身卷入的社会互动观对AI设计的启示

一种具身卷入的社会互动观认为,社会机器人的AI设计需要应对如下问题:(1)如何利用系统1直接知觉社会行为?(2)机器人的形态与生物规律如何影响社会互动?(3)如何让社会机器人与人类建构共同任务?

1. 直接社会知觉

镜像神经元理论区别于传统认知主义者的核心之一是知觉动作通过“直接匹配机制”(direct matching)。个体将知觉到的信息与自身所持有的运动表征进行了对比,无需其他计算系统的介入[8]。动作识别分为以下三个阶段,并且值得注意的是该模型中大脑所使用的知觉信息一直停留在二维层面:第一阶段大脑利用对特定角度的物体或者手部产生反应的特征检测器(shape detector)对动作的部分进行识别,之后随着处理层级的提高,特征的复杂程度增加,依赖于视角的程度降低。在这一阶段中,大脑完成了对物体的形状的加工并将手部的动作知觉为一系列在时间上连续的“快照”。在第二阶段中,大脑利用物体和手部的相对位置信息对动作的轨迹进行了加工,并且利用物体的形状获得了与物体互动的示能性。第三阶段,大脑随着动作的进行整合了物体的示能性和手部与物体的相对位置,对于动作是否是目标是导向进行了进一步的判断([4], p.758)。

直接匹配暗示了个体需要具有相应的运动经验才能通过镜像神经元系统去理解动作,即我们要具有合适的运动表征去匹配他人的动作[9]。目前有研究显示,对于同年龄的被试,掌握一类动作将增强对于该动作的理解,但是反复观察同一类动作并不能带来相应执行能力的提高[10]。在另一个研究中,研究人员使用了14与16个月大已经具有丰富爬行经验的婴儿作为被试,在实验中婴儿需要观察爬行或者行走的视频,结果发现婴儿自身的爬行的经验多少对于观察动作中的脑电反应能够产生影响。并且对于两个年龄段的被试,观察爬行所产生的脑电反应均强于观察行走[11]。这些研究显示出个体的运动能力和知觉能力的关系非常紧密,并且知觉能力极为依赖个体相关动作的执行经验。

对于社会机器人来说,AI设计还需要应对经验对社会理解的塑造问题。在日常生活中,他人的行为经常被部分地掩蔽在我们视线之外。例如,看见有人打开车门入座后点火启动,我们通常无法完整地看见整个动作序列及动作对象(拿钥匙的手被方向盘挡住),但是这并不影响我们很好地理解并预测他人的行为意图。已有研究显示,在直接匹配过程中,个体的运动系统对不完整知觉信息进行了补全。观察者的运动系统能够依靠部分视觉线索在运动系统中构建出完整动作。在Valchev等的实验中,研究人员让被试观察对方执行一个举起盒子的动作,盒子有三种重量(轻、中等、重)。但是动作执行者从手腕到手掌的动作都被遮住了,即动作执行者的第一指背侧骨间肌(first dorsal interosseous, FDI)与小指外展肌(abductor digitiminimi, ADM)都无法在实验中被观察到。被试需要仅仅通过手臂上的肱桡肌(brachioradialis, BR)来判断被试举起物体的重量。研究发现,被试能够仅仅通过观察手臂来判断被试举起物体的重量,并且被试自己与举起盒子有关的肌肉(包括无法直接观察到的第一指背侧骨间肌)的激活在观察中的激活程度与重量呈正相关[12]。即被试自己的运动系统补全了被遮挡的这部分动作信息,从而以一个完整的方式理解了对方举起物体这一动作。

按照传统认知主义者的假设,对于动作意图的理解是由单独的抽象表征计算后实现,在进行社会认知过程中都必须考虑动作本身和情境两个方面。但是,上述证据证明直接匹配使得动作与意图之间的关系变得紧缩(deflationary)。动作的执行并没有独立于情境,在某一情境中执行动作的意图会直接影响动作执行过程中的运动学信息[13]。即,某一意图与某一动作的对应关系远比过去设想的紧密。例如,研究人员要求被试倾倒、置换、投掷或传递一个瓶子。在研究中测到的运动学信息显示出当瓶子以倾倒的意图被抓起时,中指和无名指会比以其他三种意图执行抓起瓶子的动作时伸得更长[14]。在另外一些研究当中,研究人员发现具有交流性意图的动作相对于个体独自执行时也呈现出不一样的信息[15]。这些在执行中运动学信息出现的微小差异被生物系统充分地捕捉了,并用以理解他人的行为[16]。并且这种敏感性甚至可以基于非常有限的知觉信息。在点光源技术(point-light technique)实验中,运动的演示被简化成三个移动的光点,分别对应于主体手的腕部、食指和拇指上的标记位置,被试在这种情况下仍然可以区分出社会性的动作和独自执行的运动[17]。在另一项研究中,该团队进一步发现交流姿势所传递出的信息可以促进对第二个主体(动作对象)的视觉侦测,并影响对其生物运动信息的加工。这意味着,当处于两个主体之间存在社会互动的情境中,其中的运动学信息不仅可用于预测个体接下去该做什么,还有助于预测另一方接下来的动作[18]。

在知觉社会行为时要求以较少的认知资源较快的速度判断他人的动作。以上研究显示,动作中蕴含着充分的信息。但是动作中被记录到的这些变量依然没有使用在机器人的知觉系统中。直接知觉强调无需使用中介表征来处理知觉信息,尝试如何让机器人直接从各类感知觉信息中抽取出不变(invariant)的信息用以指导社会互动。这种社会知觉形式可能是未来制造社会机器人亟待关注的。

2. 机器人的身体形态与生物规律

除了具备快速、准确识别社会认知信号,社会机器人的另一个重要方面是让自己的行为容易被人类识别。的在电影星球大战中,有两个同样有趣,但外形差异很大的机器人,一个是类似垃圾桶的R2D2,另一个是似人(anthropomorphic)的C3PO。哪一种机器人更适合用以作为社会机器人呢?为了使人类能够更为舒适、自然的与机器人互动,社会机器人的外表和行为方式应该能让个体使用自动化、快速的方式被知觉,而不是让个体智能系统互动时,不断的向智能系统妥协,迁就AI的行为模式。在知觉大部分机器人时,如果个体个体需要去有意识地去思考什么样的程序影响着机器人的行为,这违背了社会机器人的设计初衷。有研究显示,人类在通过镜像神经元系统知觉其他社会个体的行为时,明显存在自下而上以知觉驱动加工的方式[19]。即外表与人类越相似的机器人越容易对其行为进行社会归因。因此,一个理想的社会机器人应该是似人的,因为通过镜像神经元系统理解其他个体的行为是基于个体自身的运动表征,当我们在观察形态上(morphological)与我们没有可类比性的对象时,将出现模仿行为中的对应难题(correspondence problem)(例如犬吠相比于猴子咂嘴难以激活人类的镜像神经元系统)([9], pp. 124-126)。

除了物理的外表,另一个问题是怎样的行为方式是容易被理解的。目前有证据显示当人类观察到机械手臂完成一个目标导向动作的时候个体脑中镜像神经元系统也能够产生激活[20]。在另一个研究中,研究人员让被试观察真人或似人机器人以运动学信息(kinematics)(依然是可以被真人执行的)的,以及生物体无法实现的方式抓物体动作,并在之后自己执行一个类似的动作。为了使机器人的抓握符合生物学规则,研究人员分别记录了人类以顺畅、连贯(黑色实线)和脱节、机械的(浅灰色实线)方式伸出手的运动学信息,如图1所示。并且,将这种生物可能的动作的执行方式让机器人执行(与浅灰色实线类似)。为了使得机器人的伸手动作不符合生物学规律(biological law),研究人员让伸出手的初期瞬间加速,然后保持在最大速度至少1秒钟,再伴随一个较快的减速(深灰色虚线)。研究发现无论被观察对象是否是真人,只要其动作符合生物学规律,就能够以影响被试之后执行动作的方式[21]。因此,社会机器人的行为方式应该基于从人类身上搜集到的运动学信息进行设计,这样能最大程度让人与之互动时使用具身式的认知方式。

图1 当演示者执行手部动作时的运动轨迹与速度变化

另外值得注意的是,虽然似人性的提高会带来互动体验的提高,但是恐怖谷(uncanny valley)理论认为随着人造对象越来越接近人自身,人类对于虚拟对象或机器人的接受程度会在一定的似人程度之后产生反转,使人对虚拟对象和机器人产生消极的态度[22]。这主要是由于互动是一个动态过程,恐怖谷所描述的这一反转的主要是因为机器人无法在互动中产生恰当的反应。例如,在人与人之间的互动中通常一方通常会无意识的模仿对方。有研究者指出,这种恐怖谷现象不仅存在于人和虚拟对象互动时,在面对某些因疾病(Moebius综合征)或整容手术(注射肉毒杆菌)使得面部表情异常的人类个体时同样会出现。一个一个栩栩如生的对象对我们的行为毫无反应会显得这个“他”是一个精神异常的个体,在设计和研发时的一个有效的手段是让机器人在交流时做一些细微的动作能减少恐怖谷的出现[23]。

人类形态对于社会互动的意义还必须考虑到生物演化的微妙因素。这可以从“合作眼睛假说”(The cooperative eyehypothesis)中得到极好的阐述。人类的眼睛具有一种独特的形态学意义。与其他灵长类动物不同,人类的眼睛在褪色的、白色的巩膜、暗色的虹膜与黑色的瞳仁之间存在着鲜明的色彩对比。这归因于巩膜缺少色素。其他灵长类会有棕色或深色的巩膜。人类的皮肤、巩膜与虹膜之间也存在高对比度。人类的眼睛在身体的比例中占据更大的位置,而且水平维度上更长。在所有灵长类中,人类是唯一可以清晰地看到眼睛的轮廓和虹膜位置的物种。这种对比促进了侦测其他个体注视方向能力的发展。进化生物学与比较心理学家托马塞洛(M. Tomasello[徐竹2] )等的研究检验了头部和眼睛运动对于改变人类和大猿视线方向的影响。人类实验主试分别做出如下四种动作,并让人类婴儿、大猩猩、黑猩猩、倭黑猩猩观察这些动作:(1)实验人员闭上眼睛并倾斜头部;(2)眼睛注视天花板同时保持头部静止;(3)用头部和眼睛注视天花板;(4)直视前方保持头部和眼睛不动。实验结果发现,所有大猿都只会在实验人员头部移动的情况下追寻其眼神,而人类婴儿更多得会在实验者眼睛运动时追寻其眼神[24]。这个结果显示当人类试图追寻他人的眼神时更多依靠的是他人眼睛的运动而不是头部的运动。从人类学意义上来看,人类婴儿推测出了他人交流与合作的意图,同时也展示他们自己合作的意图。

进一步的研究发现,这种眼睛形态学的构造还与动物的社会性等级有关。如果一个物种在眼睛形态学缺少上述构成,那么它也就无法追寻其他物种的眼神,这对于群体的社会交流与合作是极其不利的。例如,现有的动物形态学研究发现,一些犬科动物的虹膜颜色比瞳孔浅得多。包括灰狼(Canis lupus)、郊狼(Canis latrans)以及亚洲胡狼(Canis aureus)。这些是群居的并且具有共同捕猎的行为。另一些犬科动物的虹膜颜色较深,瞳孔不可见。包括鬃狼(Chrysocyon brachyurus)、澳洲野犬(Canis lupus dingo)以及敏狐(Vulpes macrotis)等。它们更倾向于独居或是成对生活,并且独自捕猎[25]。

基于“合作眼睛假说”,一些研究者开展了一系列的实验确认了机器人眼睛的良好设计特征,这种设计会让机器人具有令人愉悦的外表以及更好的人与进行眼神交流的能力。他们借助一对背投的眼睛来操纵眼睛形态(从平坦到圆形)与虹膜尺寸(从小到达),设计出9种基于上述特征整合的机器人眼睛,随后评估人们对这些眼睛友善性的印象。结果发现,人们倾向于将圆的眼睛形态和更大的虹膜视为更友善的。这个设计还比较了人们在观察机器人眼睛时能够确认其注视目标的容易程度,发现具有大的虹膜的圆眼可以产生最清晰的眼神。研究还发现,在机器人将视线动态地转移到注视目标的情况下较之静态地注视目标,人们更有可能精确地判断出前者的注视方向[26]。因此,如何将人类对于眼睛社会性的最佳评估安装在可移动的机器人身上对于流畅的人机互动来说至关重要。

3. 人机交互建构共同任务

进化提供给了我们一种针对社会互动的解决方案:向他人的行为学习并适应它是我们操纵社会生活并在社会群体中生存的不可或缺的先决条件。研究者假设创造、加工并借助人与同一物种(conspecifics)的其他个体分享社会信息的独特能力构成了一种卓越的进化优势。这种优势使得我们可以与他人交流,并参与到复杂的合作形式之中。这就是著名的“文化智力假说”(cultural intelligence hypothesis),即我们的社会认知能力不同于一般的认知能力,它为人类提供了进化的优势。相比非人灵长类,人类的幼儿在2.5岁时就显示出在社会学习、交流和心智理论任务上的优越性,而在涉及空间、质量和因果性等物理认知能力上这种物种之间的差异就要小的多。这种独特的能力有助于我们操控社会性的世界,来调整社会示能性并适应、协调他人的意图、感受和行动,甚至可以大大地推动普遍意义上包含人类物种内部科学、技术、艺术与哲学等文化的演化与发展([3], p. 2)。

社会互动的动态属性为社会机器人的设计与制造带来了巨大的困难。认知主义者所设计的AI能够在定义明确,刺激类型较为有限的任务中取得很好的表现。因为在社会互动中机器人的动作有时会被打断,并且会需要在多个互动对象之间切换。为了制造一个社会机器人,该机器人需要在社会学习、模仿、手势和语言交流手段、对其他个体的识别互动等多个方面取得成功。实现这些互动的一个重要前提是共同注意(joint attention)[27]。共同注意的意义在于,一旦某人追随另一个人的眼神,就可以将视觉注意转移到一个的新焦点,它可以是环境中的一个对象,或者与另一个人的相互注视。从婴儿早期开始,眼睛就是视觉注意的原始的且最一致的指标。尽管其他工具的发展也可以帮助我们操控社会性世界(例如,语言),但眼神仍然是一个关键的线索系统,它可以帮助我们理解他人,并实现一系列涉及信息检索、传递人际态度,以及在协调同步性的对话与人际距离等社会认知功能。

AI互动和人类互动时共同注意的建构模式受到情境的影响。一个实验使用了互动式眼部追踪范式(interactive eye-trackingparadigm),被试甲坐在电脑前,注视屏幕左侧或右侧的方块,然后被注视的方块从灰色变为蓝色。被试甲还被告知他们的注视行为可以被另一位被试乙看见,被试乙可能注视被试刚才注视的那个方块或注视另一侧的方块。被试甲的任务就是根据对方的一系列反应判断被试乙是一个真实的人类还是计算机的算法。在实际实验中,被试乙的反应均是由计算机做出的,并且对于每一位被试甲,都将随机互动7种不同的反应模式(包含总是注视被试甲的选择同一侧,逐渐变为总是注视被试甲选择的另一侧),从而测试对方反应在不同一致性和相依性的条件下会对被试甲的判断做出什么影响。结果显示,在没有限定情境的条件下被试的判断取决于对方的注视在多大程度上与自己一致(congruence),也就是计算机给出的共同注意越多,被试就更可能认为对方是人类;在被试甲认为对方是配合的条件下,判断则取决于对方的注视与自己的相倚性(contingency),也就是被试甲认为对方的反应不一定要总是与自己同向,也可能总是与自己反向;而当被试甲认为对方在故意为难自己的条件下,这时被试甲的判断既不取决于一致性也不取决于相依性[28]。在AI与人互动中,双方在不同任务中构建共同注意的模式并不相同,社会机器人的功能应该与其行为模式具有一致性,并符合情境,否则可能会让与之互动的人类困惑。

在互动中的第二个问题是机器人在一对多或多对多的互动中如何识别哪一个对象正在与自己互动。或者在与AI互动时,如何让被试认为该对象是具有可以进行互动的。脑成像研究显示,个体对于他人是否能与之互动的预期会进一步影响对他人行为的理解[29]。这将影响人类能够在知觉信息非常不完整的条件下完成该任务。一个研究探究了在可以互动的情境中,当感知觉经验被最大程度的简化后,被试是否能从三种对象中(固定的物体,移动的物体与另一个人)识别出哪一个是与自己相似的“人”。在实验中,被试蒙住双眼坐在一台运行着实验程序的电脑前用右手操纵鼠标,在电脑中被试通过左右移动鼠标让代表自己的一个长方形在一条横线上左右移动,在移动过程中可能会遇到三种对象:一个在横线的固定位置存在的长方形;另一个被试控制的长方形,在实验中也被称为化身(avatar);以及一个总是与化身相隔固定距离的长方形,即这个长方形的运动方式和化身是一致的,它也被称为移动混淆物(mobile lure)。每当被试操控的长方形与其他长方形有重合的时候(部分或全部),被试左手的接收器上开始出现触觉信号。但是如果化身没有运动,即被试依次探索到了三个对象,被试所接收到的信号都是同样的,信号只有“有”或“无”两种状态。但是被试还是能用一些线索区分遇到了移动的对象,例如自己没有移动,但突然触觉信号开始了;遇到对象的位置变化了;或者被试经过一个对象时触觉信号持续时间延长(两个化身同向运动)或缩短(两个化身逆向运动)了。实验的要求就是被试在15分钟的实验时间内当遇到化身的时候点击鼠标。研究发现被试的确能够区分移动的物体和固定的物体,并且无论是相遇的次数或是相遇后点击鼠标的概率,遇到化身时都大大高于遇到移动混淆物。研究人员认为这是因为当两个化身相遇时,他们各自接收到了信号,他们分开后再次移动回来相互探索,这时他们再次相遇。这形成了一种稳定的动态吸引子(stable dynamic attractor),与生活中相互注视的情况类似。而当被试遇到移动混淆物时,虽然被试自己接收到了信号,但对方并不知情,因此双方并没有进一步的探索行为[30]。

因此,在真实的互动中,个体在知觉对方时,对方并不是一个完全客观的存在。个体试图在互动中实现的结果,接收到的信息都在影响着个体知觉环境中的哪一部分,并对这些信息做出怎样的解读。在互动期间,机器人需要不断的更新这表征和符号的状态使之与当前的客观世界和任务要求一致,完成自己的部分并让对方完成他人的部分。

四、总结与展望

鉴于大部分的社会机器人仍然沿袭基于认知主义框架的AI设计,其执行的计算,视觉加工、符号推理、计划任务、构建心智理论、反馈、学习等,都带有被指定的烙印。这种设计或许更加适合用于模拟人类社会认知的系统2,而忽视系统1必然导致机器人的设计难以应对社会互动。举例而言,当我们看到一些社会情景,比如一位顾客拉着另外一位快要摔倒的顾客的胳臂时,机器人是如何理解这个社会互动行为?这两个顾客各自的行为极为不同,机器人如何来同时理解这两种不同的肢体动作?它又如何区分这个动作是亲社会性的(如扶起摔倒的顾客)而不是反社会性的(两个顾客发生了争执)?再举一个例子,当机器人看到一对情侣推搡以及他们面部表情的时候,我们是如何理解以下四种微妙的行为意图:撒娇玩耍(两个人都在笑),真正吵架(两个人都在生气),一方欺凌另一方(推搡的人在笑,被推搡的人生气),一方挑衅而另一方被激怒(推搡的人在生气,被推搡的人在笑)。理解这些复杂的群体行为涉及到对于两个个体动作(或面部表情)的宏观解读:仅仅明白单一个体动作(比如拉手臂、摔倒、哭、笑)不足以让机器人完全理解整个社会互动的意义,更无法兑现参与社会互动的目标。

进一步的,如果机器人不仅是作为一个旁观者,而是作为参与者与人类进行社会互动,那么还将应对“4W/H”问题[31]。

(1)此次互动目标是什么(What):这里既要包含短期的目标和长期的意图,如果从仅仅有行为的人类对象中获得信息。AI要能快速、准确的识别他人行为的意义。

(2)谁应该现在执行(Who):大部分互动是一个轮流、交替的过程。AI需要及时的更新信息,理解当前的目标。

(3)何时该执行动作(When):互动是一个双方构建的共同任务。一方需要判断另一方的动作速率。机器人在执行时要将信号传递给对方,也要接受人类给予的信号,才能实现互动。

(4)在哪里执行该动作(Where):互动中空间是开放的,如何判断动作的发生区域,在合适位置开始执行。

(5)如何执行该动作(How):实现一个目标或意图存在多种方式,AI如何选择合适的动作方式来实现所期待的功能。

以上五点相互交织,将社会互动变成了一个复杂系统。使用传统认知主义的编程策略,解决这些方问题不仅任务量惊人,并且面临在遇到新异任务时不具有推广性。以社会互动中常见的模仿行为来说,机器人需要判断是否应该模仿,何时模仿。在面对环境中的多个对象,且实时变化的知觉刺激时需要判断模仿对方的哪些部分,如何解决对应问题,如何判断自己的模仿是否成功。

具身卷入观或许可以为社会机器人的AI设计提供了一种新的思路。这恰恰是1950年图灵在其文中所忽视的:“新问题(机器思维)具有的优势是在人类的身体与智力之间刻画出一条相当锐利的分界线。没有工程师或化学家会主张可以制造出与无法区别于人类皮肤的材料。或许在某一时间点上有可能做到这一点,但即便假设这种发明可以应用,我们还是觉得给机器打扮成人工的肉身对于试图制造‘机器思维’而言几乎是毫无意义的。我们设定问题的形式反映了这样一个事实,即阻止提问者看见或触摸到其他对手,或者听到他们的声音。”[32]

然而,这里暗含了一个巨大的不确定假设。近二十年来,学术界对于离身的计算心智模型来解释人类智力正变得悲观,大量证据指向我们的思维和体验是由我们实在的具身性和活的情境所塑造的。虽然,“图灵或许是对的,过分关注人类肉身和血液的确会导致我们理解智力时出现偏差,从而在某种程度上使得AI不仅要聪明执行地行动而且还要在更为广泛的生物学意义上模拟人类,这些都为AI平添了不必要的设计负荷。不过,上述想法并不能阻止我们质疑身体仅仅是一种‘打扮’,质疑我们与世界隔离开来的那层膜(皮肤)并没有刻画出多少具有深刻的东西。换言之,自主体和智力的许多维度扎根于我们的肉身和血液具身化,以及卷入到世界和可感知他人的情感-感觉运动之中,并由此反映出来。因此,我们的社会性本质,以及某种程度上我们独特的心智属性,恰恰是从不同的可感知的自主体的互动中涌现出来的。”([2], p. 8)


基金项目:国家社会科学基金项目“现象学与神经科学对话中他心问题的重构及其超越研究”(项目编号:16CZX015)

作者简介:陈 巍(1983-)男,浙江绍兴人,博士,绍兴文理学院心理学系副教授,研究方向为哲学心理学与认知科学。Email: [email protected]

赵  翥(1988-)男,云南昆明人,云南师范大学心理学系硕士研究生在读,研究方向为理论心理学与社会神经科学。Email: [email protected]



参考文献

[1] Breazeal, C. L. Designing Sociable Robots[M]. Cambridge, MA: MIT press, 2002, 24.

[2] Brincker M. ‘Dynamics of PerceptibleAgency: The Case of Social Robots’[J]. Mindsand Machines, 2016, 26(4): 441–466.

[3] Vogeley K. ‘Two Social Brains:Neural Mechanisms of Intersubjectivity’[J]. Philosophical Transactions of the Royal Society B: Biological Sciences,2017, 372(1727), doi: 10.1098/rstb.2016.0245.

[4]Rizzolatti, G, Sinigaglia, C. ‘The MirrorMechanism: A Basic Principle of Brain Function’[J]. Nature Reviews Neuroscience, 2016, 17(12): 757–765.

[5]Call, J, Tomasello, M. ‘What Chimpanzees Know aboutSeeing Revisited: An Explanation of the Third Kind’[A]  In  Eilan, N., Hoerl, C., McCormack,T., &  Roessler, J. (Eds.), JointAttention: Communication and Other Minds[C]. Oxford: Oxford UniversityPress, 2005: 45–64.

[6]Csibra, G, Gergely, G. ‘“Obsessed with Goals”:Functions And Mechanisms of Teleological Interpretation of Actions in Humans’[J].Acta Psychologica, 2007, 124(1): 60–78.

[7] Horton, T. E, Chakraborty, A, Amant, R.S. ‘Affordances for Robots: A Brief Survey’[J]. Avant: Journal of Philosophical-Interdisciplinary Vanguard, 2012,3: 70–84.

[8] Rizzolatti, G, Craighero, L. ‘The Mirror-Neuron System’[J]. Annual Review of Neuroscience, 2004, 27:169–192.

[9]Buccino, G, Lui F, Canessa, N, Patteri, I, Lagravinese, G, Benuzzi, F, Rizzolatti, G. ‘Neural Circuits Involved in the Recognition ofActions Performed by Nonconspecifics: An fMRI Study’. Journal of Cognitive Neuroscience, 2004, 16: 114–126.

[16]Sommerville, J. A, Woodward, A. L, Needham,A. ‘Action Experience Alters 3-Month-Old Infants’ Perception of Others’ Actions’[J].Cognition, 2005, 96(1): B1–B11.

[11]Van, E. M, van Schie, H. T, Hunnius, S,Vesper, C,  Bekkering, H. ‘You’Ll NeverCrawl Alone: Neurophysiological Evidence for Experience-Dependent MotorResonance in Infancy’[J]. NeuroImage,2008, 43(4): 808–814.

[12] Valchev, N, Zijdewind, I, Keysers, C, Gazzola, V, Avenanti, A,  Maurits, N. M. ‘Weight Dependent Modulation ofMotor Resonance Induced by Weight Estimation During Observation of PartiallyOccluded Lifting Actions’[J]. Neuropsychologia,2015, 66: 237–245.

[13] Ansuini, C, Cavallo, A, Bertone, C, Becchio, C. ‘Intentions in theBrain: The Unveiling of Mister Hyde’[J]. Neuroscientist,2015, 21(2), 126–135.

[14] Sartori, L, Becchio, C, Bara, B.G, Castiello, U. ‘Does the Intention to Communicate Affect Action Kinematics?’[J].Consciousness and Cognition, 2009, 18(3):766–772.

[15] Ansuini, C, Giosa, L, Turella, L,Altoè, G, Castiello, U. ‘An Object for an Action, The Same Object for OtherActions: Effects on Hand Shaping’[J]. ExperimentalBrain Research, 2008, 185(1): 111–119.

[16] Sartori, L, Becchio, C, Castiello, U. ‘Cues to Intention: The Role ofMovement Information’[J]. Cognition,2011, 119(2): 242–252.

[17] Manera, V, Becchio, C, Cavallo, A, Sartori, L, Castiello, U. ‘Cooperationor Competition? Discriminating between Social Intentions by ObservingPrehensile Movements’[J]. ExperimentalBrain Research, 2011, 211(3): 547–556.

[18] Manera V, Del Giudice M, Bara B G, Karl, V., & Cristina, B. ‘TheSecond-Agent Effect: Communicative Gestures Increase the Likelihood ofPerceiving a Second Agent’[J]. PLoS One, 2011, 6(7): e22650.

[19] Chaminade, T, Cheng, G. ‘Social CognitiveNeuroscience and Humanoid Robotics’[J].Journal of Physiology-Paris, 2009, 103(3): 286–295.

[20]Gazzola, V., Rizzolatti, G, Wicker, B,Keysers, C. ‘The Anthropomorphic Brain: The Mirror Neuron System Responds to Humanand Robotic Actions’[J]. NeuroImage, 2007, 35(4): 1674–1684.

[21]Bisio, A, Sciutti, A,Nori, F, Metta, G, Fadiga, L, Sandini, G, Pozzo, T. ‘Motor Contagion During Human-Human andHuman-Robot Interaction’[J]. PLoS One,2014, 9(8): e106172.

[22] MacDorman, K. F, Ishiguro, H. ‘TheUncanny Advantage of Using Androids in Cognitive and Social Science Research’[J]. Interaction Studies, 2006, 7(3): 297–337.

[23] Tinwell, S. A. The Uncanny Valley in Games and Animation[M]. Boca Raton, LF: CrcPress, 2014, 2-5.

[24]Tomasello,M, Hare, B, Lehmann, H, Call, J. ‘Reliance on Head Versus Eyes in the GazeFollowing of Great Apes and Human Infants: The Cooperative Eye Hypothesis’. Journal of Human Evolution, 2007, 52(3),314–320.

[25]Ueda,S, Kumagai, G, Otaki, Y, Yamaguchi, S, Kohshima, S. ‘A Comparison of FacialColor Pattern and Gazing Behavior in Canid Species Suggests Gaze Communicationin Gray Wolves (Canis Lupus)’[J]. PLoSOne, 2014, 9(2): e98217.

[26] Onuki, T, Ishinoda, T, Tsuburaya, E,Miyata, Y, Kobayashi, Y, Kuno, Y. ‘Designing Robot Eyes for Communicating Gaze’[J].Interaction Studies, 2013, 14(3):451–479.

[27] Baron-Cohen, S. Mindblindness: An Essay on Autism andTheory of Mind[M]. Cambridge, MA: MIT Press, 1995, 17.

[28] Pfeiffer, U. J,Timmermans, B, Bente, G, Vogeley, K,  Schilbach, L. ‘A Non-Verbal Turing Test:Differentiating Mind from Machine in Gaze-Based Social Interaction’. PLoS One, 2011, 6(11): e27591.

[29] Krach, S, Hegel, F, Wrede, B,Sagerer, G, Binkofski, F, Kircher, T. ‘Can Machines Think? Interaction andPerspective Taking with Robots Investigated via fMRI’[J]. PLoS One, 2008, 3(7): e2597.

[30] Auvray, M, Lenay, C, Stewart, J. ‘PerceptualInteractions in a Minimalist Virtual Environment’[J]. New Ideas in Psychology, 2009, 27(1): 32–47.

[31]Lemaignan, S, Warnier, M, Sisbot, E. A,Clodic, A, Alami, R. ‘Artificial Cognition for Social Human-RobotInteraction: An Implementation’[J]. ArtificialIntelligence, 2017, 247: 45–69.

[32] Turing, A. ‘Computing Machineryand Intelligence’[J]. Mind, 1950, 59(236), 433–460.




首批配送机器人上路

大风号  4小时前

寓教于乐,智能机器人酱选

大风号  6小时前

【高工机器人 | 视频】四轴工业机器人精度检验

大风号  6小时前

无人机巡河员、机器人查漏员……治水用这些机器人就是“神器”!

大风号  6小时前

如何用QQ机器人查天气预报

大风号  11小时前

“机器人快递员”今天上岗

大风号  14小时前

618,机器人帮你省钱省到家

大风号  1天前

【高工机器人 | 视频】优傲机器人汽车制动自动化项目

大风号  1天前

雪上机器人专题 | 武彦龙

大风号  1天前

机器人技术等级考试开考

大风号  1天前

【高工机器人 | 视频】高精度的小型六轴机器人

大风号  2天前

机器人解放的一小步——MUJIN机器人控制系统

大风号  2天前

跳舞机器人助兴南博会

大风号  2天前

科沃斯商用机器人总经理高倩:是机器人,更是工作伙伴

大风号  2天前

机器人给你做饭,你会不会为家里添置一台机器人?

大风号  3天前

货到机器人拣选还有多远?

大风号  3天前

亚威机器人子公司产品荣获中国机器人CR认证

大风号  3天前

【博众机器人 | 图说】本周机器人行业十大关键词

大风号  3天前

如何选择机器人的品牌

大风号  3天前

电话机器人|智能语音机器人贴牌|营销电销外呼机器人系统OEM代理

大风号  3天前