吴翔宇、张颖：从“计算”到“算计” ：人工智能语言模型何为

发布时间：2024-09-01浏览次数：259

人工智能语言模型凭借其强大的语言理解交互能力、多领域内容生成能力、快速进化的涌现能力，引起了社会的广泛关注。人工智能语言模型所储存的关于外部世界的知识究竟是“先验的”“不可更改的”，还是时时“更新、生长、创造的”？人工智能语言模型能与人类产生真正的“联结”与“共情”吗？

重视言语对现实的构筑关系

文学首先和最终都是语言的艺术，其“文学性”就存在于语言之中。维特根斯坦在《哲学研究》中把各种语言游戏之间的关系称为“家族相似”。他指出，因为家庭成员之间的身材、面部特征、眼睛的颜色、步态、性格具有相似性，所以各种“游戏”形成了一个家族。语言游戏的概念意味着语言无法脱离其具体用法而独立存在，因此，语言也就无法被“纯粹客观”地“理解”。可见，没有统一标准是人类日常语言的真相，因此，对于语言所着意于表达的意义的确定，往往需要结合其使用语境。

梁漱溟曾把“道理”分为“物理”和“情理”，而对于“情理”的把握，则在于将其置于人与人的特定关系，即语境之中。换言之，能指与所指、符号与对象的关系并非完整的关系，只有把主体也放进来，谈论能指与所指的关系才有意义，因为符号往往会由于主体的改变而变换其含义。《祝福》中有一个情节：当祥林嫂准备去拿祭祀的物品时，鲁四婶子“慌忙大声”地对祥林嫂说“你放着罢”。在这里，作为能指符号的“你放着罢”表达的是鲁四婶子对祥林嫂“不洁”的忌讳。移换到劳动场景，当家长对孩子同样使用“你放着罢”这一语言符号时，表达的却是宠溺和温情。可见，同一句话，从语义学上看，其内容显然是毫无区别的，但从语用学上看，情境不同，句子的意义也有所不同。

上述语义分析正是奥斯汀所强调的“言语施为性”，即重视言语对现实的构筑关系。与其说言语是用来简单地描摹现实，不如说“说话就是做事”，即通过“说话”对现实构成某种改变。这也就是说，言语最大的意义在于其交互和沟通功能。奥斯汀由此区分了三类言语行为：以言表意、以言行事和以言取效。“以言表意”即用言语和言辞来表达字面意义，这显然不是其关注的重点；而其所关注的“以言行事”和“以言取效”则往往是通过种种暗示的言语行为，言在此而意在彼，即用同一句话来指涉不同意思。因此，与其说前述“你放着罢”是用来“表意”，不如说是用于“行事”和“取效”。

“图式化”的意义

“说给谁听”比“对谁说话”更为重要，语用也往往比语义更为重要。所谓指桑骂槐、含沙射影、顾左右而言他，都是在讲人类语言的复杂性。而语言的复杂性又往往源自人的身体和情感体验的复杂性。在认知语言学看来，任何概念都是有情绪的，这些所有的由语词带来的情绪反应，以及这些情绪反应背后的身体运作，都是该语词概念图式中的有机构成环节。换言之，所有的概念图式实际上是人类身体运作的产物或衍生物，你的身体如何与世界接触，你的概念也就自然而然地包含这些信息。总之，“具身性”条件构成对于言语理解力和语言表征的约束机制，因此，“夏虫不可语冰，井蛙不可语海，凡夫不可语道”。这也印证了官群“身体状态和特定模态的模拟在语言处理中起着重要的作用”的观点。

人类身体的感知能力还决定了其对“图式”的构造能力。“图式”这个词在古希腊词源中具有“形状”之义，也是使得彼此异质的知识的“形式”与“质料”天衣无缝地结合在一起的中介。知识“形式”类似柏拉图所言“床的理念或理式”，“质料”则类似木匠造床所用的材料，二者要互相结合，才能构成完整的作为知识的“床”。这样说来，图式既是感性地充满个性感知和因人而异的，又是理性地能为抽象符号运算提供普遍雏形的。甚至从某种意义上说，图式是客观与主观或知性与感性的内在统一，遵循的是动态发展而非静止不变的逻辑。换言之，图式的建构一方面相当于在语言规范和逻辑的约束下“戴着脚镣”，另一方面又相当于“戴着脚镣跳舞”，即在较大程度上依赖于具身化且能够“以言行事”和“以言取效”的“个体”本身。

在本质上，“图式”是人类的个性体验、情感与既定的社会规则尤其是语言表达的规则的统一。因此，人类往往也可以通过“图式分享机制”而强化“社会凝聚力”，从而有机地结合成“抱团取暖”的“想象的共同体”或“精神实践的共同体”。为什么一个民族产生这样的图式和图腾而不是那样的图式和图腾？一定是既定的社会规则和社会现实告诉图式和图腾要产生这样的图式和图腾。为什么一个民族会产生这样的社会规则和社会现实？也一定是这个民族既定的图式和图腾告诉这个社会规则和社会现实，应该产生这样的社会规则和社会现实。

归结起来，“图式化”的意义在于：既有助于摆脱“唯理论”带来的困扰，即“床的理念”如何在现实世界落地成真；又有助于摆脱极端经验论的束缚，即因“具身化”而得以千差万别的个体之间是如何实现交流和沟通的可能性的。

人工智能语言模型与人类的共情

由于自身的非涉身性和先天与社会和现实隔绝，目前的人工智能语言模型无法“图式化”，即形成图式和图景，因此，其更多是根据海量的语用案例来进行归纳。即根据语词在字面上的含义或大多数场景中的含义来“计算”其指涉，同时由于其尚不能真正理解语言的结构和意义，它所能识别出的文字意义也就只限于一般符合语法规范的文字的意义，而对于那些与“具身化”“图式化”相关联的一词多义、隐喻和象征等，则难以识别并加以恰当的表达。这就如同心灵哲学家杰克森所提出的思想实验“黑白玛丽屋”中可怜的玛丽小姐一样，虽然对各种抽象的颜色知识了如指掌，但由于缺乏对于颜色的“图式知识”，即无法将先验符号和个体具身经验相对应，也就无法在任何实践活动中灵活自如地“行事”和“取效”。

这里涉及的问题在于：我们究竟是基于“上帝视角”，还是基于“凡人视角”来看待语言与世界的关系，即语言表征的究竟是先验的外部世界，还是说话者的内部世界？换言之，人工智能语言模型所储存的关于外部世界的知识究竟是“先验的”“不可更改的”，还是时时“更新、生长、创造的”？如果是前者，也就意味着停止语料喂养之时，就是AI“躺平”和停摆之时。

而这事实上也构成对于约翰·赛尔的“中文屋论证”的有力反驳：这个能够穷尽所有的汉语语法规则和表达方式的规则书有被写出来的可能吗？即使答案是肯定的，如前所述，人工智能语言模型也只能勉强应对特定范围内和被高度定义化的聊天话题。对于缺乏明晰定义和不按套路出牌的“超纲”话题，人工智能语言模型显然是捉襟见肘无法灵活应对的。

　　因此，与其说通过对于既定和既有表达方式的模仿，从而接连催生出“特设”和“特定”的语言模型，不如说通过对于少量的核心规则与核心词汇的掌握，做到以少胜多，以不变应万变。换句话说，与其说从行为主义的角度，关注语料输入与语料输出之间特定关系的建立，不如说从心理功能主义的角度，即将复杂的言语行为视作与人类“意向性活动”相关联的心智结构的“外显”形式。因此，如何基于少量语料而对说话人的心理活动进行反向建模，即“通过部分来认知”，这是我们亟需思考的问题。而说到底，对于心理建模最终还是要落实和延展到身体建模层面，即心理认知架构理论最终还是要被“具身化”“图式化”和“算法化”。

　　需要指出的是，即使心理认知架构理论实现了“具身化”“图式化”和“算法化”，也不能据此得出人工智能语言模型具有情感的判断或结论。与其说人工智能语言模型自身生成和具有情绪，不如说是让其通过“计算”得以鉴别或“算计”人类的情绪。但即便如此的人工智能语言模型，也很难与人类产生真正的“联结”与“共情”。原因在于，没有繁殖需要的人工智能语言模型原则上不能理解人类基于“基因撒播”的需要而产生的种种与“爱”有关的情绪，同时，由于其本身没有严格意义上的生老病死，而最多只有“推陈出新”，因此对于人类基于死亡恐惧而产生的对种种人生愿景的构建也就难以产生真正的“同情心”和“同理心”。“爱”与“死”是文学永恒的主题，但对于人工智能语言模型而言，与其说“爱”与“死”源于一种动态的体验，不如说其是静态的能指符号。而文学沦为空洞的能指符号之时，既是文学的狂欢之巅，又是文学的悲哀之时。

《社会科学报》总第1915期5版