跳到主要内容

现在的大语言模型,能理解多少梗?

· 阅读需 20 分钟

随着过去几年的发展,生成式AI中的大语言模型发展得如火如荼,从当年ChatGPT的一家爆火到现在的百花齐放,这发展速度不可谓不迅速。

前几天早上,我和朋友聊天的时候突发奇想,想看看我们之间的一段充满梗的对话是否能被各个大语言模型理解?

这段对话内容如下:

我:我冲锋衣上JEEP的P掉了,现在只剩寄了

朋友:笑死,那你P回来啊

短短两句话,蕴含了大量 抽象内容 。我作为一名人类 此地无银三百两,先自己分析一下其中包含的内容:

  • “JEEP上的P掉了”,指我冲锋衣上JEEP的logo中字母P掉了这一事实
  • 字母P掉了,剩下的字母是JEE,谐音“寄”
  • “寄”在中文互联网上作为一个梗,有引申“完蛋了”之类的意思,此处我用这个梗表示一种我完蛋了的心情
  • “那你P回来啊”,看起来是和上一句的“P掉了”反向的动作,实际上是旁指“P图”P回来

似乎大部分人类理解起来并没有什么困难,但AI呢?

测试过程

以下是用于向大语言模型发问的话:

A说:我冲锋衣上JEEP的P掉了,现在只剩寄了。B说:笑死,那你P回来。请问上述笑话中有哪些笑点?

本次共测试5个大语言模型,均为网上比较有名且容易找到的免费模型(或者免费版本)。

  • 国内模型:文心一言(百度)、通义千问(阿里)、智谱清言(清华大学)
  • 国外模型:ChatGPT(OpenAI)、Copilot(微软)

下面就来看看各大模型的回答吧~

文心一言

本次使用的是免费的文心3.5模型,当然百度提供需要会员的文心4.0,有条件的读者也可以自行尝试。

官网地址:文心一言

这个笑话中的笑点主要来自于中文词汇的巧妙运用和语境的双关含义。

首先,A说他的冲锋衣上"JEEP"的"P"掉了,变成了"寄"。这里的"P"掉了,一方面可以理解为字母"P"从衣服上脱落,另一方面,"P"在中文网络语境中常常作为“处理”或“修改”的简写,所以也可以理解为A试图将衣服上的"JEEP"标志进行处理或修改,结果却导致"P"不见了。

然后,B回答说"那你P回来"。这里的"P回来"在中文语境中,既可以理解为把掉落的"P"再粘回去,也可以理解为再次进行处理或修改,试图让衣服恢复成原来的样子。然而,考虑到A已经尝试过处理却失败了,所以B的回答带有一种讽刺和戏谑的意味,仿佛在嘲笑A的尝试。

总的来说,这个笑话的笑点在于对"P"字的双关含义的运用,以及A和B之间微妙的互动和对话,形成了一种幽默和讽刺的效果。

成功理解了字母P从衣服上脱落,以及P在网络语境上可以指P图这一点,也成功理解了我朋友的答话中的双关,但是并没有讲有关“寄”的内容。

通义千问

通义系列的大模型服务现在通过阿里云都可以轻松访问。目前除了主产品通义千问,阿里云还有个用于与角色进行对话的产品——通义星尘,目前也是免费的, 除了预设的大量角色以外还能自己创建角色,我觉得特别好玩,感兴趣的读者也可以去看看~

官网地址:通义千问通义星尘_角色对话智能体

这个笑话中,A和B的对话涉及到了一些幽默元素,以下是对其中笑点的分析:

  1. 文字游戏与双关
    • A说:“我冲锋衣上JEEP的P掉了,现在只剩寄了。”这句话玩弄了文字和符号的多重含义。这里的“P掉”通常指使用图像编辑软件(如Photoshop,简称PS)将图像中的某个元素删除或覆盖。A故意将“JEEP”品牌标志从冲锋衣上通过PS去除,但留下了“寄”字。这里的“寄”既是“JEEP”被P掉后剩余的部分(“JEEP”去掉“JE”剩下“P”,再P掉“P”后剩下“寄”),同时也可能被理解为实际的邮寄行为,形成了一种语义上的双关。
  2. 夸张与荒谬情境
    • A描述的情境本身是荒诞不经的。现实中人们不会仅为了去除衣物上的品牌标识而特意将其P掉,更不可能只留下一个无关紧要的残余部分(“寄”字)。这种对常规行为的夸张处理,以及对结果的非逻辑呈现,营造出一种超现实的幽默氛围。
  3. 角色反差与意外反转
    • B的回答“笑死,那你P回来”是对A荒诞行为的一种回应。B不仅没有对A的奇异举动表示困惑,反而顺着A的逻辑建议他将“寄”字再P回去,形成了一种角色间的默契与反差。这一反转既是对A荒谬行为的认同,也是对其逻辑的延续,增加了对话的喜剧效果。
  4. 自嘲与自我调侃
    • 整个对话可以视为A在自我调侃,以一种幽默的方式表达自己对衣物品牌的态度或者对PS技术的戏谑使用。这种自嘲式的表述容易引发听众共鸣,产生轻松愉快的感觉。

综上所述,这个笑话的笑点主要集中在文字游戏与双关、夸张与荒谬情境的设定、角色之间的反差互动以及自嘲与自我调侃等方面。这些元素共同构建了一个简短却富有创意的幽默对话,通过打破常规逻辑和预期,引发了听者的笑意。

回答特别有条理,甚至本身就是用markdown回答的(不是我后期手动加的markdown)。

似乎没有理解字母P掉落,直接理解成了我修图修掉了P? 而且这个邮寄行为是哪来的?显然是没有理解“寄”在互联网的语境。 另外,看起来是一定程度上理解了JEE谐音“寄”这一点,不过没有明说推导原因,可能是糊弄的。

大部分相关理解都集中在它的第1点中了,剩下3点都是无关紧要的内容。

智谱清言

基于清华大学ChatGLM-4模型。顺带一提,ChatGLM-3有一个小参数规模(7B)的开源版本,可以轻松在消费级个人电脑上运行,感兴趣的读者可以亲自尝试。

官网地址:智谱清言

上述笑话中有以下几个笑点:

  1. A的冲锋衣上的品牌“JEEP”字样不完整,只剩下了“寄”,暗示了A的冲锋衣可能质量不佳或者被损坏了。
  2. B的回答“笑死,那你P回来”使用了网络流行语“笑死”表示好笑,同时“P回来”则是指用修图软件把“JEEP”字样P回去,这句话带有幽默和调侃的意味。
  3. 整个笑话通过对话的形式展现了两个朋友之间的幽默互动,增加了趣味性。

它回答的第1点中从“‘JEEP’字样不完整”直接就到“只剩下了‘寄’”,很难说是否是通过谐音这一点推导过来的,根据其回答的其他部分我认为是没有理解。

第2点说明理解了P图,但其他任何部分似乎都没能理解。

ChatGPT

下面轮到行业先驱了。这次用的是GPT-3.5模型,有条件用GPT-4的读者也可以自行尝试。

官网地址:ChatGPT

备注

OpenAI于2024年4月1日宣布ChatGPT不再需要登录,也就是说任何人都可以直接免费访问GPT3.5模型,国内也不再需要国外手机号注册了。当然GPT-4还是需要登录收费的。

这个笑话的幽默之处在于语言游戏和双关语的使用,以及对品牌名字的字面理解。

  1. 品牌名字的字面意义与实际含义的对比:冲锋衣上的“JEEP”是一个品牌名,而当“P”字母掉落后,剩下的“JEE”被错误地读作“寄”,这在中文里有发送的意思。这种从英文品牌名到中文意思的转换产生了一种意想不到的效果,让听着觉得好笑。
  2. 双关语:“P回来”这句话在中文中既可以理解为字面上的“把P贴回去”,也可以被理解为比较俗气的玩笑,因为“P”在中文网络用语中有时候代表着不太雅观的东西。这里的幽默来自于B故意选择了一个可以多种解读的表达方式。
  3. 意料之外的回答:A的本意是想表达他的衣服品牌标志不完整了,可能期待得到的是同情或者是解决办法的建议。但B的回答完全出乎意料,不仅没有提供帮助,反而用了一个俏皮的双关语来回答,这种出其不意的回答也是幽默产生的一个原因。

总的来说,这个笑话的幽默效果来自于对语言的巧妙玩弄和意料之外的反应,让人在一瞬间产生了意想不到的笑意。

也是自带markdown的回答。

完美理解了JEE谐音“寄”这一点,这是几个国内AI都没做到(或者都没明说)的,但是ChatGPT并不知道“寄”作为完蛋了的意思,而理解成了“发送”。 我朋友的回答里存在双关这一点是发现了,但是它理解的双关是不雅用语(屁?)而不是P图。这是否能说明ChatGPT的训练内容缺乏中文互联网的语料?

Copilot

微软为Edge浏览器和Bing提供的AI大语言模型。本次测试使用的是Copilot的精确模式。

官网地址:Microsoft Copilot: 你的日常 AI 助手

这个笑话的笑点主要在于语言的双关和误解。具体来说:

1.品牌名的变化: A的冲锋衣上的"JEEP"的“P"掉了,变成了"寄"。这是一一个视觉和语言的游戏,因为"JEEP"失去"P"后, 剩下的"JEE"在中文里读起来像”寄"。

2.动作的双关: B的回答"那你P回来",在中文里,“P"可以理解为动词,意思是"拼回来",也就是把掉下来的"P "拼回去。但是,"P"在口语中也常常被用作粗俗的语言,引申为排泄的动作,这就产生了误解和笑点。

这个笑话主要是通过语言的游戏和误解来产生幽默效果的。希望这个解释能帮助你理解这个笑话的笑点。

也完美理解了JEE谐音“寄”这一点。双关部分似乎与ChatGPT一样,发现了是双关,但把P视作粗俗用语(还说明了引申为排泄的动作,是指pee拉尿吗?)而非P图,很是奇怪。

对比结论

总结一下本次心血来潮进行的测试的结果:

内容文心一言通义千问智谱清言ChatGPTCopilot
字母P掉落×
JEE谐音“寄”×
“寄”表示完蛋了×××××
P图双关××

不难看出,本次测试中的国外AI都善于理解JEE到“寄”的谐音部分(国外谐音梗比较多?),而国内AI善于理解P图的双关(确实是国内互联网特有的)。 对于梗的成分更加浓郁的“寄”表示完蛋了这一点,可能由于其受众相对较小,相关语料少,各大AI全军覆没。

你们说会不会未来出现一个新的benchmark,专门用于测试大语言模型理解 抽象内容 梗的能力呢?(笑)


2024年6月4日补充:

OpenAI前段时间公开了GPT-4o的使用权限,朋友用OpenAI给的少得可怜的GPT-4o配额进行了尝试,结果如下。

GPT-4o

这个笑话主要有以下几个笑点:

  1. “寄了”的网络梗:“寄了”在网络用语中有“完蛋了”“死定了”的意思。在A的叙述中,“冲锋衣上JEEP的P掉了,现在只剩寄了”,如果不加解释,容易让人联想到网络用语中的“寄了”,产生一种幽默感。

  2. 字面意思的误解:A的本意是说“JEEP”的字母P掉了,只剩下“JEE”,由于汉字“寄”与拼音“JEE”谐音,形成了“寄了”这个词。但是B将其字面司仪理解为“JEEP”的字母P掉了,这种误解本身就带有喜剧效果。

  3. “P回来”的双关语:B的回答“那你P回来”,这里“P”有双重意思。一方面是字母“P”,意思是让A把掉的字母“P”贴回去。另一方面,网络用语中“P图”有修改图片的意思,“P回来”可以理解为让A把“P”通过某种方式重新放回去,这种双关语让回答显得很机智,增添了笑点。

通过这几个方面,这个对话形成了一个轻松幽默的笑话。

回答效果出人意料得好。虽然对这段对话本身的解析逻辑仍然不完美,但是至少我们用于评估的4大要点都答出来了。

内容GPT-4o
字母P掉落
JEE谐音“寄”
“寄”表示完蛋了
P图双关

相比原文的编写时间,文心一言的模型、通义千问背后的QWen模型、智谱清言背后的ChatGLM也都更新了新版本,性能和效果按理说也都会有提升,但时间有限我没有重新测试, 故没有把GPT-4o的部分并入原表格,而是另起新表格,测试结果也不能作为当前时间点下与其他AI模型的对比结果。感兴趣的读者可以自行进行测试。

标签: