过度依赖大语言模型,终将酿成GEO灾难

本文将为你剖析,为何 SEO 从业者在优化工作中使用大语言模型时需慎之又慎,以及面对相关需求时,更优的解决方案是什么。

“ChatGPT 能通过律师资格考试。”

“GPT 所有考试都能拿 A+。”

“GPT 高分通过麻省理工学院入学考试。”

你最近见过多少诸如此类的标题?

我反正是见了不计其数。似乎每天都有新的言论宣称,GPT 近乎成为天网、即将实现通用人工智能,甚至比人类更聪明。

最近有人问我:“为什么 ChatGPT 不按我要求的字数输出?它可是计算机啊,难道不是一个推理引擎吗?数清楚一个段落的单词数,对它来说理应是轻而易举的事吧。”

这正是人们对大语言模型(LLM)的普遍误解。

在某种程度上,ChatGPT 这类工具的外在形式,完全掩盖了其实际功能。

它的界面和呈现方式,活脱脱一个能对话的机器人伙伴 —— 兼具 AI 助手、搜索引擎、计算器的功能,仿佛是终极版聊天机器人。

但事实并非如此。本文将为你分析几个案例,其中既有实验案例,也有真实应用案例。我们会探讨这些案例的呈现方式、暴露的问题,以及针对这些工具的短板,我们能采取的应对措施(如果有的话)。

案例一:GPT 对决麻省理工学院(MIT)

近期,一组本科生研究人员发表了一篇论文,称 GPT 完美通过了麻省理工学院电子工程与计算机科学专业的课程考核,这篇论文在推特上小范围走红,获得了 500 次转发。

遗憾的是,这篇论文存在诸多问题,这里我仅梳理核心问题,重点说说其中两个 ——抄袭基于炒作的营销

GPT 之所以能轻松回答部分问题,只是因为它此前见过这些题目。相关回应文章在 “小样本示例中的信息泄露” 章节中,对此进行了探讨。

该研究团队在做提示词工程时,加入的部分信息最终直接泄露了答案,让 ChatGPT 轻松作答。

这篇论文声称 GPT 答题正确率 100%,这一说法站不住脚,因为部分试题本就无法作答:要么是模型无法获取解题所需的信息,要么是该题的解答依赖另一道模型无法访问的题目。

另一个问题出在提示词设计上。论文中的自动化程序包含这样一段代码:

 critiques = [["Review your previous answer and find problems with your answer.", "Based on the problems you found, improve your answer."], ["Please provide feedback on the following incorrect answer.","Given this feedback, answer again."]]


prompt_response = prompt(expert) # 调用全新的ChatCompletion.create接口
 prompt_grade = grade(course_name, question, solution, prompt_response) # GPT-4自动评分,将答案与标准答案对比

这篇论文采用的评分方式本身就存在问题,GPT 对这些提示词的回应,未必能得出客观、符合事实的评分结果。

我们来还原瑞安・琼斯的一条推特内容:

对于其中部分问题,这样的提示词设计,几乎注定模型最终能摸索出正确答案。

而由于 GPT 是生成式模型,它无法准确将自己的答案与标准答案进行对比。即便被指出错误,它也会回复 “我的答案没有任何问题”。

绝大多数自然语言处理(NLP)技术,要么是抽取式的,要么是摘要式的。生成式 AI 试图兼顾两者的优势,结果却是两头落空

加里・伊利耶斯近期也不得不通过社交媒体强调这一点:

我想借这个话题,专门聊聊大语言模型的幻觉现象提示词工程

“幻觉” 指的是机器学习模型(尤其是生成式 AI)输出意外且错误结果的情况。

久而久之,我对这个描述该现象的词汇愈发感到不满:

  1. 它暗示这些算法具备一定的 “思考能力” 或 “主观意图”,但实际上它们根本没有;
  2. 况且,GPT 本身无法区分自己的输出是幻觉还是事实。有人认为这类幻觉的出现频率会逐渐降低,这种想法过于乐观了,因为这意味着大语言模型需要具备辨别事实的能力。

GPT 产生幻觉的原因,在于它会不断提取文本中的规律,并将其套用到其他文本规律上;当这种套用出现错误时,模型自身无法察觉任何异常。

这就引出了提示词工程的话题。

提示词工程如今已成了使用 GPT 及同类工具的新潮流。“我设计的提示词,能精准输出我想要的内容。购买这本电子书,解锁更多技巧!”

提示词工程师也成了新的高薪职业。那么,我们该如何最大化发挥 GPT 的能力?

问题在于,精心设计的提示词,很容易陷入过度设计的误区。

GPT 需要处理的变量越多,输出的准确率就越低。你的提示词越长、越复杂,模型的防护机制就越难发挥作用。

过度设计的提示词

对过度设计提示词的回应

如果我简单让 GPT 为我的网站做 SEO 审计,它会给出经典的 “作为一个 AI 语言模型……” 式回答。而提示词的复杂度越高,它输出准确信息的可能性就越小。

比如,模型会提及泽尼娅・沃林丘克(Xenia Volynchuk)这个真实存在的人,却会编造出不存在的相关网站;尤利娅・萨佩吉娜(Yulia Sapegina)这个人根本不存在;泽克・福特(Zeck Ford)相关的站点,也完全不是 SEO 领域的网站。

提示词设计不足,得到的回应会千篇一律、缺乏针对性;提示词过度设计,得到的回应则会满是错误。

案例二:GPT 对决数学

每隔几个月,社交媒体上就会有这样的问题走红:

计算 23 加 48,你是怎么算的?

有人会先算 3 加 8 等于 11,再用 20 加 40 的和加上 11;有人会先算 2 加 8 等于 10,再加 60,最后进一位。人类的大脑,有着不同的计算方式。

现在让我们回到小学四年级的数学课堂,你还记得乘法口诀表吗?你当时是怎么记的?

没错,老师会发练习题,教我们理解乘法的原理,但对很多学生来说,最终的目标还是死记硬背这些运算公式。

当我看到 6×7 时,脑子里并不会真的进行计算,而是会想起父亲一遍遍让我背诵乘法口诀表的场景。我知道 6×7 等于 42,不是因为我理解了乘法原理,只是因为我记住了这个答案。

我举这个例子,是因为大语言模型处理数学问题的方式,和这极为相似。LLM 会从海量文本中提取规律,它根本不知道数字 “2” 的实际含义,只知道 “2” 这个词汇 / 标记,常出现在特定的语境中。

OpenAI 尤其想要解决大语言模型在逻辑推理方面的缺陷。他们称最新的 GPT-4 模型,具备更强的逻辑推理能力。虽然我并非 OpenAI 的工程师,但我想分析一下,他们大概率是通过哪些方式,让 GPT-4 更接近一个 “推理模型” 的。

正如谷歌在搜索领域追求算法完美,试图摆脱链接等人为因素对排名的影响;OpenAI 也在想方设法,弥补大语言模型的短板。

OpenAI 主要通过两种方式,为 ChatGPT 赋予更强的 “推理” 能力:

  1. 借助 GPT 自身,或外部工具(如其他机器学习算法);
  2. 借助非大语言模型的代码解决方案。

第一种方式中,OpenAI 会在已有模型的基础上,对新模型进行微调。这其实就是 ChatGPT 和基础版 GPT 的核心区别。

基础版 GPT 只是一个语言引擎,仅能根据一句话,输出后续最可能出现的标记;而 ChatGPT 是在指令和后续步骤的数据集上训练出来的模型。

有人将 GPT 称作 “高级版自动更正工具”,这种说法的漏洞在于,模型的多层结构会相互作用,且这种规模的模型,具备强大的规律识别能力,并能将其应用到不同语境中。

模型能建立起答案、提问方式的预期,以及不同语境下问题之间的关联。

即便从未有人问过 “用海豚的比喻解释统计学” 这类问题,GPT 也能整合各类关联信息,给出相关解答。因为它掌握了 “用比喻解释话题” 的表达结构、统计学的基本原理,也知道海豚是什么。

但正如所有经常使用 GPT 的人所发现的:与训练数据的关联度越低,模型的输出效果就越差

OpenAI 的模型经过了多层训练,这些训练主要围绕以下方面:

  • 对话交流;
  • 避免输出争议性内容;
  • 遵守平台使用准则。

但凡尝试过让 GPT 突破其预设限制的人都知道,语境和指令的组合方式千变万化。人类的创造力无穷,总能想出各种方法打破规则。

这一切意味着,OpenAI 训练大语言模型实现 “推理” 的方式,本质上是让模型接触大量的推理案例,让它模仿并识别其中的规律 ——记住答案,而非理解答案

OpenAI 为模型增加推理能力的另一种方式,是借助其他技术手段,但这种方式也存在一系列问题。你能看到,OpenAI 正试图通过插件,用非 GPT 的解决方案解决 GPT 的问题。

链接阅读器插件就是为 GPT-4 打造的一款工具,用户可向 ChatGPT 粘贴链接,模型会访问该链接并提取内容。但 GPT 是如何做到这一点的?

它并非通过 “思考” 决定是否访问这些链接,而是插件默认所有链接都是必要的

当模型分析文本时,会自动访问其中的链接,并将网页的 HTML 代码直接导入输入框。想要更灵活地整合这类插件,难度极大。

比如,必应插件能让用户通过必应进行搜索,但模型会因此默认,用户的绝大多数需求都需要通过搜索来满足。

这是因为即便经过了多层训练,也很难保证 GPT 的回应始终保持一致。如果你使用过 OpenAI 的 API,会立刻发现这一问题:你可以标记 “作为 OpenAI 模型” 的固定回复,但部分回应仍会采用不同的句式,用其他方式表达拒绝。

这让机械的代码响应编写变得困难,因为代码需要稳定、统一的输入。

如果你想在一款基于 OpenAI 的应用中整合搜索功能,该设置哪些触发条件来启动搜索?

如果你的文章本身就是讨论 “搜索” 的,又该如何处理?同样,对输入内容进行分块处理也颇具难度,原因如下:

ChatGPT 很难区分提示词中的不同部分,就像这些模型无法区分虚幻与现实一样。

尽管如此,让 GPT 具备推理能力最简便的方式,还是整合一款更擅长推理的工具 —— 但这说起来容易,做起来难。

瑞安・琼斯在推特上发布的一系列观点,对此做出了很好的阐释:

不要因为 ChatGPT 说自己能做到,就认定它真的能做到。今天我已经看到 7 篇 SEO 相关文章,推荐用 ChatGPT 做一些它根本无法完成的事,但它却会信誓旦旦地告诉你,它做到了。我真为那些采纳这些建议并付诸实践的人感到惋惜。

——Ryan Jones(@RyanJones) 2023 年 6 月 22 日

这又回到了大语言模型的核心工作原理上:

它没有内置计算器,也没有真正的思考过程,只是基于海量文本语料,猜测下一个该出现的词汇

案例三:GPT 对决趣味谜题

我最喜欢的一个案例,是用儿童趣味谜题测试 GPT。

每组四个单词中,有一个与其他三个不属于同一类别,请找出这个单词:

  1. 绿色、黄色、红色、蓝色
  2. 四月、十二月、十一月、六月
  3. 卷云、微积分、积云、层云
  4. 胡萝卜、萝卜、土豆、卷心菜
  5. 叉子、梳子、耙子、铲子

先花几秒思考一下,也可以问问身边的孩子。

以下是正确答案:

  1. 绿色:黄色、红色、蓝色是三原色,绿色不是;
  2. 十二月:其他三个月份都只有 30 天;
  3. 微积分:其他三个都是云的种类;
  4. 卷心菜:其他三种都是根茎类蔬菜,长在地下;
  5. 铲子:其他三种工具都有齿状结构。

接下来我们看看 GPT 的回答:

有趣的是,GPT 的回答结构是正确的—— 它知道答案是 “非原色的那个颜色”,但它缺乏足够的语境知识,根本不知道三原色具体是哪些,也不清楚各类颜色的属性。

这就是所谓的单次查询:我没有为模型提供任何额外信息,却期望它独立解决问题。但正如我们在之前的案例中所看到的,过度设计提示词,也会让 GPT 给出错误答案。

GPT 并不聪明。尽管它的表现令人惊叹,但远非它所标榜的 **“通用型智能工具”**。

它不知道自己的输出背后有何语境支撑,甚至连词汇的实际含义都无法理解。

在 GPT 的世界里,一切都是数学。

各类标记只是相互交织的向量,在无数个相互关联的节点中,映射出整个网络世界。

大语言模型,远非你想象中那般智能

一名律师在庭审中使用了 ChatGPT,他事后表示,自己 “以为 ChatGPT 是一个搜索引擎”。

这起备受关注的职业过失案例,看似令人啼笑皆非,但我却对其背后的影响感到深深的担忧。

一名律师 —— 作为专业领域的专家,从事着高技能、高薪酬的工作,却将 ChatGPT 生成的信息提交至法庭。

全美各地,还有数百人在做着同样的事,只因 ChatGPT看似像搜索引擎、看似有人性、看似准确无误

网站内容的创作,往往关乎重大利益 —— 事实上,所有领域的内容创作都是如此。网络上的虚假信息本就泛滥成灾,而 ChatGPT 还在不断制造更多虚假信息。

我们如今不得不从沉船中打捞金属,因为这些金属未受到核辐射污染。

同理,2022 年之前的网络数据,也将成为稀缺资源,因为这些数据代表着文本应有的模样 ——独一无二、人类创作、真实可信

人们对大语言模型的诸多误读,根源主要有两点:不了解 GPT 的工作原理,以及不清楚 GPT 的适用场景

在某种程度上,OpenAI 应对这些误解负责。他们一心想要研发通用人工智能,以至于难以正视 GPT 存在的短板。

GPT 试图 **“样样精通”,结果却是“样样稀松”**。

不能输出污言秽语,就无法做好内容审核;

必须陈述事实,就无法进行小说创作;

必须服从用户指令,就无法始终保证输出准确。

GPT绝非搜索引擎、聊天机器人、你的朋友、通用人工智能,甚至连高级版自动更正工具都算不上。

它只是大规模应用的统计学,靠掷骰子的方式拼凑句子。而概率的本质,就是总有猜错的时候。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注