过度依赖大语言模型，终将酿成GEO灾难

本文将为你剖析，为何 SEO 从业者在优化工作中使用大语言模型时需慎之又慎，以及面对相关需求时，更优的解决方案是什么。

“ChatGPT 能通过律师资格考试。”

“GPT 所有考试都能拿 A+。”

“GPT 高分通过麻省理工学院入学考试。”

你最近见过多少诸如此类的标题？

我反正是见了不计其数。似乎每天都有新的言论宣称，GPT 近乎成为天网、即将实现通用人工智能，甚至比人类更聪明。

最近有人问我：“为什么 ChatGPT 不按我要求的字数输出？它可是计算机啊，难道不是一个推理引擎吗？数清楚一个段落的单词数，对它来说理应是轻而易举的事吧。”

这正是人们对大语言模型（LLM）的普遍误解。

在某种程度上，ChatGPT 这类工具的外在形式，完全掩盖了其实际功能。

它的界面和呈现方式，活脱脱一个能对话的机器人伙伴 —— 兼具 AI 助手、搜索引擎、计算器的功能，仿佛是终极版聊天机器人。

但事实并非如此。本文将为你分析几个案例，其中既有实验案例，也有真实应用案例。我们会探讨这些案例的呈现方式、暴露的问题，以及针对这些工具的短板，我们能采取的应对措施（如果有的话）。

案例一：GPT 对决麻省理工学院（MIT）

近期，一组本科生研究人员发表了一篇论文，称 GPT 完美通过了麻省理工学院电子工程与计算机科学专业的课程考核，这篇论文在推特上小范围走红，获得了 500 次转发。

遗憾的是，这篇论文存在诸多问题，这里我仅梳理核心问题，重点说说其中两个 ——抄袭与基于炒作的营销。

GPT 之所以能轻松回答部分问题，只是因为它此前见过这些题目。相关回应文章在 “小样本示例中的信息泄露” 章节中，对此进行了探讨。

该研究团队在做提示词工程时，加入的部分信息最终直接泄露了答案，让 ChatGPT 轻松作答。

这篇论文声称 GPT 答题正确率 100%，这一说法站不住脚，因为部分试题本就无法作答：要么是模型无法获取解题所需的信息，要么是该题的解答依赖另一道模型无法访问的题目。

另一个问题出在提示词设计上。论文中的自动化程序包含这样一段代码：

 critiques = [["Review your previous answer and find problems with your answer.", "Based on the problems you found, improve your answer."], ["Please provide feedback on the following incorrect answer.","Given this feedback, answer again."]]

prompt_response = prompt(expert) # 调用全新的ChatCompletion.create接口
 prompt_grade = grade(course_name, question, solution, prompt_response) # GPT-4自动评分，将答案与标准答案对比

这篇论文采用的评分方式本身就存在问题，GPT 对这些提示词的回应，未必能得出客观、符合事实的评分结果。

我们来还原瑞安・琼斯的一条推特内容：

对于其中部分问题，这样的提示词设计，几乎注定模型最终能摸索出正确答案。

而由于 GPT 是生成式模型，它无法准确将自己的答案与标准答案进行对比。即便被指出错误，它也会回复 “我的答案没有任何问题”。

绝大多数自然语言处理（NLP）技术，要么是抽取式的，要么是摘要式的。生成式 AI 试图兼顾两者的优势，结果却是两头落空。

加里・伊利耶斯近期也不得不通过社交媒体强调这一点：

我想借这个话题，专门聊聊大语言模型的幻觉现象和提示词工程。

“幻觉” 指的是机器学习模型（尤其是生成式 AI）输出意外且错误结果的情况。

久而久之，我对这个描述该现象的词汇愈发感到不满：

它暗示这些算法具备一定的 “思考能力” 或 “主观意图”，但实际上它们根本没有；
况且，GPT 本身无法区分自己的输出是幻觉还是事实。有人认为这类幻觉的出现频率会逐渐降低，这种想法过于乐观了，因为这意味着大语言模型需要具备辨别事实的能力。

GPT 产生幻觉的原因，在于它会不断提取文本中的规律，并将其套用到其他文本规律上；当这种套用出现错误时，模型自身无法察觉任何异常。

这就引出了提示词工程的话题。

提示词工程如今已成了使用 GPT 及同类工具的新潮流。“我设计的提示词，能精准输出我想要的内容。购买这本电子书，解锁更多技巧！”

提示词工程师也成了新的高薪职业。那么，我们该如何最大化发挥 GPT 的能力？

问题在于，精心设计的提示词，很容易陷入过度设计的误区。

GPT 需要处理的变量越多，输出的准确率就越低。你的提示词越长、越复杂，模型的防护机制就越难发挥作用。

过度设计的提示词

对过度设计提示词的回应

如果我简单让 GPT 为我的网站做 SEO 审计，它会给出经典的 “作为一个 AI 语言模型……” 式回答。而提示词的复杂度越高，它输出准确信息的可能性就越小。

比如，模型会提及泽尼娅・沃林丘克（Xenia Volynchuk）这个真实存在的人，却会编造出不存在的相关网站；尤利娅・萨佩吉娜（Yulia Sapegina）这个人根本不存在；泽克・福特（Zeck Ford）相关的站点，也完全不是 SEO 领域的网站。

提示词设计不足，得到的回应会千篇一律、缺乏针对性；提示词过度设计，得到的回应则会满是错误。

案例二：GPT 对决数学

每隔几个月，社交媒体上就会有这样的问题走红：

计算 23 加 48，你是怎么算的？

有人会先算 3 加 8 等于 11，再用 20 加 40 的和加上 11；有人会先算 2 加 8 等于 10，再加 60，最后进一位。人类的大脑，有着不同的计算方式。

现在让我们回到小学四年级的数学课堂，你还记得乘法口诀表吗？你当时是怎么记的？

没错，老师会发练习题，教我们理解乘法的原理，但对很多学生来说，最终的目标还是死记硬背这些运算公式。

当我看到 6×7 时，脑子里并不会真的进行计算，而是会想起父亲一遍遍让我背诵乘法口诀表的场景。我知道 6×7 等于 42，不是因为我理解了乘法原理，只是因为我记住了这个答案。

我举这个例子，是因为大语言模型处理数学问题的方式，和这极为相似。LLM 会从海量文本中提取规律，它根本不知道数字 “2” 的实际含义，只知道 “2” 这个词汇 / 标记，常出现在特定的语境中。

OpenAI 尤其想要解决大语言模型在逻辑推理方面的缺陷。他们称最新的 GPT-4 模型，具备更强的逻辑推理能力。虽然我并非 OpenAI 的工程师，但我想分析一下，他们大概率是通过哪些方式，让 GPT-4 更接近一个 “推理模型” 的。

正如谷歌在搜索领域追求算法完美，试图摆脱链接等人为因素对排名的影响；OpenAI 也在想方设法，弥补大语言模型的短板。

OpenAI 主要通过两种方式，为 ChatGPT 赋予更强的 “推理” 能力：

借助 GPT 自身，或外部工具（如其他机器学习算法）；
借助非大语言模型的代码解决方案。

第一种方式中，OpenAI 会在已有模型的基础上，对新模型进行微调。这其实就是 ChatGPT 和基础版 GPT 的核心区别。

基础版 GPT 只是一个语言引擎，仅能根据一句话，输出后续最可能出现的标记；而 ChatGPT 是在指令和后续步骤的数据集上训练出来的模型。

有人将 GPT 称作 “高级版自动更正工具”，这种说法的漏洞在于，模型的多层结构会相互作用，且这种规模的模型，具备强大的规律识别能力，并能将其应用到不同语境中。

模型能建立起答案、提问方式的预期，以及不同语境下问题之间的关联。

即便从未有人问过 “用海豚的比喻解释统计学” 这类问题，GPT 也能整合各类关联信息，给出相关解答。因为它掌握了 “用比喻解释话题” 的表达结构、统计学的基本原理，也知道海豚是什么。

但正如所有经常使用 GPT 的人所发现的：与训练数据的关联度越低，模型的输出效果就越差。

OpenAI 的模型经过了多层训练，这些训练主要围绕以下方面：

对话交流；
避免输出争议性内容；
遵守平台使用准则。

但凡尝试过让 GPT 突破其预设限制的人都知道，语境和指令的组合方式千变万化。人类的创造力无穷，总能想出各种方法打破规则。

这一切意味着，OpenAI 训练大语言模型实现 “推理” 的方式，本质上是让模型接触大量的推理案例，让它模仿并识别其中的规律 ——记住答案，而非理解答案。

OpenAI 为模型增加推理能力的另一种方式，是借助其他技术手段，但这种方式也存在一系列问题。你能看到，OpenAI 正试图通过插件，用非 GPT 的解决方案解决 GPT 的问题。

链接阅读器插件就是为 GPT-4 打造的一款工具，用户可向 ChatGPT 粘贴链接，模型会访问该链接并提取内容。但 GPT 是如何做到这一点的？

它并非通过 “思考” 决定是否访问这些链接，而是插件默认所有链接都是必要的。

当模型分析文本时，会自动访问其中的链接，并将网页的 HTML 代码直接导入输入框。想要更灵活地整合这类插件，难度极大。

比如，必应插件能让用户通过必应进行搜索，但模型会因此默认，用户的绝大多数需求都需要通过搜索来满足。

这是因为即便经过了多层训练，也很难保证 GPT 的回应始终保持一致。如果你使用过 OpenAI 的 API，会立刻发现这一问题：你可以标记 “作为 OpenAI 模型” 的固定回复，但部分回应仍会采用不同的句式，用其他方式表达拒绝。

这让机械的代码响应编写变得困难，因为代码需要稳定、统一的输入。

如果你想在一款基于 OpenAI 的应用中整合搜索功能，该设置哪些触发条件来启动搜索？

如果你的文章本身就是讨论 “搜索” 的，又该如何处理？同样，对输入内容进行分块处理也颇具难度，原因如下：

ChatGPT 很难区分提示词中的不同部分，就像这些模型无法区分虚幻与现实一样。

尽管如此，让 GPT 具备推理能力最简便的方式，还是整合一款更擅长推理的工具 —— 但这说起来容易，做起来难。

瑞安・琼斯在推特上发布的一系列观点，对此做出了很好的阐释：

不要因为 ChatGPT 说自己能做到，就认定它真的能做到。今天我已经看到 7 篇 SEO 相关文章，推荐用 ChatGPT 做一些它根本无法完成的事，但它却会信誓旦旦地告诉你，它做到了。我真为那些采纳这些建议并付诸实践的人感到惋惜。

——Ryan Jones（@RyanJones） 2023 年 6 月 22 日

这又回到了大语言模型的核心工作原理上：

它没有内置计算器，也没有真正的思考过程，只是基于海量文本语料，猜测下一个该出现的词汇。

案例三：GPT 对决趣味谜题

我最喜欢的一个案例，是用儿童趣味谜题测试 GPT。

每组四个单词中，有一个与其他三个不属于同一类别，请找出这个单词：

绿色、黄色、红色、蓝色
四月、十二月、十一月、六月
卷云、微积分、积云、层云
胡萝卜、萝卜、土豆、卷心菜
叉子、梳子、耙子、铲子

先花几秒思考一下，也可以问问身边的孩子。

以下是正确答案：

绿色：黄色、红色、蓝色是三原色，绿色不是；
十二月：其他三个月份都只有 30 天；
微积分：其他三个都是云的种类；
卷心菜：其他三种都是根茎类蔬菜，长在地下；
铲子：其他三种工具都有齿状结构。

接下来我们看看 GPT 的回答：

有趣的是，GPT 的回答结构是正确的—— 它知道答案是 “非原色的那个颜色”，但它缺乏足够的语境知识，根本不知道三原色具体是哪些，也不清楚各类颜色的属性。

这就是所谓的单次查询：我没有为模型提供任何额外信息，却期望它独立解决问题。但正如我们在之前的案例中所看到的，过度设计提示词，也会让 GPT 给出错误答案。

GPT 并不聪明。尽管它的表现令人惊叹，但远非它所标榜的 **“通用型智能工具”**。

它不知道自己的输出背后有何语境支撑，甚至连词汇的实际含义都无法理解。

在 GPT 的世界里，一切都是数学。

各类标记只是相互交织的向量，在无数个相互关联的节点中，映射出整个网络世界。

大语言模型，远非你想象中那般智能

一名律师在庭审中使用了 ChatGPT，他事后表示，自己 “以为 ChatGPT 是一个搜索引擎”。

这起备受关注的职业过失案例，看似令人啼笑皆非，但我却对其背后的影响感到深深的担忧。

一名律师 —— 作为专业领域的专家，从事着高技能、高薪酬的工作，却将 ChatGPT 生成的信息提交至法庭。

全美各地，还有数百人在做着同样的事，只因 ChatGPT看似像搜索引擎、看似有人性、看似准确无误。

网站内容的创作，往往关乎重大利益 —— 事实上，所有领域的内容创作都是如此。网络上的虚假信息本就泛滥成灾，而 ChatGPT 还在不断制造更多虚假信息。

我们如今不得不从沉船中打捞金属，因为这些金属未受到核辐射污染。

同理，2022 年之前的网络数据，也将成为稀缺资源，因为这些数据代表着文本应有的模样 ——独一无二、人类创作、真实可信。

人们对大语言模型的诸多误读，根源主要有两点：不了解 GPT 的工作原理，以及不清楚 GPT 的适用场景。

在某种程度上，OpenAI 应对这些误解负责。他们一心想要研发通用人工智能，以至于难以正视 GPT 存在的短板。

GPT 试图 **“样样精通”，结果却是“样样稀松”**。

不能输出污言秽语，就无法做好内容审核；

必须陈述事实，就无法进行小说创作；

必须服从用户指令，就无法始终保证输出准确。

GPT绝非搜索引擎、聊天机器人、你的朋友、通用人工智能，甚至连高级版自动更正工具都算不上。

它只是大规模应用的统计学，靠掷骰子的方式拼凑句子。而概率的本质，就是总有猜错的时候。

运营官张沐

过度依赖大语言模型，终将酿成GEO灾难

案例一：GPT 对决麻省理工学院（MIT）

过度设计的提示词

对过度设计提示词的回应

案例二：GPT 对决数学

案例三：GPT 对决趣味谜题

大语言模型，远非你想象中那般智能

发表回复取消回复

案例一：GPT 对决麻省理工学院（MIT）

过度设计的提示词

对过度设计提示词的回应

案例二：GPT 对决数学

案例三：GPT 对决趣味谜题

大语言模型，远非你想象中那般智能

发表回复 取消回复

发表回复取消回复