AI搜索时代:100+个让你彻夜难眠的SEO“灵魂拷问”

AI搜索时代:100+个让你彻夜难眠的SEO“灵魂拷问”已关闭评论

当AI搜索技术席卷而来,我们是否还能用老一套的“移动SEO”或“语音搜索优化”的思路来应对?

作为深耕SEO多年的从业者,我曾以为自己足够了解Google的运作逻辑。然而,深入研究ChatGPT如何选择引文、Perplexity如何对信息源进行排序,以及Google的AI Overviews如何筛选内容后,我发现自己站在了认知的十字路口。

我并非要宣告SEO已死,也不是说一切都翻天覆地。我更想分享那些不断在我脑海中萦绕的问题,这些问题指向了一个可能性:我们面对的或许是全新的信息检索系统,需要一套截然不同的思维模式来应对。

那些挥之不去的问题:

经过数月的分析AI搜索系统、洞察ChatGPT的行为以及逆向工程Perplexity的排名因素,以下这些问题颠覆了我对搜索优化的固有认知:

当数学不再“感性”:

  • 我理解PageRank,我也懂得链接权益。但当我了解到ChatGPT代码中的Reciprocal Rank Fusion (RRF)后,我意识到我并不理解:
    • 为什么RRF在数学上会奖励“平均表现稳定”而非“单次查询的卓越表现”?
    • 在10次查询中都排在第4名,真的比在1次查询中排在第1名更有价值吗?
  • 向量嵌入(Vector Embeddings)是如何以不同于关键词匹配的方式来衡量语义距离的?我们是在优化“意义”还是“词语”?
  • 温度参数(temperature=0.7)为何会导致排名不可复现?我们现在是否需要进行10次以上的测试?
  • 交叉编码器重排器(cross-encoder rerankers)与PageRank相比,是如何评估查询-文档对的?是实时相关性正在取代预先计算的权威性吗?

这些问题本身就是SEO概念,但它们似乎蕴含在大型语言模型(LLMs)完全不同的数学框架中。或者,它们其实殊途同归?

当“规模”变得不可能:

Google索引了数万亿的页面,而ChatGPT的检索量仅为38-65条。这绝非微小的差异,而是高达99.999%的缩减,由此引出了让我深思的问题:

  • LLMs为何只检索38-65条结果,而Google却索引了数十亿页面?这只是暂时的,还是本质上的区别?
  • Token限制如何设定了传统搜索中不存在的严格边界?搜索结果何时开始有了大小限制?
  • RRF中的k=60常数如何创造了可见性的数学天花板?排在第61位是否就是新的“第二页”?

或许这些仅仅是当前的局限。但它们是否代表了一种不同的信息检索范式?

101个让我夜不能寐的问题:

  • OpenAI是否也使用点击率(CTR)来评估引文排名?
  • AI是否像Google一样阅读我们的页面布局,还是只关注文本内容?
  • 我们是否应该写简短的段落,以帮助AI更好地切分内容?
  • 滚动深度或鼠标移动是否会影响AI的排名信号?
  • 低跳出率如何影响我们被引用的几率?
  • AI模型是否会利用会话模式(如阅读顺序)来重排页面?
  • 新品牌如何才能被纳入离线训练数据并获得可见性?
  • 如何为概率系统优化网页/产品页面?
  • 引文为何会持续变化?我们是否需要进行多次测试以观察变异性?
  • 我们能否使用长篇幅问题结合Google的“蓝色链接”来找到确切答案?
  • LLMs是否在使用相同的重排流程?
  • web_search是触发器还是一个开关?
  • 我们是在追求排名还是引文?
  • 重排是固定的还是随机的?
  • Google和LLMs是否使用相同的嵌入模型?如果是,语料库的差异在哪里?
  • 哪些页面是LLMs请求最多的,也是人类访问最多的?
  • 我们是否会跟踪模型更新后的漂移?
  • 为什么LLMs中的EEAT(Experience, Expertise, Authoritativeness, Trustworthiness)比Google传统搜索更容易被操控?
  • 有多少人在Google算法泄露后,流量增加了至少10倍?
  • 即使在一天之内询问相同的问题,答案结构为何总是会变化(如果不存在缓存)?
  • 点击后在我们网站上的停留时间是否会提高未来的收录?
  • 会话记忆是否会使引文倾向于较早的来源?
  • 为什么LLMs比Google更具偏见?
  • 提供可下载的数据集是否会使某个声明更容易被引用?
  • 为什么即使我们提问的是最新的问题,在土耳其语中仍然存在非常过时的信息?(例如,询问土耳其最好的电子商务网站时,仍然看到2010年代末的品牌。)
  • 向量嵌入是如何与关键词匹配不同地确定语义距离的?
  • 我们是否现在需要理解LLMs中的“温度”值?
  • 小型网站如何在ChatGPT或Perplexity的答案中出现?
  • 如果我们的整个网站只为LLMs进行优化,会发生什么?
  • AI系统能否即时读取/评估网页中的图像,还是只读取周围的文本?
  • 我们如何跟踪AI工具是否使用了我们的内容?
  • 一篇博客文章中的单个句子是否可能被AI模型引用?
  • 我们如何确保AI理解我们公司的业务?
  • 为什么有些页面会出现在Perplexity或ChatGPT中,但不在Google中?
  • AI是否偏爱新鲜页面,而不是稳定、旧的来源?
  • AI在获取页面后如何重排它们?
  • 我们能否训练LLMs在答案中记住我们的品牌声音?
  • 是否有方法可以使AI摘要直接链接到我们的页面?
  • 我们能否跟踪我们的内容被引用但未链接的情况?
  • 我们如何知道哪些提示或主题能带来更多的引文?其流量是多少?
  • 如果我们把每个月给客户的SEO报告改名为“AI可见性 AEO/GEO报告”,会发生什么?
  • 是否有方法可以追踪AI答案中提及我们品牌的次数?(类似于品牌搜索量)
  • 我们能否使用Cloudflare日志来查看AI机器人是否访问了我们的网站?
  • Schema标记的更改是否会导致AI提及次数的明显变化?
  • AI代理是否会在首次访问后记住我们的品牌?
  • 如何让拥有地图结果的本地商家在LLMs中更显眼?
  • Google AI Overviews和ChatGPT网页答案是否会使用相同的信号?
  • AI是否会随着时间的推移为我们的域建立信任分数?
  • 为什么我们需要在查询扇出(query fanouts)中可见?同时针对多个查询?
  • 为什么即使在用户只提问的情况下,AI模型/LLMs也会进行合成答案生成?
  • AI系统多久刷新一次对我们网站的理解?它们是否也有搜索算法更新?
  • 对于LLMs而言,新鲜度信号是整个网站级别还是页面级别?
  • 表单提交或下载是否可以作为质量信号?
  • 内部链接是否使机器人更容易在我们的网站上移动?
  • 我们的内容与提示之间的语义相关性如何影响排名?
  • 两个非常相似的页面是否会在同一个嵌入集群中竞争?
  • 内部链接是否有助于加强页面对AI的排名信号?
  • 在重排过程中,是什么让一个段落被认为是“高置信度”的?
  • 当信号冲突时,新鲜度是否会超越信任度?
  • 在模型选择引文之前,会发生多少层重排?
  • 一个被大量引用的段落是否能提升整个网站的信任分数?
  • 模型更新会重置过去的重排偏好,还是会保留一些记忆?
  • 为什么我们可以通过“10个蓝色链接”(通常没有幻觉)找到更好的结果?
  • 系统中的哪个部分实际选择了最终的引文?
  • 人类反馈循环是否会随着时间的推移改变LLMs对来源的排名方式?
  • AI何时会决定在中途重新搜索?
  • 为什么我们在单个聊天窗口中会看到更多/多次自动LLM搜索?
  • 被引用一次是否会增加我们品牌再次被引用的可能性?
  • 如果我们排在Google前10名,我们可以保持可见性。LLMs也是如此吗?
  • 频繁的引用是否会自动提升域的检索优先级?
  • 用户点击被引用链接是否作为反馈信号存储?
  • Google和LLMs是否使用相同的去重过程?
  • 引用速度(增长速度)是否可以像SEO中的链接速度一样衡量?
  • LLMs最终会建立一个像Google链接图一样的永久性“引用图”吗?
  • LLMs是否会连接出现在相似主题或问题集群中的品牌?
  • 反复曝光需要多久才能在LLMs中形成持久的品牌记忆?
  • 为什么Google不显示404链接,而LLMs会在答案中显示?
  • 为什么LLMs会虚构引文,而Google只链接到现有URL?
  • LLMs的再训练周期是否给我们一个在失去可见性后重置的机会?
  • 当AI模型错误解读我们信息时,我们如何制定恢复计划?
  • 为什么有些LLMs引用我们,而有些却完全忽略我们?
  • ChatGPT和Perplexity是否使用相同网络数据源?
  • OpenAI和Anthropic对信任和新鲜度的排名方式是否相同?
  • 每个来源的限制(每个答案的最大引文数)是否对LLMs不同?
  • 我们如何确定AI工具在我们的内容发生变化后是否引用了我们?
  • 哪种方法最容易随时间追踪提示级别的可见性?
  • 我们如何确保LLMs将我们的事实断言为事实?
  • 将视频链接到同一主题页面是否能加强多格式的“接地性”?
  • 同一个问题是否会向不同的用户建议不同的品牌?
  • LLMs是否会记住之前与我们品牌的互动?
  • 过去的点击行为是否会影响未来的LLM推荐?
  • 检索和推理如何共同决定哪些引文应归属?
  • 为什么LLMs每次搜索只检索38-65个结果,而Google索引了数十亿?
  • 交叉编码器重排器是如何与PageRank不同地评估查询-文档对的?
  • 为什么一个零反向链接的网站可以在LLM响应中超越权威网站?
  • Token限制如何创建传统搜索中不存在的硬性边界?
  • 为什么LLMs中的温度设置会产生非确定性的排名?
  • OpenAI是否为网站分配了爬行预算?
  • 知识图谱实体识别与LLM Token嵌入有何不同?
  • 爬行-索引-提供(crawl-index-serve)与检索-重排-生成(retrieve-rerank-generate)有何不同?
  • 为什么温度=0.7会产生不可复现的排名?
  • 分词器(tokenizer)为何重要?
  • 知识截止(knowledge cutoff)如何产生实时爬行无法解决的盲点?

当信任变得“概率化”:

这一点尤其让我困扰。Google链接到存在的URL,而AI系统却可能完全编造内容:

  • 为什么LLMs会虚构引文,而Google却只链接到现有URL?
  • 3-27%的幻觉率与Google的404错误率相比如何?
  • 为什么相同的查询在AI中会产生矛盾的“事实”,而在搜索索引中不会?
  • 为什么即使我们提问的是最新的问题,在土耳其语中仍然存在非常过时的信息?
  • 我们是否在为可能向用户撒谎的系统进行优化?我们该如何应对?

我们该何去何从?

我并非说AI搜索优化(AEO)/GEO(Generative Engine Optimization)与SEO完全不同。我只是说,我有一百多个问题,我的SEO知识尚无法给出满意的答案。

也许您有答案。也许现在还没有人能完全解答(也许永远也无法)。但至少目前,我还没有答案。

但我确实知道一件事:这些问题不会消失。而且,还会出现新的问题。产生这些问题的系统也不会消失。我们需要与之互动,进行测试,并也许——仅仅是也许——开发新的框架来理解它们。

在这个新领域获胜的,不是那些拥有所有答案的人。而是那些能提出正确问题,并坚持不懈地测试以找出有效方法的人。

这篇文章最初发布于metehan.ai(标题为“100+ Questions That Show AEO/GEO Is Different Than SEO”),已获转载许可。

文章标签:
SEO, AI搜索, LLM, Generative AI, ChatGPT, Perplexity, AI Overviews, RAG, 智能体, AI创作, 品牌运营, 新媒体运营, 魔探, MageSeek