Rasa 播客谈对话设计的演变

#ai #design #llm #nlp

https://www.youtube.com/watch?v=ycqL3g4pY3s
这段 Rasa 的播客视频（节目名为 The Dialogue Architects）中，主持人和嘉宾 Rebecca Evanhoe（《Conversations with Things》一书的共同作者，现任 Slang AI 的产品经理及对话设计负责人）围绕大语言模型（LLM）时代下对话设计的演变、语音 AI 在餐饮业的落地落地细节以及评估与优化方法展开了非常深入的探讨。

以下是视频内容的超详细完整总结：

1. 嘉宾的背景与近况

Slang AI 的产品与职责：Rebecca 已在 Slang AI 工作了两年半 [00:54]。该公司主要开发针对餐厅电话的语音 AI，专注于处理订位、修改/取消预约、以及回答关于餐厅的问题 [01:00]。她最初是团队的第一位对话设计师，过去几年逐步晋升为产品经理（PM），更偏向战略层面，但同时仍扮演设计负责人的角色 [01:20]。
关于著作的更新想法：她的书《Conversations with Things》是在大模型爆发前写的。如果现在要改版，她认为关于“意图分类（Intent Classification）”的章节最为过时，因为很多企业正在放弃或补充传统的 NLU（自然语言理解）系统 [03:06]。此外，她会增加一个专门讲“大模型评估（Evaluation）”的章节，因为在 LLM 时代，评估和获取数据来进行评估变得无比重要 [03:36]。

2. 对话设计并没有死：从“写脚本”到“上下文工程”

行业的剧变：主持人提到，过去在传统系统里，修改线上系统的哪怕一个标点或逻辑，都需要 Copy/Legal 等五六个团队层层审批；而现在大模型时代，大家似乎“放飞自我（YOLO）”，哪怕明知 LLM 会幻觉，也敢直接部署，这让不少老牌设计师感到有些微妙 [04:20, 05:03]。
职能的本质未变：Rebecca 强烈反驳了“对话设计已死，现在是提示词/上下文工程（Context Engineering）的时代”这一流派 [05:52, 06:49]。她强调：写脚本和训练 NLU 只是以前实现目标的工具，而不是对话设计的全部。
设计的核心仍然是理解用户路径：以餐厅订位为例，设计师需要理清各种复杂的用户心理和路径 [07:20]：
有些人打电话来有明确的时间、日期和人数。
有些人只是想抢热门餐厅周末的“任意空档”。
有些人的派对人数很尴尬（有大人有小孩），需要先帮他算清楚到底要占用几个座位。
设计师的核心工作就是把这些路径理出来，决定问题的先后顺序、最自然的措辞、以及如何优雅地跳过用户已经提供的信息（插槽填充 Slot-filling）。在过去是用规则实现，在现在则是用 Prompt 约束大模型去实现，本质是一样的 [08:22, 08:49]。

3. Slang AI 的混合系统架构（Deterministic vs. Generative）

如何决定哪些部分用大模型，哪些部分用规则？ Slang AI 的系统经历了从完全确定性（Deterministic/基于规则）到混合系统，再到现在向全生成式（Fully Generative）过渡的阶段 [12:55, 16:15]。
最先引入 LLM 的部分（菜单和营业时间查询）：Rebecca 指出，菜单问题在传统系统里几乎是不可能做好的，因为用户提问的方式千奇百怪，且不同餐厅的菜单天天在变 [14:03]。营业时间可以用规则做，但用 LLM 包装后，回答会更具上下文、更自然 [14:25]。他们通过一个非常轻量的小模型，配合极其严格的提示词（只看给定的时间表来回答），成功把幻觉率降到了 0 [14:47]。
保留规则（确定性）的部分：涉及具体业务逻辑和底层 API 调用（如对接 OpenTable 订位系统）的连环检查 [17:32, 18:35]。比如用户说礼拜五要来，系统第一步应该通过 Webhook 查那天开不开门。如果那天根本不开门，就应该直接告诉用户，而不是继续傻傻地去问“请问你们几个人？想预约几点？” [17:54]。因为原本的规则系统在这些地方跑得极具效率且指标非常好，所以“既然没坏，就不要去修它” [18:19]。
成本与模型的选择：Slang AI 的系统每个月要处理多达 200 万通电话，成本是极大的考量因素 [20:09]。他们的原则是永远从最便宜、最快、体量最小的模型开始尝试。他们的架构就像是一个由许多各司其职的小 Prompt 组成的“星座/星群（Constellation of Prompts）”，绝不盲目上昂贵的大模型 [20:32]。

4. LLM 时代的全新评估（Evaluation）方法

由于无法像以前那样一字一句控制机器人的输出，如何评估大模型的表现成了核心：

经典看录音转写文本（Transcript Review）：虽然工程师总觉得看转写效率低、无法规模化，但 Rebecca 坚持认为这是最丰富的数据源 [21:47]。
利用大模型来评估大模型（LLM-as-a-judge）：他们会使用云端代码（Cloud Code）直接将数千份转写文本丢给大模型，让它按照标准打分、打标签（筛选出包含特定情绪或问题的对话），Rebecca 发现其准确率高到完全可以作为参考 [22:33]。
Brain Trust 评估流：他们目前使用一款叫 Brain Trust 的工具（也有其他类似工具）[23:25]：
把带生成内容的对话 session 接入工具。
由 3 位专业的人类评估员在线上界面对对话进行人工标注，打三个标签：Pass/Fail（过了没）、Accuracy（准确度）、Quality（质量/是否具备餐厅该有的热情和好客措辞），以此建立黄金标准数据集（Ground Truth） [24:05]。
直接在工具内训练一个专门做评估的大模型去学习这几位人类评估员的打分逻辑 [24:23]。
之后所有的自动化测试和批量打分就全部交由这个训练出来的“评估大模型”去跑，极大地节省了人力 [24:38]。
对 CSAT（客户满意度）和情绪分析（Sentiment）的看法：
Rebecca 坦言自己基本忽视 CSAT 评分，认为这玩意儿没啥价值 [28:50]。她认为对话好不好，直接看对话里发生了什么就知道。如果订位没成功，还让用户重复了好几遍，不占用用户时间去填问卷也知道这体验很烂 [29:13]。
她以前觉得情绪分析工具很鸡肋（大多只会给出“中性”结果） [29:35]，但现在有所改观。不过订餐厅通常不涉及高风险、高焦虑的场景（不像航空公司退改签），用户没订到位置通常也就说句“那太晚了，算了，拜拜”，情绪波动不大 [30:10, 30:44]。因此，Slang AI 的北极星指标依然是任务完成率（Task Completion Rate） [31:09]。

5. 语音 AI（Voice）特有的复杂性与痛点

相比于文字聊天（Chat），语音 AI 的难度翻了几倍：

环境噪音导致的误转写（ASR 误差）：虽然语音识别（ASR）技术这些年突飞猛进，但餐厅客人的打电话场景很特殊——他们经常是在马路上、吵闹的公众场所、或者在开车时打电话，背景噪音极大 [33:34]。一旦 ASR 把话听错了，后面的确定性系统或大模型就会跟着这个“错的文本”去打架 [34:01]。
大模型的延迟（Latency）是语音的致命伤：在文字聊天里，模型憋出回答需要 2 秒无所谓。但在语音电话里，超过 1 秒的停顿就会引发灾难 [34:29]。用户会忍不住说“喂？（Hello?）”，而这句话又会立刻被系统切断并作为新的输入送给大模型重新处理，导致对话直接卡死、节奏崩溃 [34:35]。因此，作为 PM，她花了很多精力通过精简模型、优化工程架构、挑选最好的供应商来拼命降低这几百毫秒的延迟 [35:01, 35:30]。

6. 对话接口带来的“商业数据矿山”与餐厅痛点

从描述性数据走向处方性（Prescriptive/建议性）数据：过去，AI 仪表盘只能告诉老板“今天帮你接过多少电话” [38:27]。而现在，由于大模型具备强大的总结和分析能力，Slang AI 的系统开始为餐厅老板提供直接能赚钱的商业决策建议 [38:45]。
具体的餐厅商业痛点实例：
解放前台（Host）：在餐饮业，前台接待通常被视为“非直接创收岗位”。如果餐厅没开门时还要雇人守着电话，或者开门时前台因为一直不间断接电话而无法全心照顾现场到店的客人，对餐厅都是损失。AI 完美解决了这个问题 [40:46, 41:18]。
营业时间优化：AI 通过分析所有漏接或打进来的电话数据，能直接告诉老板：“有大量客人都打电话想预约礼拜二的位置，虽然你们礼拜二通常关门。如果你们礼拜二开门，预计能多赚一整天的营业额。” 或者 “很多客人都想约更晚的时间，如果你们把用餐时间或服务时间往后延长 30 分钟，能多赚多少钱。” [38:54, 42:16]
相比于做问卷调查问别人“如果我礼拜二开门你会来吗”（大家通常会随口说会，但实际不来），这种直接通过订位电话流露出的真实意愿数据，对餐厅老板来说极其精准且百分之百可信 [42:54]。

7. 用户的行为也在发生改变

主持人提到，在 5 年前的传统系统时代，他们甚至要在聊天框里设置字符长度限制，因为用户一旦输入超过三句话，系统就会因为意图太多而直接“假死（Game Over）” [45:09]。

而 Rebecca 观察到，现在的语音用户说话越来越自然、越来越长 [44:12]。哪怕他们中间发现是机器人并吐槽一句“哦是个机器人”，后面也会继续自然地对话 [44:20]。她看过最神奇的转写是，用户在订完位后对着电话说了长达三句话：“谢谢，你真的很有帮到我。我一开始以为你是个自动化系统肯定不行，没想到你真的帮我办成了，体验太棒了。” 这种把 AI 当人来倾诉和沟通的现象在以前是不可想象的 [44:32]。现在的 LLM 可以非常优雅地在一大长串话里，自动对“我快迟到了、但我定的是特殊桌位、请帮我保留、我们 30 分钟后到”等一连串复合意图进行复杂度的拆解和优先级排序 [45:36]。

8. 给同行的定心丸

在视频的最后，Rebecca 给所有陷入裁员或转型焦虑的对话设计师（CxD）们灌了一碗底气十足的鸡汤：

“不要担心，我们的价值依然不可替代。如果有些企业现在盲目跟风，觉得有了大模型就不需要对话设计师了——没关系，给他们 9 个月，或者 18 个月的时间，让他们的产品在生产环境里被用户狠狠教训、把体验搞砸。到那时候，他们就会明白为什么需要我们，这些公司全都会变成你们未来的新客户。” [47:02, 47:32]