多轮对话的基本原理：采用 RTC 技术低延迟双全工人机对话,LLM 函数调用或结构化输出连接后端系统

多轮对话的基本原理：采用 RTC 技术低延迟双全工人机对话,LLM 函数调用或结构化输出连接后端系统
2025/11/21 15:37:16	1876

对话式 AI 的核心职责是听懂人类讲话的内容和情感，并以语音对话的方式作出回应，然后重复这个循环。当前，几乎所有的J联对话式 AI 产品都普遍采用相似的架构：对话式 AI Agent 服务部署于云端，协调端到端语音对话（Speech-to-Speech）的交互闭环，整体采用 RTC 技术实现超低延迟双全工人机对话。支持行业主流 AI 模型接入，并通过 LLM 函数调用或结构化输出连接后端系统。整个循环流程如下： ◇ 用户设备麦克风捕获语音信号，编码后经实时传输网络传输至云端代理程序 ◇ 将用户语音实时转换（ASR）为高准确率的文字，作为 LLM 的输入 ◇ 文本被整合为上下文提示（Prompt），由大语言模型（LLM）进行推理生成响应。 ◇ LLM 生成的文本发送至文本转语音（TTS）模型合成音频 ◇ 合成音频通过实时传输网络传回用户设备完成交互对话式 AI 的整个服务全部在云端运行，包括 ASR、LLM 和 TTS。从长远来看，人们期望有更多的 AI 服务可以在端侧运行，但云端仍是未来很长一段时间的Z佳方案。 ◇ 对话式 AI 程序需调用高性能模型（ASR、LLM、TTS）以实现低延迟的复杂流程。当前终端设备算力不足，无法在可接受延迟内运行Z优模型。 ◇ 当前，仍有大量商用场景用户是需要通过电话进行呼叫的，在此类场景中，服务无法部署到用户的终端设备上，也迫使服务集中于云端。 ◇ 对话式 AI 需要跨终端使用，也导致云端部署成为Z高效的方案。如果你正在开发一个对话式 AI 产品或应用，你可能已经发现对话式 AI 并没有想象中的简单，我们会面临并思考以下问题： ◇ 对话式 AI 该选择哪些大语言模型和 TTS？ ◇ 如何降低人机对话的端到端延迟？ ◇ 如何让 AI 对话与人类一样自然？ ◇ 如何在长会话中管理对话上下文？ ◇ 如何将对话式 AI 集成到现有应用中？ ◇ 如何评估对话式 AI 的性能表现？

上一篇下一篇

返回顶部 ∧

技术支持

关于创泽

隐私条款

咨询热线

销售咨询

4006-935-088 / 4006-937-088

客服热线

版权所有 @ 创泽智能机器人集团股份有限公司
运营中心 / 北京市·清华科技园九号楼5层
生产中心 / 山东省日照市开发区太原路71