Use voice mode

您可以使用 Langflow 的语音模式，通过麦克风和扬声器与您的流程进行口头交互。

先决条件

语音模式需要以下条件：

包含 Chat Input、Language Model 和 Chat Output 组件的流程。

如果您的流程包含 Agent 组件，请确保流程中的工具具有准确的名称和描述，以帮助代理选择使用哪些工具。

此外，请注意语音模式会覆盖 Agent 组件的 Agent Instructions 字段中的键入指令。
一个 OpenAI 账户和 OpenAI API 密钥，因为 Langflow 使用 OpenAI API 来处理语音输入和生成响应。
可选：一个 ElevenLabs API 密钥，以为 LLM 的响应提供更多语音选项。
一个麦克风和扬声器。

为了获得最佳的语音识别效果，建议使用高质量麦克风并尽量减少背景噪音。

在 Playground 中，点击 Microphone 以启用语音模式，并通过麦克风和扬声器与您的流程进行口头交互。

以下步骤使用 Simple Agent 模板来演示如何启用语音模式：

Langflow 为您的流程暴露了两个与 OpenAI Realtime API 兼容的 websocket 端点。您可以像构建 OpenAI Realtime API websockets 一样构建这些端点的应用程序。

Langflow API 的 websocket 端点需要 OpenAI API key 进行身份验证，并且它们支持使用 ElevenLabs API 密钥的可选 ElevenLabs 集成。

此外，两个端点都要求您在端点路径中提供流程 ID。

/ws/flow_as_tool/$FLOW_ID 端点建立与 OpenAI Realtime voice 的连接，然后根据 OpenAI Realtime model 将指定的流程作为工具调用。

这种方法非常适合低延迟应用程序，但确定性较低，因为 OpenAI 的语音到语音模型决定何时调用您的流程。

/ws/flow_tts/$FLOW_ID 端点使用 OpenAI Realtime voice transcription 将音频转换为文本，然后为每个转录直接调用指定的流程。

这种方法确定性更高，但延迟也更高。这是 Langflow Playground 中使用的模式。

两个端点都接受可选的 /$SESSION_ID 路径参数，为对话提供唯一 ID。如果省略，Langflow 会使用流程 ID 作为 session ID。

但是，请注意语音模式仅在当前对话实例内维护上下文。当您关闭 Playground 或结束聊天时，语音聊天历史将被丢弃，并且不适用于未来的聊天会话。