AssemblyAI
AssemblyAI 组件允许您在应用中应用强大的语音 AI 模型,用于以下任务:
- 转录音频和视频文件
- 格式化转录文本
- 生成字幕
- 将 LLM 应用于音频文件
有关 AssemblyAI 组件使用的 AssemblyAI 功能和功能的更多信息,请参阅 AssemblyAI API 文档。
前提条件
-
一个 AssemblyAI 账户 和一个 AssemblyAI API 密钥。
在所有需要 AssemblyAI 密钥的 Langflow 组件中,将密钥输入到 AssemblyAI API Key 字段中。
-
可选:要使用 LeMUR,您需要一个付费的 AssemblyAI 账户,因为 LeMUR 不包含在免费账户中。
组件
AssemblyAI 开始转录
此组件允许您提交音频或视频文件进行转录。
提示:您可以冻结此组件的路径,以便只提交一次文件。
-
输入:
- AssemblyAI API Key:您的 API 密钥。
- Audio File:要转录的音频或视频文件。
- Speech Model(可选):选择模型类别。默认为 Best。更多信息请参见 语音模型。
- Automatic Language Detection(可选):启用自动语言检测。
- Language(可选):音频文件的语言。如果禁用自动语言检测,可以手动设置。 有关支持的语言代码列表,请参见 支持的语言。
- Enable Speaker Labels(可选):检测音频文件中的说话者以及每个人所说的话。
- Expected Number of Speakers(可选):如果启用了 Speaker Labels,设置预期的说话者数量。
- Audio File URL(可选):要转录的音频或视频文件的 URL。可以替代 Audio File 使用。
- Punctuate(可选):应用标点符号。默认为 true。
- Format Text(可选):应用大小写和文本格式。默认为 true。
-
输出:
- Transcript ID:转录文本的 ID
AssemblyAI 轮询转录
此组件允许您轮询转录结果。它会每隔几秒检查一次转录状态,直到转录完成。
-
输入:
- AssemblyAI API Key:您的 API 密钥。
- Polling Interval(可选):轮询间隔(秒)。默认为 3。
-
输出:
- Transcription Result:已完成转录的 AssemblyAI JSON 响应。包含文本和其他信息。
AssemblyAI 获取字幕
此组件允许您生成 SRT 或 VTT 格式的字幕。
-
输入:
- AssemblyAI API Key:您的 API 密钥。
- Transcription Result:轮询转录组件的输出。
- Subtitle Format:字幕的格式(SRT 或 VTT)。
- Character per Caption(可选):每个字幕的最大字符数(0 表示无限制)。
-
输出:
- Subtitles:一个 JSON 响应,其中
subtitles
字段包含 SRT 或 VTT 格式的字幕。
- Subtitles:一个 JSON 响应,其中
AssemblyAI LeMUR
此组件允许您使用 AssemblyAI LeMUR 框架 将大型语言模型应用于语音数据。
LeMUR 自动将转录文本作为额外上下文摄取,从而轻松将 LLM 应用于音频数据。您可以使用它来执行诸如总结音频、提取洞察或提问等任务。
-
输入:
- AssemblyAI API Key:您的 API 密钥。
- Transcription Result:轮询转录组件的输出。
- Input Prompt:用于提示模型的文本。您可以在此字段中输入提示,或将其连接到 Prompt Template 组件。
- Final Model:执行压缩后用于最终提示的模型。默认为 Claude 3.5 Sonnet。
- Temperature(可选):用于模型的温度。默认为 0.0。
- Max Output Size(可选):最大输出大小(以 token 为单位),最多 4000。默认为 2000。
- Endpoint(可选):要使用的 LeMUR 端点。默认为 "task"。对于 "summary" 和 "question-answer",不需要提示输入。更多信息请参见 LeMUR API 文档。
- Questions(可选):以逗号分隔的问题列表。仅在 Endpoint 为 "question-answer" 时使用。
- Transcript IDs(可选):以逗号分隔的转录 ID 列表。LeMUR 可以对多个转录执行操作。如果提供,则忽略 Transcription Result。
-
输出:
- LeMUR Response:生成的 LLM 响应。
AssemblyAI 列出转录记录
此组件可用作独立组件,列出所有先前生成的转录记录。
-
输入:
- AssemblyAI API 密钥: 您的 API 密钥。
- 限制 (可选): 检索的最大转录记录数。默认为 20,使用 0 表示全部。
- 筛选 (可选): 按转录状态筛选。
- 创建日期 (可选): 仅获取在此日期创建的转录记录 (YYYY-MM-DD)。
- 仅限限流 (可选): 仅获取被限流的转录记录,覆盖状态筛选条件
-
输出:
- 转录记录列表: 包含转录记录 ID、状态和数据等信息的所有转录记录列表。
流程步骤
- 用户输入音频或视频文件。
- 用户也可以输入 LLM 提示词。在此示例中,我们希望生成转录记录的摘要。
- 流程提交音频文件进行转录。
- 流程每隔几秒检查一次转录状态,直到转录完成。
- 流程解析转录结果并输出转录文本。
- 流程还生成字幕。
- 流程应用 LLM 提示词生成摘要。
- 作为独立组件,可以列出所有转录记录。
运行转录和语音 AI 流程
-
手动构建流程或导入预构建的 JSON 文件:
- 推荐:下载 AssemblyAI 转录和语音 AI 流程 JSON,然后将流程导入到 Langflow。
- 创建空白流程,然后将前面描述的组件添加到您的流程中,按照流程图所示连接它们。
-
在所有需要密钥的组件中输入您的 AssemblyAI API 密钥 (开始转录、轮询转录、获取字幕、LeMUR、列出转录记录)。
-
为 开始转录 组件选择音频或视频文件。
可选:在向 开始转录 组件添加文件后,运行并冻结组件,这样无论您运行流程多少次,都只提交一次文件。 为此,点击 运行组件 来预加载文件,然后点击 显示更多 并选择 冻结 来锁定结果。 后续的流程运行使用冻结组件的缓存输出。
-
通过在 解析器 组件上点击 运行组件 来测试转录。确保指定的模板是
{text}
。运行一个组件会运行所有上游组件以及所选组件,然后停止流程运行。 在这种情况下,开始转录 和 轮询转录 组件是 解析器 组件的上游组件。 如果您冻结了 开始转录 组件,流程会发送来自 开始转录 的缓存输出,运行 轮询转录 组件,以获取转录结果。 检查流程日志或检查 解析器 组件的输出,以查看转录的文本结果。
-
要生成字幕并运行完整流程,请在 列出转录记录 组件上点击 运行组件。
自定义
可以通过以下方式自定义流程:
- 修改 开始转录 组件中的参数。
- 修改 获取字幕 组件中的字幕格式。
- 修改 LeMUR 组件的输入 LLM 提示词。
- 修改 LeMUR 组件中的 LLM 参数(例如,温度)。