Docling
Langflow 通过一组组件与 Docling 集成,用于解析文档。
安装 Docling 依赖
您必须安装 Docling 依赖才能在 Langflow 中使用 Docling 组件。
- Langflow OSS
- Langflow Desktop
使用 uv pip install 'langflow[docling]'
在 Langflow OSS 中安装 Docling 额外包。
要向 Langflow Desktop 添加依赖,请在应用程序的 requirements.txt
文件中添加 Docling 条目。
有关更多信息,请参阅 在 Langflow Desktop 中安装自定义依赖。
在流程中使用 Docling 组件
要了解有关使用 Docling 进行内容提取的更多信息,请观看视频教程 Docling + Langflow: Document Processing for AI Workflows。
此示例演示如何在流程中使用 Docling 组件来分割 PDF:
-
将 Docling 和 Export DoclingDocument 组件连接到 Split Text 组件。
Docling 组件加载文档,Export DoclingDocument 组件将
DoclingDocument
转换为您选择的格式。此示例将文档转换为 Markdown,图片表示为占位符。 Split Text 组件将 Markdown 分块,以便在流程的下一部分中由向量数据库存储。 -
将 Chroma DB 向量存储组件 连接到 Split Text 组件的 Chunks 输出。
-
将 Embedding Model 组件 连接到 Chroma DB 组件的 Embedding 端口,并将 Chat Output 组件连接以查看提取的
DataFrame
。 -
将您的 OpenAI API 密钥添加到 Embedding Model 组件。
-
向 Docling 组件添加文件。
-
要运行流程,点击 Playground。
分块文档将作为向量加载到您的向量数据库中。
Docling 组件
以下部分描述 Docling 包中每个组件的用途和配置选项。
Docling 语言模型
Docling 语言模型组件摄取文档,然后通过在本地运行 Docling 模型来处理它们。
它输出 files
,这是带有 DoclingDocument
数据的已处理文件。
有关更多信息,请参阅 Docling IBM 模型项目仓库。
Docling 参数
Name | Type | Description |
---|---|---|
files | File | 要处理的文件。 |
pipeline | String | 要使用的 Docling 管道(standard, vlm)。 |
ocr_engine | String | 要使用的 OCR 引擎(easyocr, tesserocr, rapidocr, ocrmac)。 |