跳到主要内容

Docling

Langflow 通过一组组件与 Docling 集成,用于解析文档。

安装 Docling 依赖

important

您必须安装 Docling 依赖才能在 Langflow 中使用 Docling 组件。

使用 uv pip install 'langflow[docling]' 在 Langflow OSS 中安装 Docling 额外包。

在流程中使用 Docling 组件

提示

要了解有关使用 Docling 进行内容提取的更多信息,请观看视频教程 Docling + Langflow: Document Processing for AI Workflows

此示例演示如何在流程中使用 Docling 组件来分割 PDF:

  1. DoclingExport DoclingDocument 组件连接到 Split Text 组件

    Docling 组件加载文档,Export DoclingDocument 组件将 DoclingDocument 转换为您选择的格式。此示例将文档转换为 Markdown,图片表示为占位符。 Split Text 组件将 Markdown 分块,以便在流程的下一部分中由向量数据库存储。

  2. Chroma DB 向量存储组件 连接到 Split Text 组件的 Chunks 输出。

  3. Embedding Model 组件 连接到 Chroma DB 组件的 Embedding 端口,并将 Chat Output 组件连接以查看提取的 DataFrame

  4. 将您的 OpenAI API 密钥添加到 Embedding Model 组件。

    Docling 和 ExportDoclingDocument 提取并分割文本到向量数据库

  5. Docling 组件添加文件。

  6. 要运行流程,点击 Playground

    分块文档将作为向量加载到您的向量数据库中。

Docling 组件

以下部分描述 Docling 包中每个组件的用途和配置选项。

Docling 语言模型

Docling 语言模型组件摄取文档,然后通过在本地运行 Docling 模型来处理它们。

它输出 files,这是带有 DoclingDocument 数据的已处理文件。

有关更多信息,请参阅 Docling IBM 模型项目仓库

Docling 参数

NameTypeDescription
filesFile要处理的文件。
pipelineString要使用的 Docling 管道(standard, vlm)。
ocr_engineString要使用的 OCR 引擎(easyocr, tesserocr, rapidocr, ocrmac)。

Docling Serve

Docling Serve 组件将 Docling 作为 API 服务运行。

它输出 files,这是带有 DoclingDocument 数据的已处理文件。

有关更多信息,请参阅 Docling serve 项目仓库

Docling Serve 参数

NameTypeDescription
filesFile要处理的文件。
api_urlStringDocling Serve 实例的 URL。
max_concurrencyInteger服务器的最大并发请求数。
max_poll_timeoutFloat等待文档转换完成的最长时间。
api_headersDict连接到 Docling Serve 所需的附加头部的可选字典。
docling_serve_optsDictDocling Serve 的附加选项的可选字典。

Chunk DoclingDocument

Chunk DoclingDocument 组件使用 DoclingDocument 分块器将文档分割成块。

它将分块文档输出为 DataFrame

有关更多信息,请参阅 Docling 核心项目仓库

分块 DoclingDocument 参数

名称类型描述
data_inputsData/DataFrame包含需要分块文档的数据。
chunkerString使用哪种分块器(HybridChunker, HierarchicalChunker)。
providerString使用哪种分词器提供商(Hugging Face, OpenAI)。
hf_model_nameString当选择 Hugging Face 时,与 HybridChunker 一起使用的分词器模型名称。
openai_model_nameString当选择 OpenAI 时,与 HybridChunker 一起使用的分词器模型名称。
max_tokensIntegerHybridChunker 的最大 token 数量。
doc_keyString用于 DoclingDocument 列的键。

导出 DoclingDocument

导出 DoclingDocument 组件将 DoclingDocument 导出为 Markdown、HTML 和其他格式。

它可以将导出的数据输出为 DataDataFrame

有关更多信息,请参阅 Docling 核心项目仓库

导出 DoclingDocument 参数

名称类型描述
data_inputsData/DataFrame包含需要导出文档的数据。
export_formatString选择用于转换输入的导出格式(Markdown, HTML, Plaintext, DocTags)。
image_modeString指定图像在输出中的导出方式(placeholder, embedded)。
md_image_placeholderString指定 Markdown 导出的图像占位符。
md_page_break_placeholderString在 Markdown 输出中的页面之间添加此占位符。
doc_keyString用于 DoclingDocument 列的键。
Search