智能文档处理

将复杂文档、报告、演示文稿、PDF、网页和电子表格转化为可搜索的智能信息。

工作负载

生成式 AI/LLM
计算机视觉/视频分析

行业

金融服务
医疗健康和生命科学
公共事业部门
学院/高等教育

业务目标

风险缓解
投资回报
创新

产品

概览:为何选择智能文档处理

读取、理解和提取文档洞察,实现决策自动化

智能文档处理通过识别最重要的信息,帮助机构将各种多模态内容 (例如报告、合同、申报文件、政策和研究论文) 转化为结构化且可搜索的洞察。 

借助 NVIDIA Nemotron 开放模型和库进行文档处理,集成了高保真提取、多模态检索以及基于事实的生成能力。团队可以构建像专家一样解读文档的 AI 智能体,同时保留对原始来源的可追溯性。

优势

这些优势覆盖多个领域,可帮助分析师、研究人员和最终用户团队实现更优成果。

  • 更快的洞察发现:自动审查信息复杂的报告、合同和策略,让团队在数秒内即可获得答案,无需等待数小时。
  • 可扩展的文档工作负载:随着新数据不断到来,并行处理数百万份 PDF、网页和电子表格,而无需按同等比例增加人手。
  • 更高的决策质量:保留表格、图表和图示,以便 AI 智能体基于如今专家所信赖的同一证据进行推理。
  • 可审计性和合规性:让每个答案都有引注页面和表格作为依据,以满足严格的监管要求和内部审计要求。
  • 跨行业影响:借助可适应不同文档类型和领域的智能工作流,支持金融、法律和科学领域的多样化工作流。

使用 Nemotron 构建智能文档工作流

了解如何使用 NVIDIA Nemotron 模型构建多模态文档处理工作流,以提供符合合规标准且附有引注的可靠答案。

快速链接

Edison Scientific:Kosmos AI 科学家整合数万份研究论文

Edison Scientific 是 FutureHouse 的分支公司,正在打造具备自主发现能力的 AI 科学家 Kosmos。 Kosmos 是一个多智能体系统,配备专门的文献智能体,旨在解答有关科学文献、临床试验和专利的问题。 文献智能体由 Nemotron Parse 提供支持,可自主搜索超过 1.75 亿份文档,以回答研究人员的问题,帮助超过 50,000 名科学家开展发现工作。

对于每个页面,Nemotron Parse 都会返回用于嵌入和搜索的语义文本,然后对视觉内容图像区域进行分段,以用于多模态 LLM 推理。

科学论文并非按照通用标准编写,且往往包含容易被误读的复杂图表。 Nemotron Parse 对于识别 PDF 中的相关表格、图形和文本至关重要,LLM 随后可基于这些内容进行推理,并生成对用户查询的回答。 

Edison 的文献智能体可以帮助实现以下目标:

  • 通过理解海量数据来降低人工工作量
  • 通过提取关键细节来加速分析
  • 提高工具和人类决策的质量

快速而准确地理解科学文献是其中的关键能力,借助这项能力,Kosmos 能够在一天内完成原本需要 6 个月的研究工作,并实现 80% 的可复现性。

技术实施

体系架构示意图

智能文档处理工作流由三个核心组件构建:提取、嵌入与索引以及用于答案生成的重排序。

开发者可以借助开放模型、NeMo Retriever 和 NIM 进行配置、扩展和部署。

1. 提取:将复杂文档转化为结构化数据

将 NeMo Retriever 库与自托管或 NVIDIA 托管的解析及 OCR 服务结合使用,可摄取 PDF、网页及其他多模态文档,并在保留布局与语义的同时,将其转换为文本块、Markdown 表格和图表裁剪等结构化单元。 该阶段通过保留表格和图形的原有表现形式来“释放”丰富内容,生成可供下游检索与生成模型可靠使用的 JSON 输出。

2. 嵌入与索引:让内容具备大规模搜索能力

将所提取的项目输入到 Nemotron 多模态嵌入模型中,将文本、表格和图表编码为专为文档检索而定制的稠密向量。 将这些向量和相关元数据存储在 Milvus 等向量数据库中,即可实现对数百万个文档元素执行毫秒级语义搜索,并在新内容到达时确保知识库持续更新。

3. 重排序与基于事实的答案生成:提供有据可查的高保真答案

从向量索引中检索前 K 个候选项,并利用 Nemotron 交叉编码器重排序,优先保留最贴近用户问题的段落、表格和图形答案。 然后将重排序后的上下文传入 Nemotron 生成模型,生成有依据的回复,并明确引用原始页面和图表,助力业务、金融和科研团队信任并审计系统支持的每一项决策。

使用开放式 Nemotron 技术构建智能文档处理工作流的代码演练


合作伙伴生态系统

常见问题解答

生产级 NVIDIA RAG 工作流包括向量数据库和容器化 NIM 或基于 Kubernetes 的部署,用于在大规模文档场景下扩展提取、嵌入和检索。 对于自托管部署,应选择具有足够显存的 NVIDIA GPU;或者,也可以选择托管端点来降低对本地基础设施的要求。 您还需要调整提取设置 (例如表格输出格式和页面级拆分),选择适当的 Nemotron 提取、嵌入和重排序模型,并利用系统测量吞吐量、延迟和引用质量,从而满足企业级服务水平协议 (SLA) 的要求。

Nemotron Parse 采用具有空间定位的视觉语言架构,检测和提取文本、表格、图表和布局元素,生成结构化、机器可读的输出而非平面文本。 它能够保留表格结构、阅读顺序和语义类别,在具有挑战性的基准测试中显著提升准确性,并提高了针对 PDF、扫描件和复杂报告的下游检索与推理的可靠性。这些结构化输出还支持更多语义分块,帮助检索系统按照有意义的内容边界而非任意文本窗口拆分文档。

回答:在 RAG 工作流中,提取阶段决定了可用于检索的证据的质量和结构。 当优先考虑吞吐量时,可使用 PDFium 处理数字生成的 PDF;当需要在速度与准确性之间取得良好平衡的视觉信息提取时,可使用 OCR;当更丰富的布局和文档结构有助于提升分块和检索质量时,可使用 Nemotron Parse。 在 NeMo Retriever 中,选择 OCR 提取路径后,文档提取将通过 NeMo Retriever OCR 服务进行。

简而言之:PDFium 最适合数字生成的 PDF,OCR 兼顾速度和视觉信息提取,Nemotron Parse 则优先考虑布局保真度和语义结构。

开始体验

构建智能文档处理工作流

新闻

相关用例