面向法律团队的 AI 赋能智能文档处理

智能文档处理

将复杂文档、报告、演示文稿、PDF、网页和电子表格转化为可搜索的智能信息。

Edison Scientific 的案例

概览
技术运用
合作伙伴生态系统
常见问题解答
开始使用
新闻
相关用例

概览
技术运用
合作伙伴生态系统
常见问题解答
开始使用
新闻
相关用例

工作负载

生成式 AI/LLM
计算机视觉/视频分析

行业

金融服务
医疗健康和生命科学
公共事业部门
学院/高等教育

业务目标

风险管理
投资回报
创新

产品

概览：为何选择智能文档处理

读取、理解和提取文档洞察，实现决策自动化

智能文档处理通过识别最重要的信息，帮助机构将各种多模态内容 (例如报告、合同、申报文件、政策和研究论文) 转化为结构化且可搜索的洞察。

借助 NVIDIA Nemotron 开放模型和库进行文档处理，集成了高保真提取、多模态检索以及基于事实的生成能力。团队可以构建像专家一样解读文档的 AI 智能体，同时保留对原始来源的可追溯性。

优势

这些优势覆盖多个领域，可帮助分析师、研究人员和最终用户团队实现更优成果。

更快的洞察发现：自动审查信息复杂的报告、合同和策略，让团队在数秒内即可获得答案，无需等待数小时。
可扩展的文档工作负载：随着新数据不断到来，并行处理数百万份 PDF、网页和电子表格，而无需按同等比例增加人手。
更高的决策质量：保留表格、图表和图示，以便 AI 智能体基于如今专家所信赖的同一证据进行推理。
可审计性和合规性：让每个答案都有引注页面和表格作为依据，以满足严格的监管要求和内部审计要求。
跨行业影响：借助可适应不同文档类型和领域的智能工作流，支持金融、法律和科学领域的多样化工作流。

使用 Nemotron 构建智能文档工作流

了解如何使用 NVIDIA Nemotron 模型构建多模态文档处理工作流，以提供符合合规标准且附有引注的可靠答案。

观看直播回放

快速链接

了解 Justt、Docusign 和 Edison Scientific 如何将文档转化为商业智能

Edison Scientific：Kosmos AI 科学家整合数万份研究论文

Edison Scientific 是 FutureHouse 的分支公司，正在打造具备自主发现能力的 AI 科学家 Kosmos。 Kosmos 是一个多智能体系统，配备专门的文献智能体，旨在解答有关科学文献、临床试验和专利的问题。文献智能体由 Nemotron Parse 提供支持，可自主搜索超过 1.75 亿份文档，以回答研究人员的问题，帮助超过 50,000 名科学家开展发现工作。

对于每个页面，Nemotron Parse 都会返回用于嵌入和搜索的语义文本，然后对视觉内容图像区域进行分段，以用于多模态 LLM 推理。

科学论文并非按照通用标准编写，且往往包含容易被误读的复杂图表。 Nemotron Parse 对于识别 PDF 中的相关表格、图形和文本至关重要，LLM 随后可基于这些内容进行推理，并生成对用户查询的回答。

Edison 的文献智能体可以帮助实现以下目标：

通过理解海量数据来降低人工工作量
通过提取关键细节来加速分析
提高工具和人类决策的质量

快速而准确地理解科学文献是其中的关键能力，借助这项能力，Kosmos 能够在一天内完成原本需要 6 个月的研究工作，并实现 80% 的可复现性。

快速链接

技术深度探讨：为科学 RAG 集成多模态图形解析

技术实施

体系架构示意图

智能文档处理工作流由三个核心组件构建：提取、嵌入与索引以及用于答案生成的重排序。

开发者可以借助开放模型、NeMo Retriever 和 NIM 进行配置、扩展和部署。

1. 提取：将复杂文档转化为结构化数据

将 NeMo Retriever 库与自托管或 NVIDIA 托管的解析及 OCR 服务结合使用，可摄取 PDF、网页及其他多模态文档，并在保留布局与语义的同时，将其转换为文本块、Markdown 表格和图表裁剪等结构化单元。该阶段通过保留表格和图形的原有表现形式来“释放”丰富内容，生成可供下游检索与生成模型可靠使用的 JSON 输出。

2. 嵌入与索引：让内容具备大规模搜索能力

将所提取的项目输入到 Nemotron 多模态嵌入模型中，将文本、表格和图表编码为专为文档检索而定制的稠密向量。将这些向量和相关元数据存储在 Milvus 等向量数据库中，即可实现对数百万个文档元素执行毫秒级语义搜索，并在新内容到达时确保知识库持续更新。

3. 重排序与基于事实的答案生成：提供有据可查的高保真答案

从向量索引中检索前 K 个候选项，并利用 Nemotron 交叉编码器重排序，优先保留最贴近用户问题的段落、表格和图形答案。然后将重排序后的上下文传入 Nemotron 生成模型，生成有依据的回复，并明确引用原始页面和图表，助力业务、金融和科研团队信任并审计系统支持的每一项决策。

使用开放式 Nemotron 技术构建智能文档处理工作流的代码演练

快速链接

代码实操教程：如何为 RAG 构建文档处理流程

视频教程：如何使用 Nemotron 为 RAG 构建文档处理工作流

直播：Edison Scientific 和 Justt 的智能文档体系架构与演示

合作伙伴生态系统

快速链接

Justt 如何利用 NVIDIA Nemotron Parse 实现拒付文档提取的规模化

常见问题解答

生产级 NVIDIA RAG 工作流包括向量数据库和容器化 NIM 或基于 Kubernetes 的部署，用于在大规模文档场景下扩展提取、嵌入和检索。对于自托管部署，应选择具有足够显存的 NVIDIA GPU；或者，也可以选择托管端点来降低对本地基础设施的要求。您还需要调整提取设置 (例如表格输出格式和页面级拆分)，选择适当的 Nemotron 提取、嵌入和重排序模型，并利用系统测量吞吐量、延迟和引用质量，从而满足企业级服务水平协议 (SLA) 的要求。

Nemotron Parse 采用具有空间定位的视觉语言架构，检测和提取文本、表格、图表和布局元素，生成结构化、机器可读的输出而非平面文本。它能够保留表格结构、阅读顺序和语义类别，在具有挑战性的基准测试中显著提升准确性，并提高了针对 PDF、扫描件和复杂报告的下游检索与推理的可靠性。这些结构化输出还支持更多语义分块，帮助检索系统按照有意义的内容边界而非任意文本窗口拆分文档。

回答：在 RAG 工作流中，提取阶段决定了可用于检索的证据的质量和结构。当优先考虑吞吐量时，可使用 PDFium 处理数字生成的 PDF；当需要在速度与准确性之间取得良好平衡的视觉信息提取时，可使用 OCR；当更丰富的布局和文档结构有助于提升分块和检索质量时，可使用 Nemotron Parse。在 NeMo Retriever 中，选择 OCR 提取路径后，文档提取将通过 NeMo Retriever OCR 服务进行。

简而言之：PDFium 最适合数字生成的 PDF，OCR 兼顾速度和视觉信息提取，Nemotron Parse 则优先考虑布局保真度和语义结构。

快速链接

Hugging Face 上的 Nemotron RAG

Nemotron RAG 文档

Hugging Face 上的 Nemotron Parse

Nemotron Parse 文档

面向企业 RAG 的 NVIDIA Blueprint