将复杂文档、报告、演示文稿、PDF、网页和电子表格转化为可搜索的智能信息。
概览:为何选择智能文档处理
智能文档处理通过识别最重要的信息,帮助机构将各种多模态内容 (例如报告、合同、申报文件、政策和研究论文) 转化为结构化且可搜索的洞察。
借助 NVIDIA Nemotron 开放模型和库进行文档处理,集成了高保真提取、多模态检索以及基于事实的生成能力。团队可以构建像专家一样解读文档的 AI 智能体,同时保留对原始来源的可追溯性。
这些优势覆盖多个领域,可帮助分析师、研究人员和最终用户团队实现更优成果。
快速链接
Edison Scientific 是 FutureHouse 的分支公司,正在打造具备自主发现能力的 AI 科学家 Kosmos。 Kosmos 是一个多智能体系统,配备专门的文献智能体,旨在解答有关科学文献、临床试验和专利的问题。 文献智能体由 Nemotron Parse 提供支持,可自主搜索超过 1.75 亿份文档,以回答研究人员的问题,帮助超过 50,000 名科学家开展发现工作。
对于每个页面,Nemotron Parse 都会返回用于嵌入和搜索的语义文本,然后对视觉内容图像区域进行分段,以用于多模态 LLM 推理。
科学论文并非按照通用标准编写,且往往包含容易被误读的复杂图表。 Nemotron Parse 对于识别 PDF 中的相关表格、图形和文本至关重要,LLM 随后可基于这些内容进行推理,并生成对用户查询的回答。
Edison 的文献智能体可以帮助实现以下目标:
快速而准确地理解科学文献是其中的关键能力,借助这项能力,Kosmos 能够在一天内完成原本需要 6 个月的研究工作,并实现 80% 的可复现性。
快速链接
技术实施
智能文档处理工作流由三个核心组件构建:提取、嵌入与索引以及用于答案生成的重排序。
开发者可以借助开放模型、NeMo Retriever 和 NIM 进行配置、扩展和部署。
将 NeMo Retriever 库与自托管或 NVIDIA 托管的解析及 OCR 服务结合使用,可摄取 PDF、网页及其他多模态文档,并在保留布局与语义的同时,将其转换为文本块、Markdown 表格和图表裁剪等结构化单元。 该阶段通过保留表格和图形的原有表现形式来“释放”丰富内容,生成可供下游检索与生成模型可靠使用的 JSON 输出。
将所提取的项目输入到 Nemotron 多模态嵌入模型中,将文本、表格和图表编码为专为文档检索而定制的稠密向量。 将这些向量和相关元数据存储在 Milvus 等向量数据库中,即可实现对数百万个文档元素执行毫秒级语义搜索,并在新内容到达时确保知识库持续更新。
从向量索引中检索前 K 个候选项,并利用 Nemotron 交叉编码器重排序,优先保留最贴近用户问题的段落、表格和图形答案。 然后将重排序后的上下文传入 Nemotron 生成模型,生成有依据的回复,并明确引用原始页面和图表,助力业务、金融和科研团队信任并审计系统支持的每一项决策。
使用开放式 Nemotron 技术构建智能文档处理工作流的代码演练
快速链接
快速链接
生产级 NVIDIA RAG 工作流包括向量数据库和容器化 NIM 或基于 Kubernetes 的部署,用于在大规模文档场景下扩展提取、嵌入和检索。 对于自托管部署,应选择具有足够显存的 NVIDIA GPU;或者,也可以选择托管端点来降低对本地基础设施的要求。 您还需要调整提取设置 (例如表格输出格式和页面级拆分),选择适当的 Nemotron 提取、嵌入和重排序模型,并利用系统测量吞吐量、延迟和引用质量,从而满足企业级服务水平协议 (SLA) 的要求。
Nemotron Parse 采用具有空间定位的视觉语言架构,检测和提取文本、表格、图表和布局元素,生成结构化、机器可读的输出而非平面文本。 它能够保留表格结构、阅读顺序和语义类别,在具有挑战性的基准测试中显著提升准确性,并提高了针对 PDF、扫描件和复杂报告的下游检索与推理的可靠性。这些结构化输出还支持更多语义分块,帮助检索系统按照有意义的内容边界而非任意文本窗口拆分文档。
回答:在 RAG 工作流中,提取阶段决定了可用于检索的证据的质量和结构。 当优先考虑吞吐量时,可使用 PDFium 处理数字生成的 PDF;当需要在速度与准确性之间取得良好平衡的视觉信息提取时,可使用 OCR;当更丰富的布局和文档结构有助于提升分块和检索质量时,可使用 Nemotron Parse。 在 NeMo Retriever 中,选择 OCR 提取路径后,文档提取将通过 NeMo Retriever OCR 服务进行。
简而言之:PDFium 最适合数字生成的 PDF,OCR 兼顾速度和视觉信息提取,Nemotron Parse 则优先考虑布局保真度和语义结构。
快速链接