AI 推理是人工智能获得结论的过程,它为各每个行业的创新提供动力。但随着数据科学家和工程师不断地突破计算机视觉、语音、自然语言处理 (NLP)、生成式 AI 和推荐系统领域的界限,AI 模型的规模、复杂度和多样性也在迅速发展扩大。为充分利用这个机会,企业组织必须采用基于全栈的 AI 推理方法。

欺诈检测

12.8 亿

每天信用卡交易的次数

呼叫中心

5 亿

每天通话的次数

会议转录

5 亿

每天的分钟数

公共安全

> 10 亿

智慧空间的设备数量

产品推荐

10 亿

每天电商用户的人数

零售业资产

617 亿

每年库存资产的损耗(美元)

医疗影像

1000 万

每天诊断扫描的次数

工业检测

3200 万

视觉传感器的数量

基于 NVIDIA 根据公开数据和行业研报的分析

The Conference for the Era of AI and the Metaverse

Developer Conference March 20-23 | Keynote March 21

Don't miss these upcoming Deep Learning Sessions at GTC Spring 2023:

Deep Learning Demystified

Build a practical understanding of deep learning in this session by exploring the history and ongoing evolution of deep learning, and emerging applications.

Efficient Inference of Extremely Large Transformer Models

Transformer-based language models are seeing an increase in model size since their performance scales exceptionally well with size. Access the key ingredients to making transformer-based models faster, smaller, and more cost-effective, and learn how to optimize them for production.

Taking AI Models to Production: Accelerated Inference with Triton Inference Server

With multiple frameworks, evolving model architectures, the volume of queries, diverse computing platforms, and cloud-to-the-edge AI, the complexity of AI inference is steadily growing. Learn how to standardize and streamline inference without losing model performance.

使用 NVIDIA 平台部署次世代 AI 推理

NVIDIA 提供完整的、端到端的产品和服务堆栈,以驱动次世代的 AI 推理在云、数据中心、网络边缘和嵌入式设备上,至关重要的性能、效率和响应能力。NVIDIA 平台专为具备不同 AI 知识和经验水平的数据科学家、软件开发者和软件基础架构工程师而设计。

Deploy next-generation AI inference with the NVIDIA platform.

探索 NVIDIA AI 推理平台的优势

  • 管理层
  • AI/平台 MLOps
  • AI 开发者
Spend Less Time Waiting for Processes to Finish

加速获取洞察

花更少的时间等待流程完成,花更多的时间用于迭代,解决手头的业务问题。行业领导者已经采用 NVIDIA AI 推理平台,针对各类工作负载运行 AI 推理。

 Higher-accuracy results

获得更棒的成果

轻松将更大、更优质的模型部署到生产环境,以此获得更精确的成果。

Higher ROI

看到更高的投资回报

使用更少的服务器、更低的能耗部署,并可高效扩展,从而大幅降低成本,更快地获取洞察。

Standardize model deployment across applications

标准化部署

将跨应用程序,AI 框架,模型架构和平台的模型部署标准化。

Integrate easily with tools and platforms

可轻松集成

可轻松集成公有云上的工具和平台, 无论是在本地数据中心,还是边缘设备。

Lower Costs

更低的成本

通过 AI 基础设施,实现高吞吐量和利用率,从而能够降低成本。

Easy Application Integration

集成到应用程序

轻松将加速推理集成到您的应用程序。

Best Performance

获得最佳性能

获得最佳的模型性能,并且更好的满足用户需求。NVIDIA 推理平台在领先的 AI 行业性能基准 MLPerf 的多个类别中始终保持创纪录的性能。

Seamlessly Scale Inference with Application Demand

无缝扩展

根据应用程序的需求无缝扩展推理。

探索将 AI 模型部署到生产环境的挑战、解决方案和优秀实践经验。

采用全栈架构的解决方案

NVIDIA 的全栈架构解决方案能够保证 AI 驱动的应用程序以理想的性能、更少的服务器和更低的能耗进行部署,从而实现大幅降低的成本,并且帮助您更快地获取洞察。

full-stack-architectural-approach-850x480

From 3D Design Collaboration to
Digital Twins and Development

NVIDIA Omniverse not only accelerates complex 3D workflows, but also enables ground-breaking new ways to visualize, simulate, and code the next frontier of ideas and innovation. Integrating complex technologies such as ray tracing, AI, and compute into 3D pipelines no longer comes at a cost but brings an advantage.

NVIDIA 加速计算平台

推理 AI 工作负载多种多样:包括 AI 视频,图片生成,大型语言模型 (LLM) ,推荐系统。NVIDIA 推理平台 GPU 产品组合包括适用于 AI 视频的 NVIDIA L4、适用于图片生成的 NVIDIA L40、适用于大型语言模型推理部署的 NVIDIA H100 NVL 和适用于推荐模型的 NVIDIA Grace Hopper。NVIDIA 的全栈推理软件堆栈是推理平台的关键要素,包括 Triton、TensorRT 和 Triton Management Service。这些平台代表了具有弹性和可替代的单一架构,可跨上述所有工作负载运行,但每个平台都经过优化,可在特定的应用案例中表现优异。客户可以针对其主要的工作负载,选择相应的具体平台,从而获得最佳性能。NVIDIA 认证系统™ 由领先的 NVIDIA 合作伙伴打造,采用经过验证的配置将 NVIDIA GPU 和 NVIDIA 高速、安全的网络引入该系统,以实现出色的性能、效率和可靠性。

NVIDIA Accelerated Computing Platform
NVIDIA Triton

NVIDIA Triton

NVIDIA Triton™ 推理服务器是一款开源推理服务软件。Triton 支持所有主流的深度学习和机器学习框架,任何模型架构,包括实时、批处理和流处理框架,模型集成;Triton 可以在在云或本地的任何部署平台上运行,包括 GPU,x86 和 Arm® 架构 CPU。Triton 也支持大型语言模型的多 GPU 多节点推理。它是在每个应用程序中实现快速、可扩展推理的关键。

NVIDIA TensorRT

NVIDIA TensorRT™ 是一款用于高性能深度学习推理的 SDK,包含深度学习推理优化器和运行时,可以实现低延迟、高吞吐的推理应用程序。与仅使用 CPU 的平台相比,NVIDIA TensorRT 可提供多个数量级的高吞吐量,同时更大限度地减少延迟。使用 TensorRT,您可以从任何框架入手,快速优化、验证,并将训练好的神经网络部署到生产环境。

NVIDIA TensorRT
Enterprise Support with NVIDIA AI Enterprise

NVIDIA AI Enterprise 企业级支持

Triton 和 TensorRT 是 NVIDIA AI Enterprise 的一部分,NVIDIA AI Enterprise 是一款端到端的软件套件,可简化 AI 开发和部署,并提供企业级支持。NVIDIA AI Enterprise 提供以下企业级支持:有保障的服务级别协议,与 NVIDIA 专家直接沟通以解决配置、技术和性能问题,优先解决案例,长期支持方案,提供培训和知识库资源。企业可以在云、数据中心和边缘灵活运行集成 NVIDIA AI 的解决方案。

NGC Catalog

The NVIDIA NGC™ catalog is the hub for accelerated software. It offers pretrained models, AI software containers, and Helm charts to easily take AI applications fast to production on premises or in the cloud. 

Learn More >

NGC Catalog

Get a Glimpse of AI Inference Across Industries

Using AI to Combat Financial Fraud

Preventing Fraud in Financial Services

American Express uses AI for ultra-low-latency fraud detection in credit card transactions.

Siemens Energy with NVIDIA Triton Inference Server

Simplifying Energy Inspections

Siemens Energy automates detection of leaks and abnormal noises in power plants with AI.

Amazon with NVIDIA Triton and NVIDIA TensorRT

Boosting Customer Satisfaction Online

Amazon improves customer experiences with AI-driven, real-time spell check for product searches.

Live Captioning and Transcription in Microsoft Teams

Enhancing Virtual Team Collaboration

Microsoft Teams enables highly accurate live meeting captioning and transcription services in 28 languages.

查找更多资源

Join the Community for latest updates & more

加入 AI 推理社区

随时了解最新的 NVIDIA Triton 推理服务器和 NVIDIA TensorRT 产品更新、内容、新闻等。

 Explore the latest NVIDIA Triton on-demand sessions.

观看有关 AI 推理的 GTC 会议

查看 NVIDIA GTC 大会上关于 AI 推理的最新点播演讲视频。

Deploy AI deep learning models.

如何将 AI 模型部署到生产环境

查看这份免费的加速推理指南,探索部署 AI 模型的挑战、解决方案和最佳实践。

探索 NVIDIA Triton and NVIDIA TensorRT 如何为应用程序加速 AI 推理。