NVIDIA Home NVIDIA Home Menu Menu icon Menu Menu icon Close Close icon Close Close icon Close Close icon Caret down icon Accordion is closed, click to open. Caret down icon Accordion is closed, click to open. Caret up icon Accordion is open, click to close. Caret right icon Click to expand Caret right icon Click to expand Caret right icon Click to expand menu. Caret left icon Click to collapse menu. Caret left icon Click to collapse menu. Caret left icon Click to collapse menu. Shopping Cart Click to see cart items Search icon Click to search
Skip to main content
NVIDIA 引领人工智能计算
  • 云服务
    BioNeMo

    适用于生命科学研究和发现的 AI 驱动平台

    DGX Cloud

    基于领先平台的完全托管式端到端 AI 平台

    NeMo

    构建、自定义和部署多模态生成式 AI

    Omniverse Cloud

    将先进的仿真和 AI 技术集成到复杂的 3D 工作流中

    NVIDIA NGC

    加速的、容器化的 AI 模型和 SDK

    数据中心
    概览

    借助 AI 和加速计算实现数据中心现代化

    DGX 平台

    用于模型开发和部署的企业 AI 工厂

    Grace CPU

    用于将数据转化为智能的数据中心架构

    HGX 平台

    专为 AI 和 HPC 打造的超级计算机

    IGX 平台

    适用于边缘 AI 的高级功能安全与信息安全

    MGX 平台

    使用模块化服务器进行加速计算

    OVX 系统

    适用于高性能 AI 的可扩展数据中心基础设施

    嵌入式系统
    Jetson

    适用于自主机器和嵌入式应用的领先平台

    DRIVE AGX

    强大的车载计算能力,适用于 AI 驱动的自动驾驶汽车系统

    Clara AGX

    适用于创新型医疗设备和成像的 AI 计算

    游戏和创作
    GeForce 显卡

    RTX 显卡带来颠覆性的 AI 功能

    笔记本电脑

    经 Max-Q 技术优化的轻薄耐用 RTX 笔记本电脑

    G-SYNC 显示器

    借助 NVIDIA G-SYNC 显示器,畅享流畅、无撕裂的游戏体验

    DLSS

    可提升帧率并增强画质的神经网络渲染技术

    RTX. It's On.

    先进的全景光线追踪和神经网络渲染技术平台

    Reflex

    出色的响应速度,可加快反应速度并提高瞄准精度

    RTX AI PC

    用于游戏、创作、生产力和开发的 AI PC

    NVIDIA Studio

    专为创作者打造的高性能笔记本电脑和台式机

    NVIDIA App

    优化游戏、直播和 AI 赋能的创意

    NVIDIA Broadcast 应用

    AI 增强的语音和视频,适用于更高级的流式传输、视频和通话

    显卡
    Blackwell 架构

    新工业革命的引擎

    Hopper 架构

    为每个数据中心提供高性能、可扩展性和安全性

    Ada Lovelace 架构

    性能和能效带来无限可能

    GeForce

    RTX 显卡带来颠覆性的 AI 功能

    NVIDIA RTX PRO

    加速专业 AI、图形、渲染和计算工作负载

    虚拟 GPU

    适用于可扩展高性能计算的虚拟解决方案

    笔记本电脑
    GeForce 笔记本电脑

    搭载 RTX GPU 的笔记本电脑,专为游戏玩家和创作者打造

    Studio 设计本

    专为创作者打造的高性能笔记本电脑

    NVIDIA RTX PRO 笔记本电脑

    随时随地加速专业 AI 和视觉计算

    网络
    概览

    适用于现代工作负载的加速网络

    DPU 和 SuperNIC

    软件定义的硬件加速器, 适用于网络、存储和安全

    以太网

    以太网在各种应用中的性能、可用性和易用性

    InfiniBand

    适用于超级计算机、AI 和云数据中心的高性能网络

    网络软件

    用于优化性能和可扩展性的网络软件

    网络加速

    适用于现代 GPU 加速数据中心的 IO 子系统

    专业工作站
    DGX Spark

    桌面上的 Grace Blackwell AI 超级计算机

    NVIDIA RTX PRO AI 工作站

    加速 AI 工作流的创新和生产力

    NVIDIA RTX PRO 台式机

    强大的 AI、图形、渲染和计算工作负载

    NVIDIA RTX PRO 笔记本电脑

    随时随地加速专业 AI 和视觉计算

    软件
    代理式 AI — Agent Intelligence Toolkit

    AI Blueprint

    AI 推理 — Dynamo

    AI 推理微服务 — NIM

    AI 微服务 — CUDA-X

    汽车 — DRIVE

    虚拟形象 — Tokkio

    汽车 — DRIVE

    网络安全 — Morpheus

    数据科学 — Apache Spark

    数据科学 — RAPIDS

    决策优化 — cuOpt

    生成式 AI — NeMo

    医疗健康 — Clara

    工业 AI — Omniverse

    智能视频分析 — Metropolis

    NVIDIA Mission Control

    NVIDIA AI Enterprise 平台

    物理 AI — Cosmos

    NVIDIA Run:ai

    机器人 — Isaac

    电信行业 — Aerial

    查看所有软件

    工具
    AI Workbench

    借助 GPU 上的 NVIDIA AI Workbench 简化 AI 开发

    API Catalog

    探索面向开发者的 NVIDIA AI 模型、Blueprint 和工具

    数据中心管理

    适用于数据中心加速的 AI 和 HPC 软件解决方案

    GPU 监控

    监控和管理集群环境中的 GPU 性能

    Nsight

    探索适用于 AI、图形和 HPC 的 NVIDIA 开发者工具

    NGC 目录

    探索 GPU 优化的 AI、HPC 和数据科学软件

    适用于笔记本电脑的 NVIDIA App

    优化企业 GPU 管理

    NVIDIA NGC

    借助 NVIDIA GPU Cloud 解决方案加速 AI 和 HPC 工作负载

    桌面管理器

    借助 NVIDIA RTX Desktop Manager 提高多显示器工作效率

    RTX 加速的创意应用

    专为艺术家和设计师打造的创意工具和 AI 赋能的应用

    视频会议

    AI 赋能的音频和视频增强

  • 人工智能
    概览

    借助 AI 和机器学习提高业务的智能和效率

    代理式 AI

    构建用于推理、规划和行动的 AI 智能体

    AI 数据

    为适用于 AI 的新型企业基础架构提供支持

    对话式 AI

    借助实时语音 AI 实现自然、个性化的交互

    网络安全

    AI 驱动的解决方案,可增强网络安全和 AI 基础设施

    数据科学

    在大型数据集上进行迭代,更频繁地部署模型,并降低总成本

    生成式 AI

    即时运行和部署生成式 AI

    推理

    借助 AI 赋能的应用和服务实现突破性性能

    云和数据中心
    概览

    借助 NVIDIA 为 AI、HPC 和现代工作负载提供支持

    面向企业的 AI 数据平台

    将企业存储带入代理式 AI 时代

    加速计算

    加速计算使用专用硬件来提升 IT 性能

    云计算

    按需提供 IT 资源和服务,实现可扩展性和智能见解

    托管

    加速 AI 在整个组织中的扩展

    MLOps

    借助 MLOps 加速 AI

    网络

    高速以太网互连解决方案和服务

    可持续计算

    借助 AI 和加速计算节省能源并降低成本

    可视化

    NVIDIA 虚拟 GPU 软件提供强大的 GPU 性能

    设计和仿真
    概览

    简化元宇宙应用的构建、运营和连接

    计算机辅助工程

    使用 AI 加速的实时数字孪生开发实时交互式设计

    数字孪生开发

    利用基于物理性质的大规模 OpenUSD 仿真的强大功能

    渲染

    将先进的渲染技术引入专业工作流程

    机器人仿真

    创新解决方案,助您应对机器人开发、边缘和视觉 AI 挑战

    科学可视化

    使研究人员能够以交互式速度可视化其大型数据集

    汽车仿真

    AI 定义的汽车正在改变移动出行的未来

    扩展现实

    通过在虚拟环境中进行沉浸式、可扩展的交互,转变工作流

    高性能计算
    概览

    探索适用于 AI、模拟和加速计算的 NVIDIA HPC 解决方案

    HPC 和 AI

    借助 GPU 加速的 HPC 和 AI 提高准确性

    科学可视化

    使研究人员能够以交互式速度可视化大型数据集

    仿真和建模

    加速仿真工作负载

    量子计算

    借助 QPU 快速推进科学创新

    机器人和边缘AI
    概览

    用于应对机器人、边缘端和视觉 AI 挑战的创新解决方案

    机器人

    GPU 加速的 AI 感知、仿真和软件进展

    边缘 AI

    将 NVIDIA AI 的强大功能带到边缘,提供实时决策解决方案

    视觉 AI

    借助视觉 AI 将数据转化为有价值的见解

    自动驾驶汽车
    概览

    AI 增强型汽车正在改变移动出行的未来

    基础设施

    安全自动驾驶汽车开发所需的数据中心工具

    模拟

    探索用于安全自动驾驶汽车开发的高保真传感器仿真

    车载计算

    开发自动驾驶功能和沉浸式车内体验

    安全

    从云端到车端的先进自动驾驶汽车安全系统

  • 行业
    概览
    建筑、工程、施工和运营
    汽车
    消费互联网
    网络安全
    能源
    金融服务
    医疗健康和生命科学
    高等教育
    游戏开发
    全球公共部门
    制造业
    媒体和娱乐
    餐饮
    零售和快速消费品
    机器人
    智慧城市
    超级计算
    电信
    交通运输
  • 驱动
  • 支持
  • 0
  • 登录 登出
Skip to main content
  • 0
  • Login LogOut
NVIDIA NVIDIA logo
BioNeMo

适用于生命科学研究和发现的 AI 驱动平台

DGX Cloud

基于领先平台的完全托管式端到端 AI 平台

NeMo

构建、自定义和部署多模态生成式 AI

Omniverse Cloud

将先进的仿真和 AI 技术集成到复杂的 3D 工作流中

NVIDIA NGC

加速的、容器化的 AI 模型和 SDK

概览

借助 AI 和加速计算实现数据中心现代化

DGX 平台

用于模型开发和部署的企业 AI 工厂

Grace CPU

用于将数据转化为智能的数据中心架构

HGX 平台

专为 AI 和 HPC 打造的超级计算机

IGX 平台

适用于边缘 AI 的高级功能安全与信息安全

MGX 平台

使用模块化服务器进行加速计算

OVX 系统

适用于高性能 AI 的可扩展数据中心基础设施

Jetson

适用于自主机器和嵌入式应用的领先平台

DRIVE AGX

强大的车载计算能力,适用于 AI 驱动的自动驾驶汽车系统

Clara AGX

适用于创新型医疗设备和成像的 AI 计算

GeForce 显卡

RTX 显卡带来颠覆性的 AI 功能

笔记本电脑

经 Max-Q 技术优化的轻薄耐用 RTX 笔记本电脑

G-SYNC 显示器

借助 NVIDIA G-SYNC 显示器,畅享流畅、无撕裂的游戏体验

DLSS

可提升帧率并增强画质的神经网络渲染技术

RTX. It's On.

先进的全景光线追踪和神经网络渲染技术平台

Reflex

出色的响应速度,可加快反应速度并提高瞄准精度

RTX AI PC

用于游戏、创作、生产力和开发的 AI PC

NVIDIA Studio

专为创作者打造的高性能笔记本电脑和台式机

NVIDIA App

优化游戏、直播和 AI 赋能的创意

NVIDIA Broadcast 应用

AI 增强的语音和视频,适用于更高级的流式传输、视频和通话

Blackwell 架构

新工业革命的引擎

Hopper 架构

为每个数据中心提供高性能、可扩展性和安全性

Ada Lovelace 架构

性能和能效带来无限可能

GeForce

RTX 显卡带来颠覆性的 AI 功能

NVIDIA RTX PRO

加速专业 AI、图形、渲染和计算工作负载

虚拟 GPU

适用于可扩展高性能计算的虚拟解决方案

GeForce 笔记本电脑

搭载 RTX GPU 的笔记本电脑,专为游戏玩家和创作者打造

Studio 设计本

专为创作者打造的高性能笔记本电脑

NVIDIA RTX PRO 笔记本电脑

随时随地加速专业 AI 和视觉计算

概览

适用于现代工作负载的加速网络

DPU 和 SuperNIC

软件定义的硬件加速器, 适用于网络、存储和安全

以太网

以太网在各种应用中的性能、可用性和易用性

InfiniBand

适用于超级计算机、AI 和云数据中心的高性能网络

网络软件

用于优化性能和可扩展性的网络软件

网络加速

适用于现代 GPU 加速数据中心的 IO 子系统

DGX Spark

桌面上的 Grace Blackwell AI 超级计算机

NVIDIA RTX PRO AI 工作站

加速 AI 工作流的创新和生产力

NVIDIA RTX PRO 台式机

强大的 AI、图形、渲染和计算工作负载

NVIDIA RTX PRO 笔记本电脑

随时随地加速专业 AI 和视觉计算

代理式 AI — Agent Intelligence Toolkit

AI Blueprint

AI 推理 — Dynamo

AI 推理微服务 — NIM

AI 微服务 — CUDA-X

汽车 — DRIVE

虚拟形象 — Tokkio

汽车 — DRIVE

网络安全 — Morpheus

数据科学 — Apache Spark

数据科学 — RAPIDS

决策优化 — cuOpt

生成式 AI — NeMo

医疗健康 — Clara

工业 AI — Omniverse

智能视频分析 — Metropolis

NVIDIA Mission Control

NVIDIA AI Enterprise 平台

物理 AI — Cosmos

NVIDIA Run:ai

机器人 — Isaac

电信行业 — Aerial

查看所有软件

AI Workbench

借助 GPU 上的 NVIDIA AI Workbench 简化 AI 开发

API Catalog

探索面向开发者的 NVIDIA AI 模型、Blueprint 和工具

数据中心管理

适用于数据中心加速的 AI 和 HPC 软件解决方案

GPU 监控

监控和管理集群环境中的 GPU 性能

Nsight

探索适用于 AI、图形和 HPC 的 NVIDIA 开发者工具

NGC 目录

探索 GPU 优化的 AI、HPC 和数据科学软件

适用于笔记本电脑的 NVIDIA App

优化企业 GPU 管理

NVIDIA NGC

借助 NVIDIA GPU Cloud 解决方案加速 AI 和 HPC 工作负载

桌面管理器

借助 NVIDIA RTX Desktop Manager 提高多显示器工作效率

RTX 加速的创意应用

专为艺术家和设计师打造的创意工具和 AI 赋能的应用

视频会议

AI 赋能的音频和视频增强

概览

借助 AI 和机器学习提高业务的智能和效率

代理式 AI

构建用于推理、规划和行动的 AI 智能体

AI 数据

为适用于 AI 的新型企业基础架构提供支持

对话式 AI

借助实时语音 AI 实现自然、个性化的交互

网络安全

AI 驱动的解决方案,可增强网络安全和 AI 基础设施

数据科学

在大型数据集上进行迭代,更频繁地部署模型,并降低总成本

生成式 AI

即时运行和部署生成式 AI

推理

借助 AI 赋能的应用和服务实现突破性性能

概览

借助 NVIDIA 为 AI、HPC 和现代工作负载提供支持

面向企业的 AI 数据平台

将企业存储带入代理式 AI 时代

加速计算

加速计算使用专用硬件来提升 IT 性能

云计算

按需提供 IT 资源和服务,实现可扩展性和智能见解

托管

加速 AI 在整个组织中的扩展

MLOps

借助 MLOps 加速 AI

网络

高速以太网互连解决方案和服务

可持续计算

借助 AI 和加速计算节省能源并降低成本

可视化

NVIDIA 虚拟 GPU 软件提供强大的 GPU 性能

概览

简化元宇宙应用的构建、运营和连接

计算机辅助工程

使用 AI 加速的实时数字孪生开发实时交互式设计

数字孪生开发

利用基于物理性质的大规模 OpenUSD 仿真的强大功能

渲染

将先进的渲染技术引入专业工作流程

机器人仿真

创新解决方案,助您应对机器人开发、边缘和视觉 AI 挑战

科学可视化

使研究人员能够以交互式速度可视化其大型数据集

汽车仿真

AI 定义的汽车正在改变移动出行的未来

扩展现实

通过在虚拟环境中进行沉浸式、可扩展的交互,转变工作流

概览

探索适用于 AI、模拟和加速计算的 NVIDIA HPC 解决方案

HPC 和 AI

借助 GPU 加速的 HPC 和 AI 提高准确性

科学可视化

使研究人员能够以交互式速度可视化大型数据集

仿真和建模

加速仿真工作负载

量子计算

借助 QPU 快速推进科学创新

概览

用于应对机器人、边缘端和视觉 AI 挑战的创新解决方案

机器人

GPU 加速的 AI 感知、仿真和软件进展

边缘 AI

将 NVIDIA AI 的强大功能带到边缘,提供实时决策解决方案

视觉 AI

借助视觉 AI 将数据转化为有价值的见解

概览

AI 增强型汽车正在改变移动出行的未来

基础设施

安全自动驾驶汽车开发所需的数据中心工具

模拟

探索用于安全自动驾驶汽车开发的高保真传感器仿真

车载计算

开发自动驾驶功能和沉浸式车内体验

安全

从云端到车端的先进自动驾驶汽车安全系统

概览
建筑、工程、施工和运营
汽车
消费互联网
网络安全
能源
金融服务
医疗健康和生命科学
高等教育
游戏开发
全球公共部门
制造业
媒体和娱乐
餐饮
零售和快速消费品
机器人
智慧城市
超级计算
电信
交通运输
    • 驱动
    • 支持
  • 人工智能
    行业
    解决方案
    • 概览
    • 代理式 AI
    • AI 数据
    • AI 推理
    • 对话式 AI
    • 网络安全
    • 数据科学
    • 生成式 AI
    软件
    • AI 企业平台
    • 代理式 AI - NVIDIA Agent Intelligence Toolkit
    • AI Blueprint
    • AI Foundry
    • AI 推理 - Dynamo
    • AI 推理微服务 - NIM
    • AI 微服务 - CUDA-X
    • 虚拟形象 - Tokkio
    • 网络安全 - Morpheus
    • 数据科学 - RAPIDS
      • 概览
      • Apache Spark
    • 决策优化 - cuOpt
    • 生成式 AI - NeMo
    • 物理 AI - Cosmos
    • 语音 AI – Riva
    • 开始体验
      • API 目录
      • NGC 概述
      • NGC 软件目录
      • 开源软件
      • AI Workbench
    产品
    • 笔记本电脑和工作站
    • 数据中心
    • 云计算
    • DGX Cloud
    资源
    • AI 博客
    • AI Podcast
    • 内容库
    • 客户案例
    • 开发者教育
    • 文档
    • 术语表
    • GTC AI 大会
    • Kaggle Grandmaster
    • 专业服务
    • 研究
    • 初创公司和 VC
    • 技术博客
    • NVIDIA 培训和认证
    • 面向 IT 专业人员培训和认证
    • 可信任 AI
    • 用例
    • 行业
    • 解决方案
      • 代理式 AI
      • AI 数据
      • AI 推理
      • 对话式 AI
      • 网络安全
      • 数据科学
      • 生成式 AI
    • 软件
      • AI 企业平台
      • 代理式 AI - NVIDIA Agent Intelligence Toolkit
      • AI Blueprint
      • AI Foundry
      • AI 推理 - Dynamo
      • AI 推理微服务 - NIM
      • AI 微服务 - CUDA-X
      • 虚拟形象 - Tokkio
      • 网络安全 - Morpheus
      • 数据科学 - RAPIDS
      • 决策优化 - cuOpt
      • 生成式 AI - NeMo
      • 物理 AI - Cosmos
      • 语音 AI – Riva
      • 开始体验
    • 产品
      • 笔记本电脑和工作站
      • 数据中心
      • 云计算
      • DGX Cloud
    • 资源
      • AI 博客
      • AI Podcast
      • 内容库
      • 客户案例
      • 开发者教育
      • 文档
      • 术语表
      • GTC AI 大会
      • Kaggle Grandmaster
      • 专业服务
      • 研究
      • 初创公司和 VC
      • 技术博客
      • NVIDIA 培训和认证
      • 面向 IT 专业人员培训和认证
      • 可信任 AI
      • 用例
    • 行业
    • 解决方案
      • 解决方案
      • 概览
      • 代理式 AI
      • AI 数据
      • AI 推理
      • 对话式 AI
      • 网络安全
      • 数据科学
      • 生成式 AI
    • 软件
      • 软件
      • AI 企业平台
      • 代理式 AI - NVIDIA Agent Intelligence Toolkit
      • AI Blueprint
      • AI Foundry
      • AI 推理 - Dynamo
      • AI 推理微服务 - NIM
      • AI 微服务 - CUDA-X
      • 虚拟形象 - Tokkio
      • 网络安全 - Morpheus
      • 数据科学 - RAPIDS
        • 数据科学 - RAPIDS
        • 概览
        • Apache Spark
      • 决策优化 - cuOpt
      • 生成式 AI - NeMo
      • 物理 AI - Cosmos
      • 语音 AI – Riva
      • 开始体验
        • 开始体验
        • API 目录
        • NGC 概述
        • NGC 软件目录
        • 开源软件
        • AI Workbench
    • 产品
      • 产品
      • 笔记本电脑和工作站
      • 数据中心
      • 云计算
      • DGX Cloud
    • 资源
      • 资源
      • AI 博客
      • AI Podcast
      • 内容库
      • 客户案例
      • 开发者教育
      • 文档
      • 术语表
      • GTC AI 大会
      • Kaggle Grandmaster
      • 专业服务
      • 研究
      • 初创公司和 VC
      • 技术博客
      • NVIDIA 培训和认证
      • 面向 IT 专业人员培训和认证
      • 可信任 AI
      • 用例
    数据科学电子书
    • 关于本书
    • 前言:GPU 正在推动数据科学发展
      • 概览
      • 数据分析的发展
      • 大数据的开端
      • 适用于大数据的 Apache Spark
      • GPU 加快处理速度
      • GPU 加速的数据科学
      • RAPIDS 数据科学框架
      • GPU 的实际应用
    • Spark 简介
      • 概览
      • Spark 如何执行
      • 根据文件创建 DataFrame
      • DataFrame transformation 和 action 操作
      • DataFrame 依赖项
    • Spark 应用程序的执行
      • 概览
      • 查看物理规划
      • 在集群上执行任务
    • Spark SQL 和 DataFrame
      • 概览
      • DataFrame 和 Spark SQL 的优势
      • 优化内存使用率
      • 查询优化
      • 使用 Spark SQL 探索数据
      • 从文件加载数据
      • 使用 Spark SQL
      • 使用 Spark Web UI
      • 总结
    • GPU 加速的 Spark 3
      • 概览
      • Spark 3 和 GPU
      • Spark 中加速的 ETL 和 AI
      • 新的 GPU 加速库
      • GPU 加速的 Spark DataFrame
      • 总结
    • 开始使用 Spark 3
      • 概览
      • 安装和配置
      • 使用物理规划进行监控
      • 调试
      • GPU 显存不足
      • 总结
    • 利用 ML 预测房价
      • 概览
      • 分类和回归
      • 回归
      • 决策树
      • 随机森林
      • 机器学习工作流程
      • 使用 Spark ML 流程
      • 用例数据集示例
      • 将文件中的数据加载到 DataFrame
      • 汇总统计
      • 特征提取和流程
      • 训练模型
      • 预测和模型评估
      • 保存模型
      • 概要
    • 利用 XGBoost 预测出租车费用
      • 概览
      • XGBoost
      • GPU 加速的 XGBoost
      • 定义特征数组
      • 保存模型
      • 总结
    • 附录:代码、资源和作者

    使用 Apache Spark 机器学习预测房价

    Zillow 是美国最大的房地产信息市场之一,也是机器学习 (ML) 这一极具影响力技术的应用典范。Zillow Research 使用 ML 模型来分析每处房产的数百个相关数据点,从而估算房屋价值并预测市场行情变化。本章介绍如何使用 Apache Spark ML 随机森林回归算法来预测某地区房屋的销售价格中值。请注意,目前 Spark ML 中只有 XGBoost 经过 GPU 加速,我们会在下一章介绍这一点。

    分类和回归

    分类和回归是监督式机器学习算法的两个类别。监督式 ML 也称为预测分析,可利用算法来找出加标签数据中的模式,然后使用可识别这些模式的模型来预测新数据的标签。分类和回归算法采用带标签(也称为目标结果)和特征(也称为属性)的数据集,并学习如何基于这些数据特征标记新数据。  

    分类可识别某个项目所属的类别,如信用卡交易是否合法。回归可预测连续数值,例如房价。 

    回归

    回归可估计目标结果因变量(标签)与一个或多个自变量(特征)之间的关系。回归可用于分析标签和特征变量之间的关系强度,通过调整一个或多个特征变量来确定标签的变化量,并预测标签和特征变量之间的趋势。 

    我们来看一下有关房价的线性回归示例,其中给定了历史房价以及房屋面积(以平方英尺计)、卧室数量和位置等房屋特征:

    • 我们要预测什么呢?
      我们的预测对象即为标签:房价
    • 可利用哪些数据属性来预测?
      可利用以下特征:要构建回归模型,您可以提取与标签关系最密切且对预测最有帮助的重要特征。
      在以下示例中,我们将使用房屋面积作为数据特征。

    线性回归对 Y“标签”与 X“特征”之间的关系进行建模,, in this case the relationship between the house price and size, with the equation: Y = 截距 +(系数 * X)+ 误差。系数用于衡量特征对标签的影响,本例中即房屋面积对房价的影响。

    多重线性回归可对两个或更多“特征”和一个“标签”之间的关系进行建模。例如,若要对房价与房屋面积、卧室数量和卫生间数量之间的关系进行建模,多重线性回归函数将如下所示:

    Yi = β0 + β1X1 + β2X2 + · · · + βp Xp + Ɛ

    Price = = 截距 +(系数 1 * 面积)+(系数 2 * 卧室数量)+(系数 3 * 卫生间数量)+ 误差。

    系数用于衡量每个特征对房价的影响。

    决策树

    决策树将创建一个模型,该模型通过评估一组遵循 if-then-else 模式的规则来预测标签。if-then-else 特征问题为节点,答案“true”或“false”则为决策树中指向子节点的分支。 

    决策树模型会估算在评估做出正确决策的概率时所需的最少 true/false 问题数。  决策树可用于分类以预测类别或某类别的概率,或用于回归以预测连续数值。以下示例展示了通过简化版决策树预测房价的具体流程:

    • 问题 1:如果房屋面积 > 2000 平方英尺
      • T:问题 2:如果卧室数量 > 3 
        • T:问题 3:如果卫生间数量 > 3
          • T: Price=$400,000
          • F: Price=$200,000

    随机森林

    集成学习算法结合了多种机器学习算法,可获得更出色的模型。随机森林是用于分类和回归的一种主流集成学习方法。该算法基于训练阶段中不同的数据子集,构建出由多个决策树组成的模型。然后结合所有树的输出来作出预测,以便缩小方差并提高预测准确性。  使用随机森林分类会将标签预测为大多数决策树所预测的类。而使用随机森林回归时,标签为各个决策树的回归预测均值。

    Spark 提供了以下回归算法:

    • 线性回归
    • 广义线性回归
    • 决策树回归
    • 随机森林回归
    • 梯度提升树回归
    • XGBoost 回归
    • 生存回归
    • 保序回归

    机器学习工作流程

    机器学习是一个迭代过程,其中包括:

    • 提取、转换和加载 (ETL) 历史数据并对此类数据进行分析,从而提取出重要特征和标签。 
    • 训练、测试和评估 ML 算法的结果,以构建模型。 
    • 将模型用于生产过程,并使用新数据作出预测。
    • 使用新数据监控和更新模型。

    使用 Spark ML 流程

    必须将 ML 算法要使用的特征和标签置入某个特征向量中,该向量为数字向量,代表每个特征的值。特征向量用于训练、测试和评估 ML 算法的结果,以构建最佳模型。

    参考学习 Spark

    Spark ML 提供了一套统一的高级别 API,这些 API 基于 DataFrame 构建,用于搭建 ML 流程或 ML 工作流程。基于 DataFrame 构建 ML 流程可实现分区数据处理的可扩展性,且便于通过 SQL 操作数据。

    在 Spark ML 流程中,我们通过转换器传递数据并提取特征,使用估测器生成模型,并使用评估器测量模型的准确性。

    • 转换器:转换器是将一种 DataFrame 转换为另一种 DataFrame 的算法。我们将使用转换器来创建带特征向量列的 DataFrame。
    • 估测器:估测器是可对 DataFrame 进行拟合以生成转换器的算法。我们将使用估测器来训练模型,然后返回转换器模型,以便将预测列添加到带特征向量列的 DataFrame 中。 
    • 流程:流程将多个转换器和估测器相连接,从而指定 ML 工作流程。
    • 评估器:评估器根据标签和 DataFrame 预测列评估所训练模型的准确性。

    用例数据集示例

    在本示例中,我们将使用由 StatLib 库提供的加利福尼亚房价数据集。该数据集包含基于 1990 年加利福尼亚人口普查数据的 20640 条记录,每条记录均代表一个地理街区。以下列表给出了有关数据集属性的说明。

    • 房价中值:街区内各家房屋的房价中值(以千美元计)。
    • 经度:东西向测量值,越往西数值越大。
    • 纬度:南北向测量值,越往北数值越大。
    • 房龄中值:街区内的房龄中值,数值越小说明房屋越新。
    • 房间总数:街区内的房间总数。
    • 卧室总数:街区内的卧室总数。
    • 人口数:街区内的居住总人数。
    • 家庭数:街区内的家庭总数。
    • 收入中值:街区内家庭的收入中值(以万美元计)。

    To build a model, you extract the features that most contribute to the prediction. In order to make some of the features more relevant for predicting the median house value, instead of using totals we’ll calculate and use these ratios: rooms per house=total rooms/households, people per house=population/households, and bedrooms per rooms=卧室总数/房间总数。

    在这种情况下,我们对以下标签和特征使用随机森林回归:

    • 标签 → 房价中值
    • 特征 → {"median age", "median income", "rooms per house", "population per house", "bedrooms per room", "longitude", "latitude" }

    将文件中的数据加载到 DataFrame

    第一步是将数据加载到 DataFrame。在以下代码中,我们指定了要加载到数据集的数据源和模式。

    import org.apache.spark._
    import org.apache.spark.ml._
    import org.apache.spark.ml.feature._
    import org.apache.spark.ml.regression._
    import org.apache.spark.ml.evaluation._
    import org.apache.spark.ml.tuning._
    import org.apache.spark.sql._
    import org.apache.spark.sql.functions._
    import org.apache.spark.sql.types._
    import org.apache.spark.ml.Pipeline

    val schema = StructType(Array(
        StructField("longitude", FloatType,true),
        StructField("latitude", FloatType, true),
        StructField("medage", FloatType, true),
        StructField("totalrooms", FloatType, true),
        StructField("totalbdrms", FloatType, true),
        StructField("population", FloatType, true),
        StructField("houshlds", FloatType, true),
        StructField("medincome", FloatType, true),
        StructField("medhvalue", FloatType, true)
    )) 

    var file ="/path/cal_housing.csv"

    var df  = spark.read.format("csv").option("inferSchema", "false").schema(schema).load(file) 

    df.show
    result:
    +---------+--------+------+----------+----------+----------+--------+---------+---------+
    |longitude|latitude|medage|totalrooms|totalbdrms|population|houshlds|medincome|medhvalue|
    +---------+--------+------+----------+----------+----------+--------+---------+---------+
    |  -122.23|   37.88|  41.0|     880.0|     129.0|     322.0|   126.0|   8.3252| 452600.0|
    |  -122.22|   37.86|  21.0|    7099.0|    1106.0|    2401.0|  1138.0|   8.3014| 358500.0|
    |  -122.24|   37.85|  52.0|    1467.0|     190.0|     496.0|   177.0|   7.2574| 352100.0|
    +---------+--------+------+----------+----------+----------+--------+---------+---------+

    In the following code example, we use the DataFrame withColumn() transformation, to add columns for the ratio features: rooms per house=total rooms/households, people per house=population/households, and bedrooms per rooms=卧室总数/房间总数。然后,我们缓存 DataFrame 并创建临时视图,以增强性能,同时提高 SQL 的易用性。

    // 为特征创建比率
    df = df.withColumn("roomsPhouse", col("totalrooms")/col("houshlds"))
    df = df.withColumn("popPhouse", col("population")/col("houshlds"))
    df = df.withColumn("bedrmsPRoom", col("totalbdrms")/col("totalrooms"))

    df=df.drop("totalrooms","houshlds", "population" , "totalbdrms")

    df.cache
    df.createOrReplaceTempView("house")
    spark.catalog.cacheTable("house")

    汇总统计

    Spark DataFrame 包含一些用于统计处理的内置函数。describe() 函数对数字列执行汇总统计计算,并将统计值作为 DataFrame 返回。以下代码显示了标签和某些特征的若干统计信息。

    df.describe("medincome","medhvalue","roomsPhouse","popPhouse").show
    result:

    +-------+------------------+------------------+------------------+------------------+
    |summary|         medincome|         medhvalue|       roomsPhouse|         popPhouse|
    +-------+------------------+------------------+------------------+------------------+
    |  count|             20640|             20640|             20640|             20640|
    |   mean|3.8706710030346416|206855.81690891474| 5.428999742190365| 3.070655159436382|
    | stddev|1.8998217183639696|115395.61587441359|2.4741731394243205| 10.38604956221361|
    |    min|            0.4999|           14999.0|0.8461538461538461|0.6923076923076923|
    |    max|           15.0001|          500001.0| 141.9090909090909|1243.3333333333333|
    +-------+------------------+------------------+------------------+------------------+

    DataFrame Corr() 函数用于计算 DataFrame 中两列数据的皮尔逊相关系数。此函数基于协方差法衡量两个变量之间的统计关系。相关系数值的范围为 1 到 -1,其中 1 表示完全正相关,-1 表示完全负相关,0 表示不相关。如下所示,收入中值和房价中值之间存在正相关关系。

    df.select(corr("medhvalue","medincome")).show()

    +--------------------------+
    |corr(medhvalue, medincome)|
    +--------------------------+
    |         0.688075207464692|
    +--------------------------+

    以下散点图中,Y 轴表示房价中值,X 轴表示收入中值,此图表明二者之间为线性相关。

    以下代码使用 DataFrame randomSplit 方法将数据集随机分为两部分,其中 80% 用于训练,20% 用于测试。

    val Array(trainingData, testData) = df.randomSplit(Array(0.8, 0.2), 1234)

    特征提取和流程

    下列代码将创建 VectorAssembler(一种转换器),此转换器可用于流程中,将一组给定列组合为单个特征向量列。  

    val featureCols = Array("medage", "medincome", "roomsPhouse", "popPhouse", "bedrmsPRoom", "longitude", "latitude")

    //将特征放入特征矢量列中   
    val assembler = new
    VectorAssembler().setInputCols(featureCols).setOutputCol("rawfeatures")

    以下代码将创建 StandardScaler(一种转换器),此转换器可用于流程中,通过使用 DataFrame 列汇总统计将特征扩展到单位方差,进而将特征标准化。

    val scaler = new
    StandardScaler().setInputCol("rawfeatures").setOutputCol("features").setWithStd(true.setWithMean(true)

    在流程中运行这些转换器的结果是将向数据集中添加一个扩展的特征列,如下图所示。

    流程中的最后一个元素是 RandomForestRegressor(一种估测器),此估测器通过特征向量和标签进行训练,然后返回 RandomForestRegressorModel(一种转换器)。 

    val rf = new
    RandomForestRegressor().setLabelCol("medhvalue").setFeaturesCol("features")

    在以下示例中,我们将 VectorAssembler、Scaler 和 RandomForestRegressor 置于一个流程中。流程将多个转换器和估测器相链接,以指定用于训练和使用模型的 ML 工作流程。

    val steps =  Array(assembler, scaler, rf)

    val pipeline = new Pipeline().setStages(steps)

    训练模型

    Spark ML 支持通过一项名为“K 折交叉验证”的技术来测试不同的参数组合,从而确定 ML 算法的哪些参数值可生成最佳模型。通过 K 折交叉验证,数据将随机分为 K 个分区。每个分区都将作为测试数据集使用一次,其余分区则用于训练。然后,通过训练集生成模型,通过测试集评估模型,最终生成 K 模型准确性测量值。使准确性测量值达到最高的模型参数将生成最佳模型。

    Spark ML 通过转换或估测流程支持 K 折交叉验证,此流程可使用名为“网格搜索”的过程来测试不同的参数组合,您可以在交叉验证工作流程中设置参数供其测试。

    以下代码使用 ParamGridBuilder 构造用于模型训练的参数网格。我们会定义 RegressionEvaluator,其通过对比测试 medhvalue 列与测试预测列,对模型进行评估。我们使用 CrossValidator 来选择模型。CrossValidator 使用流程、参数网格和评估器来拟合训练数据集,并返回最佳模型。CrossValidator 使用 ParamGridBuilder 来迭代 RandomForestRegressor 估测器的 maxDepth、maxBins 和 numbTrees 参数,并评估模型,为得到可靠的结果,每个参数值重复三次。

    val paramGrid = new ParamGridBuilder()
          .addGrid(rf.maxBins, Array(100, 200))
          .addGrid(rf.maxDepth, Array(2, 7, 10))
          .addGrid(rf.numTrees, Array(5, 20))
          .build()

    val evaluator = new RegressionEvaluator()
      .setLabelCol("medhvalue")
      .setPredictionCol("prediction")
      .setMetricName("rmse")

    val crossvalidator = new CrossValidator()
        .setEstimator(pipeline)
        .setEvaluator(evaluator)
        .setEstimatorParamMaps(paramGrid)
        .setNumFolds(3)

    // 拟合训练数据集并返回模型
    val pipelineModel = crossvalidator.fit(trainingData)

    接下来,我们可获得最佳模型,从而理清特征重要程度。结果表明,收入中值、每个房屋的人口数和经度是最重要的特征。 

    val featureImportances = pipelineModel
          .bestModel.asInstanceOf[PipelineModel]
          .stages(2)
          .asInstanceOf[RandomForestRegressionModel]
          .featureImportances 

    assembler.getInputCols
          .zip(featureImportances.toArray)
          .sortBy(-_._2)
          .foreach { case (feat, imp) => 
          println(s"feature: $feat, importance: $imp") }

    result:
    feature: medincome, importance: 0.4531355014139285
    feature: popPhouse, importance: 0.12807843645878508
    feature: longitude, importance: 0.10501162983981065
    feature: latitude, importance: 0.1044621179898163
    feature: bedrmsPRoom, importance: 0.09720295935509805
    feature: roomsPhouse, importance: 0.058427239343697555
    feature: medage, importance: 0.05368211559886386

    在以下示例中,我们利用交叉验证过程获得了可生成最佳随机森林模型的参数,即此过程的返回值:最大深度为 2,最大箱数为 50,且棵树为 5。

    val bestEstimatorParamMap = pipelineModel
          .getEstimatorParamMaps
          .zip(pipelineModel.avgMetrics)
          .maxBy(_._2)
          ._1
    println(s"Best params:\n$bestEstimatorParamMap")


    result:
        rfr_maxBins: 50,
        rfr_maxDepth: 2,
        rfr_-numTrees: 5

    预测和模型评估

    接下来,我们使用测试 DataFrame 来测量模型的准确性,测试 DataFrame 是从原始 DataFrame 随机分割的数据,占原始 DataFrame 的 20%,且未用于训练。

    在以下代码中,我们在流程模型上调用转换,此操作将依照流程步骤将测试 DataFrame 传入特征提取阶段,通过由模型调整选出的随机森林模型进行估测,然后将预测结果返回到新的 DataFrame 列。 

    val predictions = pipelineModel.transform(testData)
    predictions.select("prediction", "medhvalue").show(5)

    result:
    +------------------+---------+
    |        prediction|medhvalue|
    +------------------+---------+
    |104349.59677450571|  94600.0|
    | 77530.43231856065|  85800.0|
    |111369.71756877871|  90100.0|
    | 97351.87386020401|  82800.0|
    +------------------+---------+

    With the predictions and labels from the test data, we can now evaluate the model. To evaluate the linear regression model, you measure how close the predictions values are to the label values. The error in a prediction, shown by the green lines below, is the difference between the prediction (the regression line Y value) and the actual Y value, or label. (Error = prediction-label)。

    平均绝对误差 (MAE) 是标签值与模型预测值之间的平均绝对差值。绝对值会消除所有负号。
    MAE = sum(absolute(prediction-label)) / 观察次数)。 

    The Mean Square Error (MSE) is the sum of the squared errors divided by the number of observations. The squaring removes any negative signs and also gives more weight to larger differences. (MSE = sum(squared(prediction-label)) / 观察次数)。 

    均方根误差 (RMSE) 是 MSE 的平方根。RMSE 是预测误差的标准偏差。误差表示的是标签数据点距回归线的距离,而 RMSE 则表示误差的分散程度。

    The following code example uses the DataFrame withColumn transformation, to add a column for the error in prediction: error=prediction-medhvalue。然后,我们显示预测值、房价中值和误差的汇总统计信息(以千美元计)。 

    predictions = predictions.withColumn("error",
    col("prediction")-col("medhvalue"))

    predictions.select("prediction", "medhvalue", "error").show

    result: 
    +------------------+---------+-------------------+
    |        prediction|medhvalue|              error|
    +------------------+---------+-------------------+
    | 104349.5967745057|  94600.0|  9749.596774505713|
    |  77530.4323185606|  85800.0| -8269.567681439352|
    | 101253.3225967887| 103600.0| -2346.677403211302|
    +------------------+---------+-------------------+


    predictions.describe("prediction", "medhvalue", "error").show
    result:
    +-------+-----------------+------------------+------------------+
    |summary|       prediction|         medhvalue|             error|
    +-------+-----------------+------------------+------------------+
    |  count|             4161|              4161|              4161|
    |   mean|206307.4865123929|205547.72650805095| 759.7600043416329|
    | stddev|97133.45817381598|114708.03790345002| 52725.56329678355|
    |    min|56471.09903814694|           26900.0|-339450.5381565819|
    |    max|499238.1371374392|          500001.0|293793.71945819416|
    +-------+-----------------+------------------+------------------+

    以下代码示例使用 Spark RegressionEvaluator,计算预测 DataFrame 的 MAE,并返回 36636.35(千美元)。

    val maevaluator = new RegressionEvaluator()
      .setLabelCol("medhvalue")
      .setMetricName("mae")

    val mae = maevaluator.evaluate(predictions)
    result: 
    mae: Double = 36636.35

    以下代码示例使用 Spark RegressionEvaluator,计算预测 DataFrame 的 RMSE,并返回 52724.70。

    val evaluator = new RegressionEvaluator()
      .setLabelCol("medhvalue")
      .setMetricName("rmse")
    val rmse = evaluator.evaluate(predictions)

    result: 
    rmse: Double = 52724.70 

    保存模型

    现在,我们可以将拟合的流程模型保存到分布式文件存储中,供以后在生产中使用。此操作可同时保存特征提取阶段和模型调整所选择的随机森林模型。

    pipelineModel.write.overwrite().save(modeldir)

    保存流程模型会得到一个元数据的 JSON 文件和一个模型数据的 Parquet。我们可以使用加载命令重新加载模型,原始模型和重新加载的模型相同:

    val sameModel = CrossValidatorModel.load(“modeldir")

    总结

    本章中,我们讨论了回归、决策树和随机森林算法,介绍了 Spark ML 流程的基础知识,并通过实际示例来预测房价中值。

    请您注册以阅读全文

    Welcome back. Not you? 登出
    Welcome back. Not you? Clear form
    1. Section
    • Section
    Section
    中国大陆
    • 地点
    • 阿富汗
    • 奥兰群岛
    • 阿尔巴尼亚
    • 阿尔及利亚
    • 美属萨摩亚
    • 安道尔
    • 安哥拉
    • 安圭拉
    • 南极洲
    • 安提瓜和巴布达
    • 阿根廷
    • 亚美尼亚
    • 阿鲁巴
    • 澳大利亚
    • 奥地利
    • 阿塞拜疆
    • 巴哈马
    • 巴林
    • 孟加拉国
    • 巴巴多斯
    • 白俄罗斯
    • 比利时
    • 伯利兹
    • 贝宁
    • 百慕大
    • 不丹
    • 玻利维亚
    • 博奈尔岛、圣尤斯特歇斯岛和萨巴岛
    • 波斯尼亚和黑塞哥维那
    • 博茨瓦纳
    • 布韦岛
    • 巴西
    • 英属印度洋领地
    • 英属维尔京群岛
    • 文莱达鲁萨兰国
    • 保加利亚
    • 布基纳法索
    • 布隆迪
    • 柬埔寨
    • 喀麦隆
    • 加拿大
    • 佛得角
    • 开曼群岛
    • 中非共和国
    • 乍得
    • 智利
    • 中国大陆
    • 圣诞岛
    • 科科斯(基林)群岛
    • 哥伦比亚
    • 科摩罗
    • 刚果(布)
    • 刚果(金)
    • 库克群岛
    • 哥斯达黎加
    • 科特迪瓦
    • 克罗地亚
    • 古巴
    • 库拉索
    • 塞浦路斯
    • 捷克共和国
    • 丹麦
    • 吉布提
    • 多米尼加
    • 多米尼加共和国
    • 厄瓜多尔
    • 埃及
    • 萨尔瓦多
    • 赤道几内亚
    • 厄立特里亚
    • 爱沙尼亚
    • 斯威士兰
    • 埃塞俄比亚
    • 福克兰群岛(马尔维纳斯群岛)
    • 法罗群岛
    • 斐济
    • 芬兰
    • 法国
    • 法属圭亚那
    • 法属波利尼西亚
    • 法属南部和南极领地
    • 加蓬
    • 冈比亚
    • 格鲁吉亚
    • 德国
    • 加纳
    • 直布罗陀
    • 希腊
    • 格陵兰
    • 格林纳达
    • 瓜德罗普岛
    • 关岛
    • 危地马拉
    • 根西岛
    • 几内亚
    • 几内亚比绍
    • 圭亚那
    • 海地
    • 赫德岛和麦克唐纳群岛
    • 洪都拉斯
    • 香港
    • 匈牙利
    • 冰岛
    • 印度
    • 印度尼西亚
    • 伊朗
    • 伊拉克
    • 爱尔兰
    • 马恩岛
    • 以色列
    • 意大利
    • 牙买加
    • 日本
    • 泽西岛
    • 约旦
    • 哈萨克斯坦
    • 肯尼亚
    • 基里巴斯
    • 朝鲜
    • 韩国
    • 科威特
    • 吉尔吉斯斯坦
    • 老挝人民民主共和国
    • 拉脱维亚
    • 黎巴嫩
    • 莱索托
    • 利比里亚
    • 利比亚
    • 列支敦士登
    • 立陶宛
    • 卢森堡
    • 澳门
    • 马达加斯加
    • 马拉维
    • 马来西亚
    • 马尔代夫
    • 马里
    • 马耳他
    • 马绍尔群岛
    • 马提尼克岛
    • 毛里塔尼亚
    • 毛里求斯
    • 马约特岛
    • 墨西哥
    • 密克罗尼西亚联邦
    • 摩尔多瓦共和国
    • 摩洛哥
    • 蒙古
    • 黑山
    • 蒙特塞拉特
    • 摩洛哥
    • 莫桑比克
    • 缅甸
    • 纳米比亚
    • 瑙鲁
    • 尼泊尔
    • 新喀里多尼亚
    • 新西兰
    • 尼加拉瓜
    • 尼日尔
    • 尼日利亚
    • 纽埃
    • 诺福克岛
    • 北马其顿
    • 北马里亚纳群岛
    • 挪威
    • 阿曼
    • 巴基斯坦
    • 帕劳
    • 巴勒斯坦国
    • 巴拿马
    • 巴布亚新几内亚
    • 巴拉圭
    • 秘鲁
    • 菲律宾
    • 皮特凯恩
    • 波兰
    • 葡萄牙
    • 波多黎各
    • 卡塔尔
    • 留尼汪
    • 罗马尼亚
    • 俄罗斯
    • 卢旺达
    • 圣赫勒拿岛
    • 圣基茨和尼维斯
    • 圣卢西亚
    • 圣皮埃尔和密克隆群岛
    • 圣文森特和格林纳丁斯
    • 圣巴泰勒米
    • 圣马丁(法属部分)
    • 萨摩亚
    • 圣马力诺
    • 圣多美和普林西比
    • 沙特阿拉伯
    • 塞内加尔
    • 塞尔维亚
    • 塞舌尔
    • 塞拉利昂
    • 新加坡
    • 荷属圣马丁
    • 斯洛伐克
    • 斯洛文尼亚
    • 所罗门群岛
    • 索马里
    • 南非
    • 南乔治亚和南桑威奇群岛
    • 南苏丹
    • 西班牙
    • 斯里兰卡
    • 苏丹
    • 苏里南
    • 斯瓦尔巴特群岛和扬马延岛
    • 瑞典
    • 瑞士
    • 叙利亚
    • 台湾
    • 塔吉克斯坦
    • 坦桑尼亚
    • 泰国
    • 荷兰
    • 东帝汶
    • 多哥
    • 托克劳
    • 汤加
    • 特立尼达和多巴哥
    • 突尼斯
    • 土耳其
    • 土库曼斯坦
    • 特克斯和凯科斯群岛
    • 图瓦卢
    • 乌干达
    • 乌克兰
    • 阿拉伯联合酋长国
    • 英国
    • 美国
    • 美国本土外小岛屿
    • 乌拉圭
    • 乌兹别克斯坦
    • 瓦努阿图
    • 梵蒂冈
    • 委内瑞拉
    • 越南
    • 美属维尔京群岛
    • 瓦利斯和富图纳群岛
    • 西撒哈拉
    • 也门
    • 赞比亚
    • 津巴布韦
    中文 (简体)
    • 首选语言
    • 中文 (简体)
    • 中文 (繁体)
    • 捷克语
    • 丹麦语
    • 荷兰语
    • 英语 (澳大利亚)
    • 英语 (英国)
    • 英语 (印度)
    • 英语 (马来西亚)
    • 英语 (菲律宾)
    • 英语 (新加坡)
    • 英语 (美国)
    • 芬兰语
    • 法语
    • 法语 (比利时)
    • 德语
    • 德语 (奥地利)
    • 印度尼西亚语
    • 意大利语
    • 日语
    • 韩语
    • 荷兰语 (比利时)
    • 挪威语
    • 波兰语
    • 葡萄牙语 (巴西)
    • 西班牙语 (拉丁美洲)
    • 西班牙语 (西班牙)
    • 瑞典语
    • 泰语
    • 土耳其语
    • 越南语
    省/自治区/直辖市
    • 省/自治区/直辖市
    • 安徽
    • 北京
    • 重庆
    • 福建
    • 广东
    • 甘肃
    • 广西
    • 贵州
    • 海南
    • 湖北
    • 河北
    • 河南
    • 黑龙江
    • 湖南
    • 吉林
    • 江苏
    • 江西
    • 辽宁
    • 内蒙古
    • 宁夏
    • 青海
    • 四川
    • 山东
    • 上海
    • 陕西
    • 山西
    • 天津
    • 新疆
    • 西藏
    • 云南
    • 浙江

    NVIDIA 隐私政策

    Spark eBook Form Button (Visible on author only)
    产品
    • 笔记本电脑和工作站
    • 数据中心
    • 云计算
    • DGX Cloud
    软件
    • NVIDIA AI Enterprise 平台
    • 代理式 AI - NVIDIA Agent Intelligence Toolkit
    • AI Blueprint
    • AI Foundry
    • AI 基础模型
    • AI 推理 - Dynamo
    • AI 推理微服务 - NIM
    • AI 微服务 - CUDA-X
    • 虚拟形象 - Tokkio
    • 网络安全 - Morpheus
    • 数据科学 - RAPIDS
    • 数据科学 - Apache Spark
    • 决策优化 - cuOpt
    • 生成式 AI - NeMo
    • 物理 AI - Cosmos
    • 语音 AI – Riva
    资源
    • AI 博客
    • AI Podcast
    • API 目录
    • 内容库
    • 客户案例
    • 开发者教育
    • 文档
    • 术语表
    • GTC AI 大会
    • Kaggle Grandmaster
    • NGC 软件目录
    • 开源软件
    • 专业服务
    • 研究
    • 初创公司和 VC
    • 技术博客
    • NVIDIA 培训和认证
    • 面向 IT 专业人员培训和认证
    公司信息
    • 关于 NVIDIA
    • 公司概览
    • 投资者
    • Venture Capital (NVentures)
    • NVIDIA 基金会
    • 研究
    • 社会责任
    • 技术
    • 职业生涯
    关注 NVIDIA AI
    哔哩哔哩 抖音 微博

    扫描二维码关注
    NVIDIA 英伟达微信公众号

    微信
    NVIDIA
    CHN - 中国
    • 隐私声明
    • 管理我的隐私
    • 法律事宜
    • 无障碍访问
    • 产品安全性
    • 联系我们
    Copyright © 2025 NVIDIA Corporation
    Data Science ebook