基因组学分析

借助对短读、长读、单细胞和空间的技术的加速分析,解锁科学洞察。

工作负载

加速计算工具和技术
数据科学

行业

医疗健康和生命科学

业务目标

投资回报
创新

产品

NVIDIA Parabricks
NVIDIA RAPIDS
NVIDIA BioNeMo 服务
NVIDIA AI Enterprise
NIMs

短读序列分析

短读取测序可以生成短 DNA 测序(通常为 50-300 个碱基对)。该技术对于疾病研究和通过全基因组和外显子组测序来支持临床诊断尤为重要。高吞吐量的短读段技术能够实现快速、经济高效且可扩展的分析。

NVIDIA®(英伟达™)Parabricks® 是一套用于二级分析的可扩展基因组学分析软件套件,研究人员和开发者可以进行短读分析,以:

  • 与仅使用 CPU 的解决方案相比,可将全基因组测序 (WGS) 的分析速度最高提升至原来的 135 倍,并降低整体计算成本。
  • 通过再现来自可信赖的开放源代码工具(包括 STAR、BWA-MEM、BWA-METH、DeepVariant、HaplotypeCaller、DeepSomatic、Mutect2 和 Giraffe)的结果,从而提高模型精度并确保透明度。
  • 使用来自 Element、Illumina、Complete 基因组学、Ultima 和 Thermo Fisher 短读长测序仪的数据。

在开始使用 NVIDIA Parabricks 之前,生物信息学家和基因组学平台提供商可以试用面向基因组学分析的 NVIDIA AI Blueprint,以:

  • 借助 NVIDIA Parabricks 轻松部署和运行基因组学分析,无需本地 GPU 或自行管理云资源。
  • 在几分钟内尝试使用完整外显子组测序分析工作流的短读取。
  • 使用 NVIDIA Parabricks FQ2BAM 进行比对,使用 DeepVariant 进行变体识别。

高分辨率腰丛成像。图片来源:United Imaging。

长读序列分析

虽然短读段测序具有成本效益和可扩展性,但在建图复杂遗传变异和探索大型结构变异、拷贝数变异或表观遗传学时,模型精度可能有限。由于长读段测序可以产生更长的序列,因此在这些用于肿瘤学和其他疾病的应用场景中,它的模型精度更高。

通过生成数万个碱基对,长读取可以提高识别更长多态性(包括插入缺失和结构变异)的模型精度。此外,它们能够在不使用参考基因组的情况下实现更高精度的基因组组装。

借助 NVIDIA Parabricks,研究人员和开发者可以进行长读分析,以便:

  • 支持高吞吐量分析、提升速度,并提高模型精度。
  • 通过再现受信赖的开放源代码工具(包括 Minimap2 和 DeepVariant)的结果,提高模型精度并确保透明度。
  • 通过加速碱基调调用、比对和变体检测,解决长读长测序的计算难题。 
  • 使用来自 Oxford Nanopore 和 PacBio 长读段测序仪的数据。

模拟腹部 CT 扫描的 2D 和 3D 可视化。

单细胞分析

十多年来,科学家一直使用单细胞组学研究来更好地了解生物学和疾病。通过观察单个细胞,研究人员可以查看各种细胞状态以及它们之间的相互作用。这有助于研究人员了解基因表达、识别独特状态以及与特定疾病相关的罕见细胞类型。 

批量 RNA 测序方法通常会将来自细胞或组织的 RNA 库汇总起来,以便进行分析。与提供样本细胞平均表达量的基准细胞测序不同,单细胞方法可提供细胞水平的 粒度分析。因此,单细胞组学可更精确地分析控制样本和疾病样本中的单个细胞之间的变化。

借助 NVIDIA 为单细胞组学提供的加速计算和 AI 平台,研究人员和开发者可以:

  • 节省分析时间,以处理日益增大的单细胞数据集。
  • 借助 scverse 开发的 NVIDIA RAPIDS™ 和 RAPIDS 单细胞加速数据处理、聚类、维度、归约和回归。
  • 通过 BioNeMo™ 中的基础模型准确预测基因行为和疾病机制。

在开始使用 RAPIDS 单细胞之前,生物信息学家和数据科学家可以尝试 NVIDIA 单细胞分析 AI Blueprint,以:

  • 使用 NVIDIA RAPIDS 轻松部署和运行单细胞分析,而无需本地 GPU 或自行管理云资源。
  • 测试近乎实时的数据分析,使用 GPU 而非 CPU,只需几分钟即可完成。
  • 借助 Dask,加载和分析包含 1100 万个单元的数据集。

 

图片来源:Bruker Spatial Biology。

空间转录组学分析

虽然单细胞技术能通过在个体层面评估细胞来帮助研究人员了解疾病,但它们缺乏这些细胞周围组织中的空间的上下文。空间转录组学引入后,研究人员可以利用从关系数据到影像数据等一切数据来更好地了解基因表达和细胞动力学。  

关系数据为细胞之间的相互关系提供了上下文,并使得能够将影像数据与分子数据进行 overlay。细胞的定位以及细胞在环境内如何相互作用对于研究至关重要,尤其是在研究罕见细胞类型时。然而,空间组学提供的上下文比局部细胞相互作用要多,能展示疾病在体系架构内是如何发展的。因此,科学家能够获得先前未知的关于罕见细胞类型和疾病进展的空间上下文。

借助 NVIDIA 为空间转录组学提供的加速计算和 AI 平台,研究人员和开发者可以:

  • 通过解决瓶颈问题、提高模型精度,为新颖的分析方法提供助力。
  • 借助 NVIDIA AI 基础模型 VISTA-2D 使用生成式 AI 进行高精度细胞分割。
  • 利用 cuCIM 为空间的加速图像处理和数据加载,并利用 RAPIDS 单细胞分析空间的转录组学方面。
  • 在空间的分析中使用 NVIDIA GPU,以降低处理大量空间数据的分析时间。

使用 CosMx Whole Transcriptome 面板绘制的人脑海马体图像(将于 2025 年上市)。 图片由 Bruker Spatial Biology 提供。

构建此案例

尝试 NVIDIA NIM™ 微服务,快速轻松地部署强大的 AI 模型。

相关用例