图形分析

图形分析(或图形算法)是用于确定图形中对象之间的关系强度和方向的分析工具。图形分析的重点在于每次两个对象之间的成对关系和整个图形的结构特征。

什么是图形分析?

图形分析是一种新兴的数据分析形式,可帮助企业理解网络或图形中关联实体数据之间的复杂关系。  

图形是一种数学结构,用于对物理、生物、社会和信息系统中多种类型的关系和过程进行建模。图形由通过边缘连接(表示这些实体之间的关系)的节点或顶点(表示系统实体)构成。图形处理是一种能够穿梭各边缘和节点的功能,用于发现和理解网络中关联数据之间的复杂关系和/或优化路径

图形由通过边缘连接的节点或顶点构成

图形网络分析有许多用途,例如分析社交网络中的关系、网络威胁检测,以及根据共同偏好识别潜在买家。

在现实世界中,节点可以是人员、群组、地点或事物,例如客户、产品、成员、城市、商店、机场、端口、银行帐户、设备、手机、分子或网页。

节点之间的边缘或关系示例包括友谊、网络连接、超链接、道路、路线、电线、电话、电子邮件、“点赞”、付款、交易、电话呼叫和社交网络消息。边缘可以有一个单向箭头来表示从一个节点到另一个节点的关系,比如 Janet“点赞了”Jeanette 的一篇社交媒体文章。不过,它们也可以是非定向的,比如,如果 Bob 是 Alice 的 Facebook 好友,那么 Alice 也是 Bob 的好友。

为何选择图形分析?

图形分析可用于确定图形中对象之间的关系强度和方向。重点是一次处理两个对象之间的关系,以及整个图形的结构特征。道路网络、通信网络、社交网络、网页和链接以及金融交易数据均为非常适合图形的数据示例。图形分析对于实现以下目标尤为有效: 

  • 检测洗钱等金融犯罪
  • 识别欺诈交易及活动
  • 在社交网络社区执行网红分析
  • 根据客户评级或购买物来执行推荐分析。
  • 发现电网、水网和运输网络的缺点
  • 优化航空公司、零售和制造业的路线

图形分析的工作原理是什么?

图形分析使用聚类、分区、广度优先搜索、PageRank、连接组件和最短路径等特定的图形算法来分析多个应用程序中实体之间的关系:

  • 聚类 – 基于物体的对象进行分组,因此集群内相似度较高,集群间相似性低。应用程序包括机器学习、数据挖掘、统计学、图像处理以及大量物理和社会科学应用程序。
  • 切割或分割 – 找到交叉边缘最少的切口。应用程序包括发现数据和通信网络的薄弱点,以及社交网络中的社区检测。

  • 搜索 – 广度优先搜索和深度优先搜索。

广度优先搜索和深度优先搜索。

  • 最短路径 – 找到两个兴趣节点之间的最短路径。应用程序包括社交网络分析、交通运输物流和许多其他优化问题。

最短路径。

  • 最宽路径 – 在加权图形中找到两个指定顶点之间的路径,从而将路径中最小权重边缘的权重更大化。应用程序包括 IP 流量路由和流量敏感型路线规划。
  • 连接组件 – 强连接图形就是您从任何起始节点开始均可到达图形中每个节点的图形。强连接组件是各个子区域均强连接的图形的最大子区域。应用程序包括社交网络分析。

连接组件。

  • 页面排名 – 一种由互联网搜索用于网页排名的衡量网页受欢迎程度的方法。应用程序还包括社交网络分析、推荐系统以及在自然科学(研究蛋白质之间的关系时)和生态网络中的新用途。

网页排名。

热门图形分析用例

创建推荐系统 通过识别客户、社交媒体和产品数据之间的关系和频率,公司可以创建智能推荐引擎,实时响应客户的在线活动。

检测欺诈。图形分析支持您以极大的灵活性大规模地建模数据关系,快速分析大量交易数据,实时识别欺诈。

遵守监管规定。遵守 HIPAA、PCI/DSS 和 GDPR 等法规关系到各行各业的企业。在收集客户个人信息时,这些法规要求您在这些数据通过各种企业系统传输时能够监控这些数据。图形分析能够为您提供流经不同系统的数据的直观表示,使得在企业系统中追踪敏感数据更加容易。这就会为您提供一种实现合规性的简化方法。

身份认证与访问管理 (IAM)。确定哪些人可以进入敏感的应用程序和数据(基于云和内部部署)是一个复杂的过程。图形分析能够对所有必要的数据进行更加稳健、实时的跨平台管理,从而确定数据之间的关系并加速安全可靠的身份认证与访问管理。

深入了解供应链效率。随着全球化的发展,企业供应链变得更加复杂。借助图形分析,您可以为这些复杂的关系建模,并深入了解供应链运营中效率低下的问题。

构建推荐系统。

                                                                                                                                        构建推荐系统

检测欺诈。

                                                                                                                                                检测欺诈

   

借助 GPU 加速图形分析

网络分析、基因组学、社交网络分析等领域的大规模图形处理需要强大且高效的计算性能。

GPU 具有大规模并行性,并且显存访问带宽优势显著,因此十分适用于加速数据密集型分析,特别是图形分析。GPU 采用大规模并行架构,包含数千个专为同时处理多个任务而设计的小核心,非常适合执行“为每个 X 执行 Y”的计算任务,可应用于大型图形中的顶点或边缘集。

CPU 与 GPU 的区别。

借助 RAPIDS cuGraph 加速 NetworkX

NVIDIA RAPIDS cuGraph 能够提供将 RAPIDS 生态系统与热门的 python 图形库 NetworkX 相集成的加速图形分析库。RAPIDS cuGraph 的愿景是使图形分析无处不在,以便用户只需考虑分析而无需考虑技术或框架。

新款 NVIDIA GPU 的强大计算能力实现更快的加快图形分析速度。此外,GPU 的内部显存速率使 cuGraph 能够快速切换数据结构,满足分析需求,而不限于单一数据结构。

通过有效利用 GPU 中的大规模并行性,RAPIDS 的图形算法能够将大型图形的分析速度提高 1000 多倍。在单块 A100 GPU 上探索多达 2 亿个边缘节点,并在 DGX A100 集群上扩展至数十亿个边缘节点。

NVIDIA GPU 加速的端到端数据科学

NVIDIA RAPIDS 结合了执行高速 ETL、图形分析、机器学习和深度学习的能力。这套完全在 GPU 上执行数据科学流程的开源软件库和 API,可以将训练时间从几天缩短至几分钟。它依赖于 NVIDIA CUDA® 基元进行低级别计算优化,但通过用户友好型 Python 界面实现 GPU 并行结构和极高的显存带宽。

使用机场、航班和距离绘制图形。

RAPIDS cuGraph 无缝集成到 RAPIDS 数据科学生态系统中,使数据科学家能够使用存储在 GPU DataFrame 中的数据轻松调用图形算法。借助 RAPIDS GPU DataFrame,数据可以通过一个类似 Pandas 的接口加载到 GPU 上,然后用于各种连接的机器学习和图形分析算法,而无需离开 GPU。这种级别的互操作性是通过 Apache Arrow 这样的库实现的。从数据准备到机器学习,再到深度学习,它可加速端到端流程。RAPIDS 和 DASK 使 cuGraph 能够扩展为多个 GPU,支持数十亿个边缘图形。