场景概述

企业数据正在快速增长,同时越来越多的业务需要从实时数据分析中获得洞察,这意味着对于大数据分析性能的追求不会到达终点。
特别面向Spark SQL查询的海量数据分析常见痛点是计算存储分离的架构以及本地高容量低性能的存储中,及时查询语句的性能经常被受限于I/O端性能。
因此,典型Spark SQL查询中,如何区别冷热数据,真正被经常处理的数据使用DCPM进行加速缓存,或者对计算端本地缓存和Spark进程内数据缓存,提升数据分析的性能。具体数据分析场景如下:

方案概述

东方国信基于东方国信大数据平台企业版(BEH),选取了TPC-DS中的I/O密集型的查询进行验证,以评估使用Optane PMem Cache的OAP带来的性能提升。

东方国信大数据平台企业版 (BEH) 通用产品解决方案如下:

为了在大数据分析应用中进一步提升 BEH 的性能表现,东方国信在服务器节点中使用了第二代英特尔® 至强® 可扩展处理器,并使用高性能的英特尔® 傲腾™ 持久内存作为 Spark SQL 的缓存设备,以加速缓存性能。具体集成方案如下:

结果显示,无论是在单节点还是集群测试环境中,英特尔傲腾持久内存都帮助 BEH 方案实现数倍的性能提升,以及显著的成本节约。

达成效果

除了相对于 DRAM 存储器的成本优势之外,英特尔傲腾持久内存还带来了内存子系统架构的颠覆性变化,将类似于 DRAM存储器的字节寻址能力和类似于存储的持久性合二为一。这种结合意味着它可以直接映射到应用程序地址空间,消除了与传统存储的读写相关的瓶颈,使其成为工作数据和长期存储的主数据层。

东方国信大数据平台企业版 BEH 针对企业应用场景,在高可用、高性能、重要功能特性以及运维等方面进行了创新与增强。在使用英特尔傲腾持久内存优化缓存性能之后,东方国信大数据平台企业版 BEH 的性能得到进一步提升,有望帮助金融、互联网、电信等行业用户有效应对复杂查询及大数据量分析场景,显著改善应用延迟等方面的表现。