突破局限,第四代至强以七大算力神器诠释工作负载至上

业界 作者:飞象网 2023-01-19 18:15:39


身处数字化转型浪潮的当下,人们对于运算的认知也正在发生变化,除了本地算力,边缘与云端的算力对于工作娱乐生活的影响越来越大,它决定了生命科学的进展、大数据的推理、搜索内容的准确性、视频流媒体的清晰与否、网络能否保持稳定流畅等诸多方面。


英特尔至强可扩展处理器在其中一直发挥着至关重要的作用,无论是企业的服务器与数据中心,还是电信运营商的5G网络部署与云化转型,甚至可能是部分城市中的VR电玩店,都能看到至强的身影。


自2017年英特尔推出了第一款至强可扩展处理器以来,英特尔已经向全球客户交付了超过8500万颗至强可扩展处理器,支持着全世界的数据中心。其中,在过去两年,第三代英特尔至强可扩展处理器已全球累计出货1500万颗。



面对当下的种种现实工作负载需求,最新发布的第四代至强不仅仅单纯依靠于主频与核心的提升来满足实际需求,更是通过七大算力神器,开启一个CPU芯片设计理念和架构的新纪元。


✦  ✦

七大算力神器突破现有局限



“从行业应用需求到真实物理世界的局限性,我们越来越清晰地感知到,仅仅依靠核心频率和核心数量的增强,将不能满足我们在真实工作负载场景下对CPU性能更高的追求。”英特尔市场营销集团副总裁庄秉翰在产品发布过程中表示。



第四代至强专门针对人工智能、5G网络、数据分析、科学计算等现代工作负载,引入全新的针对实际工作负载优化加速的设计理念,采用系统级设计方法,在CPU芯片架构中内置专用的工作负载加速器,以提升性能和效率。


实际上,这种针对实际工作负载的优化,目前已经成为了芯片设计中的新方向,例如个人电脑芯片会针对视频转码工作,进行专门的硬件加速设计。CPU的一些工作也逐步被GPU、NPU所分流,进而释放更多算力空间。


第四代至强专门提供了七大算力神器来针对不同的实际工作需求,包括了:


加速深度学习实时推理和训练性能提升的英特尔AMX加速器;

加速处理网络数据系统性能提升的英特尔DLB加速器;

加速在存储、网络工作负载中常见的流数据移动的英特尔DSA加速器;

加速在数据分析工作负载中优化内存占用和查询吞吐量的英特尔IAA加速器;

加速网络吞吐量以及压缩解压缩功能的英特尔QAT加速器;

加速平台安全性能的英特尔安全技术策略组合;

以及提供高带宽内存的英特尔至强CPU Max系列。


在基础参数上,第四代至强采用Intel 7制程,通过集成高性能核、更多内核数量、业内高需求的数据中心工作负载的相关加速器,以及业界领先的DDR5、CXL1.1、PCIe 5.0。


其中英特尔AMX专属AI加速器,大幅提升矩阵乘法运算,为人工智能加速提供了全新方式,与上一代(FP32)相比,内置英特尔高级矩阵扩展(英特尔AMX)(BF16)的PyTorch实时AI推理和训练性能提高了10倍。结合通用CPU计算单元,第四代英特尔至强可扩展处理器可以端到端运行任何AI工作负载。


英特尔动态负载均衡加速器(英特尔DLB)支持在多个CPU内核及线程间高效分布网络工作负载,实现分布式处理,并在负载不平衡时,动态地将数据负载重新分配到各个CPU内核上,实现动态负载均衡。


此外,英特尔DLB还可以调整CPU内核上同时处理的网络数据包的顺序,实现动态网络处理重排序,从而达到更高的整体系统性能。试数据显示,与Istio入口网关软件在6核12线程上的工作性能相比,第四代英特尔至强处理器在相同吞吐量(RPS)下可降低96%延迟。与前一代处理器相比,在相同功率范围下,vRAN工作负载的容量提升高达2倍。


在数据密集型工作负载应用场景下,数据移动是最常见的工作负载处理任务。为了帮助用户在存储,网络和数据分析中实现更快速的数据移动,英特尔在第四代至强处理器中添加了数据流加速器(Intel DSA),有助于加快CPU、内存、缓存以及存储和网络设备之间的数据移动。


应用将数据活动从CPU内核迁移到DSA专属加速器,可大幅释放CPU性能并降低时延,让用户可以更高效地管理CPU内核,提高利用率。测试数据显示,与ISA-L软件相比,内置Intel DSA加速器可使SPDK-NVMe的IOPs提高1.7倍;与上一代相比,大数据包顺序读取的IOPS提升60%,并降低37%时延。


而英特尔内存分析加速器 (Intel IAA) 针对数据库和分析工作负载,可提高内存查询吞吐量,减少内存数据库和大数据分析工作负载的内存占用。Intel IAA是内存数据库、开源数据库和数据存储(如RocksDB和ClickHouse)的理想选择。与上一代相比,Intel IAA加速器可使RocksDB性能提高3倍。


针对安全性需求,英特尔SGX、TME、算法硬件加速等,能够为客户提供了全方位的、契合客户需求的安全解决方案。


英特尔第四代至强帮助实现零信任安全策略,通过先进的硬件安全技术为业务部署和风险洞察提供全新解决方案,包括提供对工作负载和数据的隐私和访问控制,为强大而普遍应用的加密运算提供更高的性能,并为用户提供预期行为的硬件保护,以及确保平台引导到已知的良好状态。


集成HBM的英特尔至强CPU Max系列提供进一步的性能增强,也是首款基于X86的高带宽内存(HBM)处理器,可支持高达640亿字节超高带宽封装内存。4个物理tile通过嵌入式多芯片互连桥接(EMIB)单元连接,每个tile都连接到一个专用的16gb HBM内存堆栈。测试数据显示,与上一代相比,英特尔至强CPU Max可使科学计算工作负载性能提高3.7倍。


同期,英特尔还发布了首个旗舰级数据中心GPU—英特尔数据中心GPU Max系列。该产品采用3D封装的Chiplet技术,在单个产品上整合了47个小芯片,集成了超过了1000亿个晶体管。Max系列GPU提供多达128个Xe内核和光线追踪单元,高达128 GB的高带宽内存。相较上一代产品,Max CPU和Max GPU的组合,可以使生命与材料科学领域经常使用的LAMMPS处理性能提升12.9倍。


✦  ✦

诠释工作负载至上


强大的性能表现,更要能够在实际工作中实现效能的提升。


“我们的客户和企业正在跨工作负载优化他们相关的KPI,无论这些KPI是包括更好的性能、更好的效率、更好的延迟、更好的每瓦平台性能,还是更好的系统成本(TCO)。”庄秉翰表示英特尔至强的架构、平台和加速器创新为在其环境中运行一系列工作负载的客户提供了一套性能领先的产品解决方案,无论是在云端、边缘还是在本地,通过更多CPU核心和内置加速器组合,提供强大的性能提升。


目前,第四代英特尔至强的七大算力神器已经主力合作伙伴在不同领域的业务中实现提升。



腾讯自研的一站式机器学习平台腾讯太极利用第四代至强的AMX指令集,对矩阵计算的加速能力可以实现BERT模型BF16吞吐量提升到上一代Ice Lake的3.202倍,Int8的吞吐量可以达到2.05倍的性能指标。


腾讯视频云的明眸高清借助第四代至强的AI能力,解决了以往转码过程中的瓶颈,通过和英特尔技术团队的联合攻关,目前使用至强的指令加速和优化之后,视频增强部分的性能可以提升到以前的1.86倍,在目标检测推力部分的性能可以提高到以前的1.95倍,极大改善了CPU的推理性价比,也可以使视频增强的服务由独立CPU计算集群就可以完成,大大降低现在的运营成本。


中国电信天翼云利用第四代英特尔至强的英特尔DLB硬件加速特性,针对IPSec的大象流处理做了优化。相比之前的纯软件方案,英特尔DLB的加速方案稳定可靠,带来了更好的线性扩展,最高可以达到4倍以上的吞吐收益,有效解决了在入云环节针对大象流加密处理的业务难题。


新一代京东自研服务器天枢,得益于第四代至强所带来的如DDR5、PCIe Gen 5等新平台特性,以及与英特尔定制的新一代CPU中进行的一些特定性能优化和规格定制,整体性能较上一代提升了70%。其中通过Intel IAA带来的性能优化特性,不管是压缩率还是QPS等指标,均取得了大幅提升。通过Intel DSA在虚拟化场景下,整体最大可以带来1.7倍以上的性能提升。


字节跳动旗下的火山引擎通过采用最新第四代英特尔至强,在单核能力上、在网络转发能力上,包括在加解密、视频和AI推理训练能力上,都获得了大幅提升,根据测试显示可获得30%以上的整体收益提升。以此为性能基础,包括计算密集型、内存密集型、IO密集型以及HPC的场景实例都会全面切换到基于第四代英特尔至强的引擎上来,帮助游戏、汽车、医药、金融等行业,在内外部共同释放算力,并提升性价比。


吉利汽车在超算建设过程中,也选择了第四代英特尔至强可扩展处理器,依托其强劲的算力,能够支持仿真业务的高效运行,能够得到更精准的性能结果,高效的推进研发测试,打造更好的汽车品质。吉利汽车集团将借力新一代至强处理器的算力底座,将利用数据和数字技术的力量,重新定义产品、研发及制造,助力企业实现高质增长目标。


展望未来,英特尔提供算力、安全、网络、存储、管理、绿色可持续发展等七大支柱性技术优势和产品方案,支持从云到边缘的架构升级,助力产业发展 “芯加速,行至远”。



关注公众号:拾黑(shiheibook)了解更多

赞助链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接