腾讯混元 AI Infra 新开源:HPC-Ops 推理核心算子全面升级
周四
HPC-Ops 推出包含五大关键算子的开源升级,以满足推理系统对动态业务负载的适应性及核心模块对复杂精度和高性能融合算子的需求。该升级在主流推理平台上有效缓解了 Attention 长尾延迟、显存搬运开销、跨卡通信等工程瓶颈,多项性能指标优于现有开源基线。主要亮点包括:Attention 采用动态负载调度,长文本最高加速 2.95x,端到端 QPM 提升 17%。Router GEMM 以双 BF16 GEMM 组合实现 FP32 级精度,对比 CuBLAS FP32 提速 3.22x。FusedMoE 构建全模块流水线,性能较 vLLM、SGLang 提升 1.2x~1.6x。Fused AllReduce+Norm 融合跨 GPU 通信等计算,较 NCCL、FlashInfer 提速 1.04x~1.68x。Sampler 将采样计算融合为 2 个 CUDA Kernel,较 vLLM 提速 4.0x~7.5x、较 FlashInfer 提速 1.9x~4.7x。
腾讯混元 AI Infra 新开源:HPC-Ops 推理核心算子全面升级
格隆汇 / 同花顺财经 / 华尔街见闻
体验专业版特色功能,拓展更丰富、更全面的相关内容。