H100推理性能最高提升8倍,英伟达发布TensorRT-LLM模型
,英伟达今天宣布推出名为 TensorRT-LLM,是一个深度优化的开源库,能够在 Hopper 等 AI GPU 上加速所有大语音模型的推理性能。
英伟达目前已经和开源社区合作,利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术,实现 AI 内核来优化其 GPU,可以加速 GPT-3,Llama Falcom(180 B)和 Bloom 模型。
TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案,允许工作独立于其他任务进入和退出 GPU。
该方案允许同一 GPU 在处理大型计算密集型请求时,动态处理多个较小的查询,提高 GPU 的处理性能,可以让 H100 的吞吐量加快 2 倍。
在性能测试中,英伟达以 A100 为基础,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理中,H100 推理性能比 A100 提升 4 倍,而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。
在 Llama 2 中,H100 推理性能是 A100 的 2.6 倍;而启用 TensorRT-LLM 的 H100 性能是 A100 的 4.6 倍。
IT之家在此附上报告原文,感兴趣的用户可以深入阅读。
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
今日报道
- ProGrade推出全球首款CFexpress4.0CFE-B卡,速...
- 影目推出AR眼镜INMOGO:Micro-LED屏幕、7小时续航,1...
- 戴尔灵越Plus16笔记本新配置:i7-13620H+RTX4060...
- iPad热门绘画App推动画版,Procreatedreams将于1...
- OPPOFindN3Flip手机官方保障服务上线:屏碎保一年699元...
- APOLLO出行终止收购威马汽车威马创始人被曝已在海外...
- 消费市场不断恢复供求关系持续改善...
- 李宇嘉:广州成立安居集团提高对人口的吸引能力...
- 迪士尼宣布为Hulu+LiveTV会员新用户提供三个月折扣...
- 全国林业产业年产值超8万亿元...
精彩热图
24小时新闻排行
最新文章
- 多人在线创作游戏《Roblox》本月正式上线MetaQuest,下个月登
- OPPOFindN3Flip折叠机今日开售:4300mAh电池+天玑92
- 飞利浦49M2C8900显示器开启预售:49英寸240HzOLED带鱼屏
- KTCM32P10S显示器上架:31.5英寸4K165HzMiniLED
- 五年内再冲四个“千亿镇街”,佛山打造“千亿镇街”领衔的高能级镇域经济
- 白酒、房地产获主力大幅买入三股遭多方资金“爆炒”
- 古尔曼:苹果计划为AirPods耳机带来体温测量、听力测试功能
- 一旅客手推电单车进境被查:藏匿1040个固态硬盘,部分产品来自威刚
- “深改19条”发布首周北交所交出亮眼“成绩单”
- 谷歌放出PixelWatch2智能手表官图