NVIDIA发布TensorRT-LLM：H100 GPU推理性能飙升8倍，再次刷新AI算力纪录

图灵 • 2023年9月10日上午11:35 • 人工智能 • 阅读 2055

今天，英伟达公司正式宣布推出一项重大突破，名为TensorRT-LLM的深度优化开源库，该库旨在显著提升其Hopper等AI GPU上所有大型语言模型的推理性能。

英伟达公司目前已经积极与开源社区合作，运用包括SmoothQuant、FlashAttention和fMHA等先进技术，通过AI内核优化其GPU，实现了对GPT-3（175 B）、Llama Falcom（180 B）和Bloom等模型的加速。

TensorRT-LLM的一个重要特点是引入了一种称为”In-Flight Batching”（即在飞行中批处理）的调度方案，允许GPU在处理大规模计算密集型请求时，动态地同时处理多个较小的查询。这一方案的实施大大提高了GPU的处理性能，H100 GPU的吞吐量相比之前加快了2倍。

在性能测试中，英伟达以A100为基准，对比了H100和启用TensorRT-LLM的H100。在GPT-J 6B模型的推理中，H100的性能比A100提升了4倍，而启用TensorRT-LLM的H100性能更是达到了A100的8倍。

在Llama 2模型中，H100的推理性能相较于A100提高了2.6倍，而启用TensorRT-LLM的H100性能则高达A100的4.6倍。

这一次的突破再次彰显了英伟达在AI计算领域的技术实力，将为未来更加强大的AI应用提供强大的计算支持。详细的报告原文已经发布，对此感兴趣的读者可以进一步深入研究。

本文来自用户或匿名投稿，不代表大众智能立场；本文所有内容（包括图片、视频等）版权均为原作者所有。涉及的相关问题请查阅本站免责声明，如侵权请及时与本站运营方取得联系（联系我们）我们将按声明中的处理方式进行处理。本文链接：https://dzzn.com/2023/890.html