NVIDIA发布TensorRT-LLM:H100 GPU推理性能飙升8倍,再次刷新AI算力纪录

今天,英伟达公司正式宣布推出一项重大突破,名为TensorRT-LLM的深度优化开源库,该库旨在显著提升其Hopper等AI GPU上所有大型语言模型的推理性能。

NVIDIA发布TensorRT-LLM:H100 GPU推理性能飙升8倍,再次刷新AI算力纪录

英伟达公司目前已经积极与开源社区合作,运用包括SmoothQuant、FlashAttention和fMHA等先进技术,通过AI内核优化其GPU,实现了对GPT-3(175 B)、Llama Falcom(180 B)和Bloom等模型的加速。

NVIDIA发布TensorRT-LLM:H100 GPU推理性能飙升8倍,再次刷新AI算力纪录

TensorRT-LLM的一个重要特点是引入了一种称为”In-Flight Batching”(即在飞行中批处理)的调度方案,允许GPU在处理大规模计算密集型请求时,动态地同时处理多个较小的查询。这一方案的实施大大提高了GPU的处理性能,H100 GPU的吞吐量相比之前加快了2倍。

在性能测试中,英伟达以A100为基准,对比了H100和启用TensorRT-LLM的H100。在GPT-J 6B模型的推理中,H100的性能比A100提升了4倍,而启用TensorRT-LLM的H100性能更是达到了A100的8倍。

在Llama 2模型中,H100的推理性能相较于A100提高了2.6倍,而启用TensorRT-LLM的H100性能则高达A100的4.6倍。

这一次的突破再次彰显了英伟达在AI计算领域的技术实力,将为未来更加强大的AI应用提供强大的计算支持。详细的报告原文已经发布,对此感兴趣的读者可以进一步深入研究。

报告地址:developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/

本文来自用户或匿名投稿,不代表大众智能立场;本文所有内容(包括图片、视频等)版权均为原作者所有。涉及的相关问题请查阅本站免责声明,如侵权请及时与本站运营方取得联系(联系我们)我们将按声明中的处理方式进行处理。本文链接:https://dzzn.com/2023/890.html

(0)
上一篇 2023年9月10日 上午11:30
下一篇 2023年9月10日 下午12:02

相关推荐

发表回复

登录后才能评论