英伟达官宣开源TensorRT-LLM,H100推理速度飙升至8倍,支持10+种模型

英伟达官宣开源TensorRT-LLM,H100推理速度飙升至8倍,支持10+种模型的封面图

近日,英伟达宣布开源了一款名为TensorRT-LLM的软件,这一动态受到了广泛关注。据称,该软件能够显著提升H100上大型语言模型的推理性能,使模型总吞吐量提升了8倍。除了支持10多种模型外,TensorRT-LLM还引入了诸多优化功能,包括In-Flight批处理等。这一举措被认为将为用户提供更为高效的推理体验,并标志着“GPU贫民”或将告别困境。有关详细信息,可访问原文链接:H100推理飙升8倍!英伟达官宣开源TensorRT-LLM,支持10+模型。值得一提的是,本文摘自新智元,作者为桃子 润,文章来源与作者微信号均可参见以上信息。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...