
近日,英伟达宣布开源了一款名为TensorRT-LLM的软件,这一动态受到了广泛关注。据称,该软件能够显著提升H100上大型语言模型的推理性能,使模型总吞吐量提升了8倍。除了支持10多种模型外,TensorRT-LLM还引入了诸多优化功能,包括In-Flight批处理等。这一举措被认为将为用户提供更为高效的推理体验,并标志着“GPU贫民”或将告别困境。有关详细信息,可访问原文链接:H100推理飙升8倍!英伟达官宣开源TensorRT-LLM,支持10+模型。值得一提的是,本文摘自新智元,作者为桃子 润,文章来源与作者微信号均可参见以上信息。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...