2025年2月27日,腾讯云正式发布Turbo S,一款全新的大模型推理加速产品,显著提升了大模型推理效率。它 […]

2025年2月27日,腾讯云正式发布Turbo S,一款全新的大模型推理加速产品,显著提升了大模型推理效率。它与Deepseek R1和T1协同工作,Turbo S能够有效降低大模型推理成本,性能相比之前提升了44%。此举旨在帮助企业更轻松地应用大模型,加速AI落地。
Turbo S采用独特的架构设计,推理速度提升了90%~95%,大幅降低了大模型的调用成本,让企业能够更有效地利用大模型资源。通过优化,它实现了更低的延迟和更高的吞吐量,进一步提升了用户体验,并降低了整体运营成本,充分满足企业对大模型高性能、低成本的需求。
此次发布的Turbo S,集成了Hybrid-Mamba-Transformer架构,采用KV-Cache技术,显著提升了模型推理效率,并有效降低了成本。它支持多种Transformer模型,并针对不同模型进行了性能优化,使得模型推理更加高效,并通过Mamba技术进一步提升了吞吐量,更好地支持了MoE模型的推理。
值得一提的是,腾讯云对大模型推理的优化,不仅体现在Turbo S上,还体现在其他相关产品和服务上。Turbo S的推出,将进一步降低大模型应用门槛,帮助企业更便捷地访问和使用大模型,例如DeepSeek V3、GPT4、Claude等,更好地满足企业多样化的需求。
总而言之,腾讯云持续致力于降低大模型应用成本,通过推出Turbo S等产品,为企业提供更稳定、高效、经济的大模型推理服务。Turbo S API接口提供0.8元/千tokens和2元/千tokens两种方案,Turbo系列产品将帮助企业更快地实现AI价值,并持续优化,推出“混元”等更先进的大模型产品和服务。
了解更多信息,请访问腾讯云turbos API申请页面:https://cloud.tencent.com/apply/p/i2zophus2x8




