缓存

共 5 篇文章

田渊栋团队最新论文：解决大模型部署难题，吞吐量提升近30倍

本文介绍了田渊栋团队最新解决大模型部署难题的论文成果，成功提升了系统吞吐量近30倍。大型语言模型在实际部署中常面临KV缓存成本昂贵和长序列泛化能力差的问题。田渊栋团队通过解决这两大难题，取得了巨大突破。他们的研究成果即将在NeurIPS’23上展示。详细内容请参阅原文：吞吐量提升近30倍！田渊栋团队...

AI工具箱2年前

PyTorch团队用不到1000行代码让Llama 7B提速10倍

<img src=""> 欢迎阅读AIGC动态原标题：PyTorch团队在不到1000行代码的情况下成功将Llama 7B的速度提高了10倍。关键词：模型、权重、缓存、张量、本文文章来源：机器之心文章字数：6019字内容摘要：PyTorch团队分享如何加速大...

AI工具箱2年前

OpenAI揭秘ChatGPT成功背后的GPU资源极限压榨秘诀

本文摘要介绍了OpenAI工程团队经理分享的有关ChatGPT成功的秘密以及团队应对爆发式增长的经验。文章来源于新智元，详细介绍了团队的成功经验和失败教训。想要阅读完整内容，请查看原文链接：OpenAI大佬甩出「喵喵GPT」黑客！分享ChatGPT成功的秘密：极限压榨GPU资源。此外，作者微信号为A...

AI工具箱3年前

vLLM发布论文：让部署LLM服务变得轻松、快速和低成本

最近，机器之心发布了一篇关于新型LLM（Large Language Model）的文章。这篇文章介绍了一个名为vLLM的项目，它的研究团队来自加州大学伯克利分校等机构。他们开发了一种名为PagedAttention的新型注意力算法，可以帮助服务提供商以低成本、快速发布LLM服务。这篇文章仔细解释了...

AI工具箱3年前

曝料：RTX 5090架构大改，性能提升70%

根据所提供的文本内容，这篇文章是关于最新的RTX 5090显卡爆料。根据机器之心的报道编辑小舟提供的信息，英伟达下一代旗舰GPU RTX 5090引起了人们的关注。早在2021年，知名爆料者kopite7kimi就曾透露英伟达将推出代号为“Blackwell”的GPU架构，预计将成为Ada Love...

AI工具箱3年前

Warning: Undefined array key "_post_type" in /www/wwwroot/www.aidh.net/wp-content/themes/news/inc/widgets/w.single.posts.php on line 201

缓存

田渊栋团队最新论文：解决大模型部署难题，吞吐量提升近30倍

PyTorch团队用不到1000行代码让Llama 7B提速10倍

OpenAI揭秘ChatGPT成功背后的GPU资源极限压榨秘诀

vLLM发布论文：让部署LLM服务变得轻松、快速和低成本

曝料：RTX 5090架构大改，性能提升70%

热门AI工具

Qclaw

ProMind.ai

Ardot

科研写作

TRAE

Code0.ai

Claude API

热门AI应用