
量子位编辑整理:AIGC动态欢迎阅读
原标题:开源+共训,双轮驱动基础大模型创新普惠 |浪潮信息吴韶华@MEET2024
关键字:模型,数据,结构,能力,里面
文章来源:量子位
内容字数:9353字
内容摘要:
编辑部整理自 MEET2024量子位 | 公众号 QbitAI相对于GPT-3,GPT-4(包括GPT-3.5)在能力上取得了巨大进步。
这一进步背后,微调起到了至关重要的作用。
在固定模型结构(即Transformer结构)的情况下,随着模型参数、计算资源和数据规模的增加,模型精度往往会随之提高。
然而,这种扩展性研究是基于预训练模型范式的。因此,随着训练模式的变化,我们不得不重新思考:
在“预训练+微调”的范式下,尤其是微调的重要性不断增加的情况下,我们该如何改进算法和数据以适应不同训练阶段的特点?
在 MEET 2024 智能未来大会上,浪潮信息 AI 软件研发总监吴韶华博士提出了这个问题。
他介绍,浪潮信息的 “源1.0” 大模型和 “源2.0” 大模型是基于上述考虑打造的,从算法、数据和计算三个层面出发,最终在代码、数据逻辑等方面取得了显著的成绩。
那么,具体有哪些实践经验?
为了全面表达吴韶华博士对 GPT-4 时代大模型训练模式的见解和思考,量子位在保持原意的基础上对其演讲内容进行了整理编辑。
关于 MEET 智能未来大会:MEET 大会由量子位主办。
原文链接:开源+共训,双轮驱动基础大模型创新普惠 |浪潮信息吴韶华@MEET2024
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:着眼人工智能新趋势,聚焦科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...