哈工深发布多模态大模型「九天」,性能直升5%,横扫13个视觉语言任务!

<img src="哈工深发布多模态大模型「九天」,性能直升5%,横扫13个视觉语言任务!">

阅读AIGC动态的最新消息

近日,哈工深发布了名为「九天」的多模态大模型,在13个视觉语言任务上取得令人瞩目的进展,性能提升了5%。这一成果融合了细粒度空间感知和高层语义视觉知识,为多模态大语言模型领域带来了新的突破。

该研究由哈尔滨工业大学(深圳)的研究人员提出,并称其为双层知识增强的多模态大语言模型-九天(JiuTian-LION)。相较于现有工作,九天通过提出分段指令微调策略和混合适配器,实现了图像级理解任务和区域级定位任务之间的互相提升。

如果您对该主题感兴趣,可以点击原文链接了解更多详细信息:横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:AI_era是智能+中国的主平台,专注于推动中国从互联网+向智能+新纪元的转变。他们致力于研究人工智能、机器人等前沿领域的发展,并关注人工智能和机器人对人类社会与文明进化的影响,引领着中国走向智能时代。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...