
AIGC动态欢迎阅读
原标题:0微调搞定160个测试集!最强多模态分割一切大模型来了,架构参数全开源
关键字:数据、方法、模型、论文、类别
文章来源:量子位
内容字数:6115字
内容摘要:Brady 投稿量子位 | 公众号 QbitAI利用多模态大型模型进行语义分割的效果如何?通过一张图片和文本输入要分割的物体,大型模型几秒钟内就能识别并成功分割!只需输入想要分割的对象,如“擎天柱”,单个目标就能被准确识别、快速分割:即使是多个物体,指定天空、水、树、草、女孩、龙猫(Chinchilla)等目标也能快速分割:就连表情包也不是问题:这是来自厦门大学等机构的最新多模态基础感知大模型,在160个测试集上取得了SOTA或近似顶尖的结果,且没有经过任何下游任务的微调。目前,该模型的架构和参数已完全开源,让我们一起看看是如何实现的。多模态大型模型APE长什么样呢?在此之前,视觉基础模型方向一直在探索建立通用的视觉感知系统。现有的方法可以分为三类,但都存在一些不足之处:第一类采用自监督训练方式,例如DINO和CLIP等,这些方法在进行下游感知类任务时…
原文链接:请点击链接阅读原文:0微调搞定160个测试集!最强多模态分割一切大模型来了,架构参数全开源
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...