最强多模态分割神器：架构参数全开源，0微调轻松应对160个测试集

AIGC动态欢迎阅读

原标题：0微调搞定160个测试集！最强多模态分割一切大模型来了，架构参数全开源

关键字：数据、方法、模型、论文、类别

文章来源：量子位

内容字数：6115字

内容摘要：Brady 投稿量子位 | 公众号 QbitAI利用多模态大型模型进行语义分割的效果如何？通过一张图片和文本输入要分割的物体，大型模型几秒钟内就能识别并成功分割！只需输入想要分割的对象，如“擎天柱”，单个目标就能被准确识别、快速分割：即使是多个物体，指定天空、水、树、草、女孩、龙猫（Chinchilla）等目标也能快速分割：就连表情包也不是问题：这是来自厦门大学等机构的最新多模态基础感知大模型，在160个测试集上取得了SOTA或近似顶尖的结果，且没有经过任何下游任务的微调。目前，该模型的架构和参数已完全开源，让我们一起看看是如何实现的。多模态大型模型APE长什么样呢？在此之前，视觉基础模型方向一直在探索建立通用的视觉感知系统。现有的方法可以分为三类，但都存在一些不足之处：第一类采用自监督训练方式，例如DINO和CLIP等，这些方法在进行下游感知类任务时…

原文链接：请点击链接阅读原文：0微调搞定160个测试集！最强多模态分割一切大模型来了，架构参数全开源