小模型也能”无所不能”：Meta将SAM改进，参数仅为原版的5%

欢迎阅读AIGC动态

原标题：小模型也能实现“分割一切”，Meta改良SAM，仅使用原版5%的参数

文章来源：机器之心

内容字数：6437字

内容摘要：机器之心编辑报道：陈萍、蛋酱。对于2023年的计算机视觉领域而言，“分割一切模型”（Segment Anything Model）是备受关注的研究进展。四月份，Meta发布了改良版的“分割一切模型（SAM）”，仅使用原版5%的参数却取得了显著效果，能够自动分割图像中的各种内容。SAM的关键特征是基于提示的视觉Transformer（ViT）模型，这个模型是在一个包含超过1100万张图像和10亿个掩码的视觉数据集SA-1B上训练的，可以分割任何给定图像上的目标。这种能力使SAM成为视觉领域的基础模型，并且也能在视觉之外的领域产生应用价值。然而，由于SAM中的ViT-H图像编码器有632M个参数（相较之下，基于提示的解码器仅需要387M个参数），因此实际使用SAM执行任何分割任务都面临计算和内存成本的挑战，对于实时应用而言具有一定难度。随后，研究者们也提出了一些改进策略。

原文链接：点击小模型也可以「分割一切」，Meta改进SAM，参数仅为原版5%