
欢迎阅读AIGC动态
原文标题:Alpha-CLIP发布:全图+局部检测能力
文章来源:新智元
字数:4387字
摘要:本文介绍了Alpha-CLIP框架,它在基于RGB三通道输入的CLIP模型基础上增加了一个alpha通道。经过对大量RGBA-region的图像文本对进行训练,Alpha-CLIP能够在保持CLIP原始感知能力的情况下,关注到任意指定区域。Alpha-CLIP在图像识别、视觉-语言大模型、2D和3D生成等领域展现出强大作用。CLIP是目前最流行的视觉基座模型之一,应用范围包括与LLM大语言模型结合形成视觉多模态大模型、作为图像生成和点云生成的condition model等。
原文链接:请点击阅读原文
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,关注人工智能、机器人等前沿领域发展,探讨人机融合、人工智能和机器人对人类社会与文明进化的影响,引领中国智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...