把自己对于 groundingdino 的理解记录下来。
什么是开放集目标检测
首先,相比closed set目标检测,open set目标检测在步骤上看起来少了很多,一般最费人工和时间的数据阶段直接省略了;
其次,视觉大模型希望不需要再重新训练和微调模型,一个模型就可以检测万物,这里注意万物包含2层意思:任意图像、任意目标,不管是真实世界图像,还是虚拟图像、动漫、素描、抽象画等,其中任何图像内容内的任何实体。
视觉大模型实现思路
作者总结了2中实现开放集目标检测的思路
基于CLIP
回顾CLIP
CLIP中心思想: