0%

GroundingDINO笔记

把自己对于 groundingdino 的理解记录下来。

什么是开放集目标检测

image-20240328145159760

首先,相比closed set目标检测,open set目标检测在步骤上看起来少了很多,一般最费人工和时间的数据阶段直接省略了;

其次,视觉大模型希望不需要再重新训练和微调模型,一个模型就可以检测万物,这里注意万物包含2层意思:任意图像、任意目标,不管是真实世界图像,还是虚拟图像、动漫、素描、抽象画等,其中任何图像内容内的任何实体。

视觉大模型实现思路

作者总结了2中实现开放集目标检测的思路

image-20240328151428590

基于CLIP

回顾CLIP

image-20240328152004677

CLIP中心思想:

image-20240328151619346