场景的实例识别

# 场景的实例识别

Owner: -QVQ-

# 类别识别和实例识别的区别

# 类别识别：

找出图片中所有的人或物体

通常在一张图片里找

通常用滑动窗口的方法

# 实例识别：

在多个图片中找到具体的某个人或某个标志性建筑

通常只在数据库里的图片内找

# 需要解决的问题

# 如何总结整张图片的内容?

词袋向量的方法总结出图片的内容

比较词袋 Untitled

# 如何衡量整体相似度?

在不同分辨率的图片上进行比较 Untitled

如果是简单的每个特征点逐一匹配对比，这个过程很慢。

当我们观察特征空间中相近的特征点时，每个特征点都要有相似的描述符，则表明这些特征点代表了相似的局部特征 Untitled

通过量化特征空间的方式讲高维的描述符映射到具体的词汇上。聚类中心为视觉词汇，将空间上的每个词汇分配给最近的聚类中心 Untitled

从而形成了多组，每一组都是相似的视觉词汇 Untitled

# 采样的策略

1 在特征点处松散的采样

通常对于有着明确纹理的物体能有很好的效果

2 统一的密集采样

3 自由的

4 多个特征点操作采样

时常有更全面的覆盖 Untitled

对于文本内容来说，检索的最好方式是用索引，对于图像也是

# 反向索引：从数据库建立颠倒的索引

Untitled

# 反向索引：查询索引

对于一张新图片，从中提取的特征点到数据库检索出对应有哪些图片包含这个特征点，排序匹配次数多的数据库里的图像 Untitled

# 反向索引：优缺

适用于图片特征点比较稀疏、独特

如果数据库中很多图片中都有这些特征点，效率并不会比穷举法效率高多少

# 词汇量应该有多大?

Untitled

更多的分支树会产生更好的匹配效果，但会更影响性能 Untitled

# 如何有效地进行量化?

+灵活的几何/变形/视点

+图像内容的紧凑总结

+为集合提供了固定维度的向量表示

+实践中效果好

-当袋子覆盖整个图像时，背景和前景混合->这真的是实例识别吗?

-最佳词汇形成方式尚不清楚

-基本模型忽略几何-必须事后验证，或通过特征编码

# 如何对检索结果进行评分?

# Precision和Recall

True positive (tp)：正确的接收了正确的点

True negative (tn)：正确的拒绝了错误的点

False positive (fp)：错误的接收了正确的点

False negative (fn)：错误的拒绝了错误的点 Untitled

Precision：所有接收了的点中有多少是正确的

Recall：所有正确的点（tp+fn）中有多少是接收了的

下图为具体的10张图生成的图表 Untitled

# ft-idf宽度

Term frequency inverse document frequency

根据图像中每个单词的出现频率来描述图像，降低数据库中经常出现的单词的权重

（文本检索的标准加权） Untitled

查询golf green问题:

基于原有图像检索到的图像再进行查询时，会出现不相关的内容 Untitled

# 我们如何添加更多的空间验证?

到目前为止，我们对待每一个图像都对应一个词汇包，没有空间信息。而真实的物体有一致的几何信息 Untitled

多视角的匹配

# RANSAC

先用Bow相似度排序

通过检查对可能的转换的支持(内线)来验证（例如：如果一个转换是＞N个线条都匹配上了，则成功）

# Generalized Hough Transform

让每个匹配的特征对模型对象的位置、比例和方向进行投票-

用足够的选票验证参数

优点：

匹配准确度高

即使是杂乱的场景也有好的匹配

缺点

性能差

不适用于类别的识别

# Gabor滤波器

由高斯内核调制的正余弦波 Untitled

# GIST描述器

8个方向4个不同分辨率16个箱子=512个维度 Untitled

上次更新: 2025/02/21, 14:57:10

← 图像频谱场景的类别识别-词袋向量（Recognition→