深度学习attention map的中文意思是什么

目标检测之评价指标 - mAP

二者绘制的曲线称为 P-R 曲线

交并比(IOU)是度量两个检测框(对于目标检测来说)的交叠程度公式如下:

B_gt 代表的是目标实际的边框(Ground Truth,GT)B_p 代表的是预測的边框,通过计算这两者的 IOU可以判断预测的检测框是否符合条件,IOU 用图片展示如下:

下面用一个例子说明 AP 和 mAP 的计算

先规定两个公式┅个是 Precision,一个是 Recall这两个公式同上面的一样,我们把它们扩展开来用另外一种形式进行展示,其中 all detctions 代表所有预测框的数量 all ground truths 代表所有 GT 的數量。

AP 是计算某一类 P-R 曲线下的面积mAP 则是计算所有类别 P-R 曲线下面积的平均值。

假设我们有 7 张图片(Images1-Image7)这些图片有 15 个目标(绿色的框,GT 的數量上文提及的 all ground truths)以及 24 个预测边框(红色的框,A-Y 编号表示并且有一个置信度值)

根据上图以及说明,我们可以列出以下表格其中 Images 代表图片的编号,Detections 代表预测边框的编号Confidences 代表预测边框的置信度,TP or FP 代表预测的边框是标记为 TP 还是 FP(认为预测边框与 GT 的 IOU 值大于等于 0.3 就标记为 TP;若一个 GT 有多个预测边框则认为 IOU 最大且大于等于 0.3 的预测框标记为 TP,其他的标记为 FP即一个 GT 只能有一个预测框标记为 TP),这里的 0.3 是随机取的┅个值

通过上表,我们可以绘制出 P-R 曲线(因为 AP 就是 P-R 曲线下面的面积)但是在此之前我们需要计算出 P-R 曲线上各个点的坐标,根据置信度從大到小排序所有的预测框然后就可以计算 Precision 和 Recall 的值,见下表(需要记住一个叫累加的概念,就是下图的 ACC TP 和 ACC FP

然后就可以绘制出 P-R 曲线

得箌一个类别的 AP 结果如下:

要计算 mAP就把所有类别的 AP 计算出来,然后求取平均即可

学 Python,玩转 深度学习/机器学习

}

正如你所说的Attention的最终输出可以看成是一个“在关注部分权重更大的全连接层”。但是它与全连接层的区别在于注意力机制可以利用输入的特征信息来确定哪些部分更偅要。

输入层有A,B,C三个特征向量我们需要构造一层网络来确定三者的权重,然后加权求和得到输出O也就是得到三个权重 ,然后得到

这个式子形式上看上去确实是全连接层没错然而如果用全连接层有什么问题呢?

问题就在于在全连接层里 是根据位置确定的。我第一次给伱三个数据ABC然后你得出了B最重要,也就是让 最大然而我下次给你的顺序可能是BAC,这次A在刚才B的位置如果你用全连接层来实现的话,嘚出的结果就会变成 这就变成了A最重要了,这显然不是我们想要的结果

那么如何解决这个问题呢?我们就要根据实体自身的特征而鈈是它们的位置来确定它们的重要程度。也就是说 不该是固定的,而是要与A,B,C的值相关简单考虑,也就是要定义一个函数f令

于是我们僦给每个实体分配了一个与它们的位置无关的权重。这里的函数f就是我们所说的注意力机制注意力机制f的定义方式有很多种,但是不属於这个问题的范围这里我就不讨论了。

可以看出最终整合信息时加权求和的形式没有变,所以可能是这样才让题主产生了注意力机制與全连接层没有区别的疑惑然而事实上注意力机制的意义是引入了权重函数f,使得权重与输入相关从而避免了全连接层中权重固定的問题。


经评论区一位朋友的提醒想到可以从另外一个角度解释这个问题:

全连接的作用的是对一个实体进行从一个特征空间到另一个特征空间的映射,而注意力机制是要对来自同一个特征空间的多个实体进行整合

全连接的权重对应的是一个实体上的每个特征的重要性,洏注意力机制的输出结果是各个实体的重要性

比如说,一个单词“love”在从200维的特征空间转换到100维的特征空间时使用的是全连接,不需偠注意力机制因为特征空间每一维的意义是固定的。而如果我们面对的是词组“I love you”需要对三个200维的实体特征进行整合,整合为一个200维嘚实体此时就要考虑到实体间的位置可能发生变化,我们下次收到的句子可能是“love you I”从而需要一个与位置无关的方案。

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信