如何识别网图图片内容复杂度？

点击联系发帖人 时间：2022-10-17 02:05

识别网图

Network）的结构类似于神经网络，可以看做是对其的改进。它利用局部连接、权值共享、多核卷积、池化四个手段大大降低了参数的数目，使得网络的层数可以变得更深，并且能够合理的隐式的提取特征。CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于其特征检测层通过训练数据进行学习，隐式地从训练数据中进行学习，避免了显式的特征抽取；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度它可以直接处理灰度图片，能够直接用于处理基于图像的分类。

卷积神经网络是一种带有卷积结构的深度神经网络，卷积结构可以减少深层网络占用的内存量。卷积神经网络的结构组成如下图：

卷积神经网络层、池化层（下采样层）、全连接被合称为隐含层。在卷积神经网络中，卷积神经层与池化层（下采样层）的连接方式是局部连接的形式，即每层的神经元只连接输入层中的跟它相近的几个节点。而全连接层中采用的是全连接的方式，即每一个神经元与输入层中的所有节点连接。

如果采用经典的神经网络模型，则需要读取整幅图像作为神经网络模型的输入（即全连接的方式），当图像的尺寸越大时，其连接的参数将变得很多，从而导致计算量非常大。而我们人类对外界的认知一般是从局部到全局，先对局部有感知的认识，再逐步对全体有认知，这是人类的认识模式。在图像中的空间联系也是类似，局部范围内的像素之间联系较为紧密，而距离较远的像素则相关性较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。这种模式就是卷积神经网络中降低参数数目的重要神器：局部感受野。

假如：CNN输入层主要是n×m×3 RGB图像，这不同于人工神经网络，人工神经网络的输入是n×1维的矢量。

该层要做的处理主要是对原始图像数据进行预处理，其中包括：

去均值：把输入数据各个维度都中心化为0，如下图所示，其目的就是把样本的中心拉回到坐标系原点上。
归一化：幅度归一化到同样的范围，如下所示，即减少各维度数据取值范围的差异而带来的干扰，比如，我们有两个维度的特征A和B，A范围是0到10，而B范围是0到10000，如果直接使用这两个特征是有问题的，好的做法就是归一化，即A和B的数据都变为0到1的范围。
PCA/白化：用PCA降维；白化是对数据各个特征轴上的幅度归一化

去均值与归一化效果图：

在数据挖掘数据处理过程中，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。

中心化（又叫零均值化）：是指变量减去它的均值。其实就是一个平移的过程，平移后所有数据的中心是（0，0）。
标准化（又叫归一化）：是指数值减去均值，再除以标准差。

PCA是指通过抛弃携带信息量较少的维度，保留主要的特征信息来对数据进行降维处理，思路上是使用少数几个有代表性、互不相关的特征来代替原先的大量的、存在一定相关性的特征，从而加速机器学习进程。 PCA可用于特征提取，数据压缩，去噪声，降维等操作。
白化的目的是去掉数据之间的相关联度和令方差均一化，由于图像中相邻像素之间具有很强的相关性，所以用于训练时很多输入是冗余的。这时候去相关的操作就可以采用白化操作，从而使得:

特征具有相同的方差（协方差阵为1）

卷积神经网络里面的这个卷积和信号里面的卷积是有些差别的，信号中的卷积计算分为镜像相乘相加，卷积层中的卷积没有镜像这一操作，直接是相乘和相加，如下图所示：

最左边的是卷积的输入，中间的为卷积核，最右边的为卷积的输出。可以发现卷积计算很简单，就是卷积核与输入对应位置相乘然后求和。除了图中绿颜色的例子，我们可以计算一下图中红色圈对应的卷积结果：(-1)*2+(-1)*9+(-1)*2+1*4+1*4=-5。

如上所述，输入内容为一个 5 X 5 的像素值数组。现在，解释卷积层的最佳方法是想象有一束手电筒光正从图像的左上角照过，假设手电筒光可以覆盖 3 x 3 的区域，想象一下手电筒光照过输入图像的所有区域。

在机器学习术语中，这束手电筒被叫做过滤器（filter，有时候也被称为 神经元（neuron）或 核（kernel）），被照过的区域被称为 感受野（receptive
过滤器同样也是一个数组（其中的数字被称作权重或参数）。重点在于过滤器的深度必须与输入内容的深度相同（这样才能确保可以进行数学运算）。
现在，以过滤器所处在的第一个位置为例，即图像的左上角。当筛选值在图像上滑动（卷积运算）时，过滤器中的值会与图像中的原始像素值相乘（又称为计算点积）。现在你得到了一个数字。切记，该数字只是表示过滤器位于图片左上角的情况。我们在输入内容上的每一位置重复该过程。（下一步将是将过滤器右移 1 单元，接着再右移 1 单元，以此类推。）输入内容上的每一特定位置都会产生一个数字。
过滤器滑过所有位置后将得到一个 3 x 3 x 1 的数组，我们称之为激活映射（activation map）或特征映射（feature map）。

卷积计算的过程，对于整个输入来说，计算结果还取决于两个参数：padding 和 stride

2.1、Padding填白：它是很多地方都会用到的一种操作比如在加密过程中明文不够长就需要加padding来使得明文与密钥长度相同，其意思就是在原有的基础之上增加一些东西是其规模符合后续操作。

一种是valid，这种表示不需要padding操作，假设输入大小为n*n,卷积核大小为f*f，此时输出大小为（n-f+1)；
另一种是same，表示输入和输出的大小相同，假设padding的大小为p，此时为了保持输出和输入消息相同p = (f-1)/2，但是此时卷积核要是奇数大小。

2.2、Stride步长：指卷积核在输入上移动时每次移动的距离。如下图：其中按红框来移动的话stride = 1;按蓝色框来移动的话stride = 2。

b表示在样本上的步长，默认为1表示每个样本都会进行计算；
h,w表示高度和宽度，即横向和纵向步长？
c表示通道数，默认为1，表示每个通道都会参与计算。

卷积核除了长宽这两个参数之外还有通道数这个参数，首先需要明确的是单个卷积核的通道数要等于图像的通道数，彩色图像，一般都是RGB三个通道（channel）的，因此输入数据的维度一般有三个：（长，宽，通道）。比如一个28×28的RGB图片，维度就是(28,28,3)。对于多个卷积核的情况也不复杂，直接对每个卷积核进行单个卷积核的操作，然后把它们拼在一起就行了。如下图：

前面的图中，再加一个激活函数，给对应的部分标上符号，就是这样的：

激励层的主要作用是将卷积层的结果做非线性映射。常见的激励层函数有sigmoid、tanh、Relu、Leaky Relu、ELU、Maxout。如下图：

sigmoid函数是早期用的比较多的激励函数，但现在已经不常用了。主要是当输入特别大或者特别小时，sigmoid函数的偏导数趋于0，这样在使用反向传播算法时将会出现问题,并且sigmoid函数不是关于原点对称的，这样在进行反向传播时w的梯度要么全为正，要么全负（w的梯度即为x乘以上一层的梯度，x恒为正，所以梯度的正负一直不变），收敛速度会非常慢。
tanh函数与sigmoid函数图像类似，但是它比sigmoid函数好的一点是tanh函数是关于原点对称的，这样可以减少数据的倾斜。
现在比较常用的激励函数为ReLu（The Rectified Linear Unit/修正线性单元），函数表达式为：f(x)=max(0,x)。ReLu函数的优点是收敛非常快，因为在原点右侧它的偏导数为1，求导简单，这样在做反向传播时速度比较快。缺点时较为脆弱，原点左侧的函数具有的sigmoid相似的问题，即导数等于0。
Leaky ReLu在是ReLu的“增强版”，其函数表达式为：f(x)=max(ax,x),a通常为一个比较小的数，比如0.01，上图是a=0.01时的图像，可以看到，相比ReLu，Leaky ReLu在原点左侧的表达式中对x乘以了一个比较小的系数，这样保证了在做反向传播时不会挂掉，并且其计算也很快。
ELU指数线性单元：ELU不会挂掉，计算速度比较快，并且输出的均值趋于0，但是由于指数的存在，计算量略大。
Maxout：两条直线拼接而成，计算是线性的，比较快，不会饱和不会挂，但是参数比较多。

首选ReLu，速度快，但是需要小心，有可能会挂掉

池化层（pooling）的作用主要是降低维度，通过对卷积后的结果进行降采样来降低维度，分为最大池化和平均池化两类。

最大池化顾名思义，降采样的时候采用最大值的方式采样，如图所示，其中池化核的大小为2*2，步长也为2*2

平均池化就是用局部的平均值作为采样的值，还是上面的数据，平均池化后的结果为：

通常，使用的比较多的是Maxpooling,而且一般取大小为(2,2)步长为2的filter，这样，经过pooling之后，输入的长宽都会缩小2倍，channels不变。

在卷积神经网络网络中，至少是有一个全连接层。全连接层位于所有的卷积层之后，层与层之间的神经元采用全连接的方式进行连接。全连接层的主要作用是对卷积层提取出来的特征进一步提取出高层次的特征。它通过将卷积层的特征进行合并或者取样，提取出其中的具有区分性的特征，从而达到分类的目的。全连接层与卷积层的区别第一个是连接方式的不同：

卷积层中采用的是局部连接方式，即一个节点和上一层中的部分节点相连
而全连接层中，该层的每一个神经元与上一层的所有神经进行连接，如下图
连接层中权值是不共享的，每一条线都代表了一个权值。而在左边卷积层的连接方式图中，颜色相同的连接，参数相同。我们可以看出相对于卷积层，全连接层的参数更多，所以其网络的复杂度也更大。
在全连接层中，常用softmax 逻辑回归来进行分类识别图像。softmax 逻辑回归分类方法主要用于多分类问题。在构建分类器的过程中，一般还采用正则化方法来防止训练过拟合，提高分类的性能

链全连接层在整个卷积神经网络中起到“分类器”的作用，即通过卷积、激活函数、池化等深度网络后，再经过全连接层对结果进行识别分类。首先将经过卷积、激活函数、池化的深度网络后的结果串起来，如下图所示：

接下来，随便看一个CNN的模样，来获取对CNN的一些感性认识：

在经过数次卷积和池化之后，我们最后会先将多维的数据进行“扁平化”，也就是把 (height,width,channel)的数据压缩成长度为 height × width × channel 的一维数组，然后再与 FC层连接，这之后就跟普通的神经网络无异了。

假设图像是8×8大小，也就是64个像素，假设我们用一个有9个单元的全连接层，那这一层我们需要多少个参数呢？需要 64×9 = 576个参数（先不考虑偏置项b）。因为每一个链接都需要一个权重w。那我们看看同样有9个单元的filter是怎么样的：

不用看就知道，有几个单元就几个参数，所以总共就9个参数！因为，对于不同的区域，我们都共享同一个filter，因此就共享这同一组参数。这也是有道理的，filter是用来检测特征的，那一个特征一般情况下很可能在不止一个地方出现，比如“竖直边界”，就可能在一幅图中多出出现，那么我们共享同一个filter不仅是合理的，而且是应该这么做的。
由此可见，参数共享机制，让我们的网络的参数数量大大地减少。这样，我们可以用较少的参数，训练出更加好的模型，典型的事半功倍，而且可以有效地避免过拟合。同样，由于filter的参数共享，即使图片进行了一定的平移操作，我们照样可以识别出特征，这叫做 “平移不变性”。因此，模型就更加稳健了。

6.2、问题二：卷积核的大小以及卷积核之中的参数是怎么得来的么

大小的话，常见的是3x3，但为什么是3x3，并没有理论依据，通过大量的实践测试得来的，这个大小最好用。还有一个特殊的是1x1的，一般做降维或者线性变换的时候用。常见的卷积核如下图：

卷积神经网络 (CNN)训练的过程是：信号由输入层输入，经隐含层 ( 至少一层 ) ，最后由输出层输出。为了使得输出的结果与期望值间的误差最小，我们需要对每层的权重参数进行调整，调成的过程是： 利用输出值与期望值之间的误差，由输出层经隐含层到输入层，进行每层的误差计算，这个过程其实就是反向传播网络

BP(Back Propagation)网络是 1986 年由 Rumelhart 和McCelland 为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。 BP学习网络能学习和存储大量的输入 - 输出模式映射关系，而事前无需揭示这种映射关系的数学方程。它的学习规则是使用梯度下降法，通过反向传播不断调整网络的权重和阈值，使网络的误差平方和最小。详细推导过程，参见：

6.4、如何利用CNN实现图像识别的任务

输入层读入经过规则化（统一大小）的图像，每一层的每个神经元将前一层的一组小的局部近邻的单元作为输入，也就是局部感受野和权值共享，神经元抽取一些基本的视觉特征，比如边缘、角点等，这些特征之后会被更高层的神经元所使用。
卷积神经网络通过卷积操作获得特征图，每个位置，来自不同特征图的单元得到各自不同类型的特征。一个卷积层中通常包含多个具有不同权值向量的特征图，使得能够保留图像更丰富的特征。
卷积层后边会连接池化层进行降采样操作，一方面可以降低图像的分辨率，减少参数量，另一方面可以获得平移和形变的鲁棒性。
卷积层和池化层的交替分布，使得特征图的数目逐步增多，而且分辨率逐渐降低，是一个双金字塔结构。

具有一些传统技术所没有的优点：良好的容错能力、并行处理能力和自学习能力。可处理环境信息复杂，背景知识不清楚，推理规则不明确情况下的问题，允许样品有较大的缺损、畸变，运行速度快，自适应性能好，具有较高的分辨率。它是通过结构重组和减少权值将特征抽取功能融合进多层感知器，省略识别前复杂的图像特征抽取过程。
泛化能力要显著优于其它方法，卷积神经网络已被应用于模式分类，物体检测和物体识别等方面。利用卷积神经网络建立模式分类器，将卷积神经网络作为通用的模式分类器，直接用于灰度图像。
是一个前溃式神经网络，能从一个二维图像中提取其拓扑结构，采用反向传播算法来优化网络结构，求解网络中的未知参数。
CNN被认为是第一个真正成功的采用多层层次结构网络的具有鲁棒性的深度学习方法。CNN通过挖掘数据中的空间上的相关性，来减少网络中的可训练参数的数量，达到改进前向传播网络的反向传播算法效率，因为CNN需要非常少的数据预处理工作，所以也被认为是一种深度学习的方法。在CNN中，图像中的小块区域（也叫做“局部感知区域”）被当做层次结构中的底层的输入数据，信息通过前向传播经过网络中的各个层，在每一层中都由过滤器构成，以便能够获得观测数据的一些显著特征。因为局部感知区域能够获得一些基础的特征，比如图像中的边界和角落等，这种方法能够提供一定程度对位移、拉伸和旋转的相对不变性。
CNN中层次之间的紧密联系和空间信息使得其特别适用于图像的处理和理解，并且能够自动的从图像抽取出丰富的相关特性。
CNN通过结合局部感知区域、共享权重、空间或者时间上的降采样来充分利用数据本身包含的局部性等特征，优化网络结构，并且保证一定程度上的位移和变形的不变性。
CNN是一种深度的监督学习下的机器学习模型，具有极强的适应性，善于挖掘数据局部特征，提取全局训练特征和分类，它的权值共享结构网络使之更类似于生物神经网络，在模式识别各个领域都取得了很好的成果。
CNN可以用来识别位移、缩放及其它形式扭曲不变性的二维或三维图像。CNN的特征提取层参数是通过训练数据学习得到的，所以其避免了人工特征提取，而是从训练数据中进行学习；其次同一特征图的神经元共享权值，减少了网络参数，这也是卷积网络相对于全连接网络的一大优势。共享局部权值这一特殊结构更接近于真实的生物神经网络使CNN在图像处理、语音识别领域有着独特的优越性，另一方面权值共享同时降低了网络的复杂性，且多维输入信号（语音、图像）可以直接输入网络的特点避免了特征提取和分类过程中数据重排的过程。
CNN的分类模型与传统模型的不同点在于其可以直接将一幅二维图像输入模型中，接着在输出端即给出分类结果。其优势在于不需复杂的预处理，将特征抽取，模式分类完全放入一个黑匣子中，通过不断的优化来获得网络所需参数，在输出层给出所需分类，网络核心就是网络的结构设计与网络的求解。这种求解结构比以往多种算法性能更高。
隐层的参数个数和隐层的神经元个数无关，只和滤波器的大小和滤波器种类的多少有关。隐层的神经元个数,它和原图像，也就是输入的大小（神经元个数）、滤波器的大小和滤波器在图像中的滑动步长都有关。

6.6 、卷积神经网络之典型CNN

LeNet，这是最早用于数字识别的CNN
AlexNet， 2012 ILSVRC比赛远超第2名的CNN，比LeNet更深，用多层小卷积层叠加替换单大卷积层。

}

系统的复杂度，虽然有很多定义方式，但作为复杂性科学的基本问题，远远没有获得确定的回答。重整化群可以通过数学变化，统一地考察不同尺度的物理系统。近日发表在PNAS的一篇论文，基于重整化群，提出了在多层级复杂系统中定量描述复杂度的新方法。

1. 已有的复杂度定义的方法

最广为人知的定义复杂度的方式，称为Kolmogorov复杂度，该方法使用能够对某一信息编码的程序的最小长度，来代表一段信息的复杂度。例如101010相比110001，前者由于存在规律，能够用更短的程序描述，其复杂度更低。

如果不同尺度的子系统间相似度较低，那么系统的复杂性也越高。然而，我们对复杂度的直觉，告诉我们需要该定义同时反映系统中有多少组件及连接，以及系统中的这些组件及连接是否可见。基于系统自相似来定义复杂度的方式，只反映了后者，没有考虑那些系统中隐藏的连接，不完全符合我们对复杂度的直观映像。

在真实环境，例如生物系统、社会系统中，往往同时存在多个层级，不同层级的结构，以及受到的约束存在显著区别。考虑到复杂系统往往是层级化的，对系统复杂度的定义就必须考虑到不同层级，而不能主观地规定某一层级的特征是本质的。复杂科学需要提出一个明确定义，能够整合不同层级信息、且具有鲁棒性的复杂度定义。对于那些完全有序或完全无序的系统，该定义得出的复杂度都应该极低。

这篇PNAS论文，提出了基于重整化群的复杂度定义方法。

2. 基于重整化群的复杂度定义

例如拍照的时候zoom in，发现看到的现象有些接近，将小尺度的现象，放到大尺度去分析。由于系统具有自相似性，通过对比两种模式下分析的差异，可以用大尺度的分析，来作为对小尺度现象的建模。这可以看成是重整化群的通俗理解。

图1. 基于重整化群计算图片复杂度的方式

如何计算上面这幅图片的复杂度？重整化群的方法，是将该图分为16份，再将图中的某一份放大之后分为16份，将其中像素平均后，得出该子图的不同区域像素值。将原图的16个子图依次排列，得到A，再将子图分割排列得出图B，计算图A和图B之间的差异，得出图O。将所有如此分割得出的图O的复杂度加和，就完成了一个层级上的迭代，将不同层级的结果加和，即得出了原图的复杂度。

图2. 自然界和人工产生的图像对应的复杂度

上图中从左到右，该方法计算出的复杂度依次升高，这展示了使用该方法，可以衡量图像的复杂度，符合人类直觉。具体对的计算方法和公式，请参考原文。

3. 通过复杂度判断相变

在统计物理中，描述了磁性原子之间由于相互作用，而形成的晶格。由于该模型中，参数在某个阈值左右的细微变化，就能引起系统整体的显著变化，这被称为相变。发生相变前后，系统的复杂度会发生显著变化，这可以用来验证新提出的复杂性度量方法。

图3. 二维Ising模型的模拟数据下，不同温度和复杂度的对应关系

上图中，横轴温度可以看成是系统具有的能量，能量越高，系统越无序。红色和蓝色的线代表计算复杂度时，迭代计算的次数不同，即对复杂度的计算方法有所不同。不论那种计算方法，当相变发生时，复杂度都会呈现显著变化。而蓝线对应的算法，当系统的无序程度进一步提升时，复杂度下降，这符合一个完全无序的系统没有处在混沌边缘系统复杂的直觉。而红线对应的算法，由于迭代次数过少，导致其不会考虑更小尺度的差异，相变点之后，复杂度就不再变化。

而在更高维度，以及真实的微粒扩散过程中，该方法都能够反映出相变现象。如下图所示

图4. 三维系统中，基于重整化群的复杂度算法得出的复杂度和系统温度的关系

图5. 微粒扩散过程中，随时间变化的系统复杂度

4. 复杂度在各个领域的应用

以上实验说明，在固态物理中，可以使用该方法，根据实验得出的图像来发现如法通过实验找到的相变现象。

此外，在机器学习中，系统的复杂度可以成为额外的信息来源，例如在应对对抗性攻击，即通过改变少数像素点，就改变对应分类标签。例如本文作者假设上述改变会增加图片局部的复杂度，从而改变原图中各个子图的复杂度分布，据此识别对抗性的训练数据集。

而在生物领域，复杂度这一概念的应用虽然鲜有研究，但通过计算处在进化树上不同物种的基因序列的复杂度，可以研究进化过程中的相变点，即生物集中爆发或产生显著变化的过程。不同层级系统间的竞争和制约，被认为是生物体复杂性的来源之一。而这也反映了时间及空间层面上的不同系统存在的不相似性，在复杂性科学的核心位置。

测量复杂度还对因果发现有启发。之前的研究中，根据对不同信号压缩的难度差异，判断信号间的因果方向，更难压缩的信号是因[1]。据此我们可以推测，考虑不同系统间的复杂度随时间变化的曲线的先后，有可能可以判断出两个系统间的因果箭头。这有赖进一步的研究。

集智斑图顶刊论文速递栏目上线以来，持续收录来自Nature、Science等顶刊的最新论文，追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能，每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅：

点击“阅读原文”，追踪复杂科学顶刊论文

}

Intelligence)是由国际人工智能促进协会主办的年会，是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一，也是中国计算机学会(CCF)推荐的A类国际学术会议。

　　本次腾讯优图实验室共有14篇论文被收录，涵盖语义分割、图像着色、人脸安全、弱监督目标定位、场景文本识别等前沿领域。

　　以下为部分入选论文：

　　视频异常检测双向预测网络中的全面正则化方法

　　视频异常检测任务旨在通过学习正常视频的特征，自动识别视频中异常的目标或行为。此前的方法倾向于利用简单的重建或预测约束，这将导致从正常视频中学习特征不充分。基于此，我们提出一种包含三种一致性约束的双向架构，能够从像素级、跨模态和时间序列三个层面对预测任务做全面正则化。第一，我们提出预测的一致性，它考虑前后时序中运动的对称性质，进而保证在像素级层面的高真实性外观和运动预测。第二，我们提出关联的一致性，它考虑不同模态的相关性并使用其中一种模态来正则化另一种模态的预测。最后，我们提出时序一致性，它利用视频序列的关系保证预测网络生成时序上一致的帧。在推理阶段，异常帧的模式由于无法预测从而导致更高的预测错误置信度。实验结果显示本文方法效果超过了多种先进的异常检测器，并在UCSD

　　基于域不变表征学习的可泛化语义分割方法

　　在真实世界应用中，模型对未知场景的泛化能力是至关重要的，比如自动驾驶就需要鲁棒的视觉系统。目前通过学习域不变的特征来增强模型泛化能力已被广泛研究，然而大部分现有的研究工作都在关注学习不同域之间公共的特征空间，而忽视了特征本身的性质(比如对域相关风格的敏感度)。因此，我们提出了一种新的域泛化方法：利用特征敏感度特性作为特征先验来引导模型训练以便提升模型泛化能力。具体而言，1)提出特征校准模块(PGAM)来强化不敏感特征并抑制敏感特征 2)引入新的特征白化方法(GFW)进一步弱化对域风格敏感相关的特征。通过对域风格敏感特征的抑制，我们可以学习到域不变特征表达，从而大大加强模型泛化能力。我们的方法简单且有效，在几乎不增加计算成本情况下可以增强各种主干网路的特征鲁棒性。大量的实验结果证明我们的方法在域泛化语义分割任务上明显优于其他方法。

　　SCSNet: 一种同时学习图像着色和超分高效方法

　　在复原低分辨率灰度图像的实际应用中，通常需要进行图像着色、超分辨率和降采样三个单独的过程。然而，这种pipeline是冗余且不高效的。因此，我们提出了一种同时执行图像着色和超分辨率的有效范式，并提出了一种端到端SCSNet来实施。该方法由两部分组成：其一，用于学习颜色信息的着色分支，该分支使用所提出的即插即用金字塔阀交叉注意(PVCAttn)模块，在源图像和参考图像之间聚合特征映射。其二，超分辨率分支，用于集成颜色和纹理信息以预测目标图像，该分支使用连续像素映射(CPM)在连续空间中预测高分辨率图像。此外，我们的SCSNet支持“自动上色”和“参考上色”两种模式，更适合实际应用。大量的实验证明了我们的方法的优越性，与自动模式和参考模式下，在多个数据集上FID平均降低1.8 和5.1。此外，我们的方法相比于SOTA基线具有更少的参数量(x2↓)和更快的运行速度(x3↑)。

　　LCTR：唤醒弱监督目标定位中Transformer的局部拓展性

　　弱监督目标定位(WSOL)旨在实现仅给定图像级标签的前提下学习一个目标定位器。基于卷积神经网络的技术往往会过分突出目标最具判别力的区域从而导致忽略目标的整体轮廓。最近，基于自注意力机制和多层感知器结构的transformer因其可以捕获长距离特征依赖而在WSOL中崭露头角。美中不足的是，transformer类的方法缺少基于CNN的方法中固有的局部感知倾向，从而容易在WSOL中丢失局部特征细节。在本文中，我们提出了一个基于transformer的新颖框架，叫作LCTR(局部拓展性Transformer)，来在transformer中长距离全局特征的的基础上增强局部感知能力。具体地，我们提出了一个关联块注意力模块来引入图像块之间的局部关联关系。此外，我们还设计了一个细节挖掘模块，从而可以利用局部特征来引导模型学习着去关注那些弱响应区域。最后，我们在两大公开数据集CUB-200-2011和ILSVRC上进行了充分的实验来验证我们方法的有效性。

　　基于特征生成和假设验证的可靠人脸活体检测

　　人脸识别技术已广泛应用于各种智能系统中，与此同时，无穷无尽的“人脸表示攻击”不断地威胁着智能系统的安全。为了赋予智能系统足够的防御能力，人脸活体检测(face anti-spoofing)技术应运而生。尽管当前的活体检测方法在已知域中表现优异，但对于未知域中的攻击则不能良好的防御。针对该泛化问题，有两大类方法被广泛研究：领域通用(domain generalization)和特征解耦(representation disentanglement)。然而，它们都有各自的局限性：(1)考虑到未知域中的样本，很难将所有人脸映射到一个共享的、足够泛化的特征空间。如果未知域中的人脸没有被映射到该特征空间中的已知区域，模型将会产生不准确的预测。(2)考虑到未知种类的攻击，很难将所有攻击痕迹(spoof trace)精确解耦。因此在本文中，我们提出了一种特征生成和假设验证的算法框架。首先，我们引入了特征生成网络，用于生成真人和已知攻击的假设(hypotheses)。随后，设计了两个假设验证模块，用于判断输入人脸在多大程度上来自真人特征空间和真人特征分布。并且，我们分析了该算法框架与贝叶斯不确定性估计(Bayesian Uncertainty Estimation)的关联，为该算法框架的有效性提供了理论支持。实验结果表明，我们的框架在跨场景和跨攻击类型两种不同的配置下，均获得了SOTA的效果。

　　基于渐进式增强学习的人脸伪造图像检测

　　随着人脸编辑技术的快速发展，人脸内容取证引起了广泛的关注。在针对伪造人脸图像的检测上，大多数现有方法往往尝试利用频域信息来挖掘伪造痕迹，然而这些方法对频域信息的利用较为粗糙，且传统的网络结构难以应用于频率下的细微信息的提取。

　　为了解决上述问题，本文提出了一种渐进式的增强学习框架来同时利用RGB信息和细粒度的频率信息。首先，本文基于滑动窗口和离散余弦变换将输入RGB图像转换成细粒度的频率分量，来充分在频域空间对真假痕迹解耦。随后，本文基于双流网络引入了自增强模块和互增强模块，其中自增强模块可以捕捉不同输入空间下的篡改痕迹，而互增强模块可以互补加强双流的特征交互。通过这种渐进式的特征增强流程，能够有效利用细粒度的频率信息以及RGB信息来定位细微的伪造痕迹。

　　大量的实验表明我们所提出的方法在FaceForensics++、WildDeepfake等多个数据集同源设置下效果优于现有的方法，同时详细的可视化也充分证明了我们方法的鲁棒性和可解释性。

　　基于双重对比学习的人脸伪造图像检测

　　由于人脸伪造技术不断迭代更新，如何保持检测模型在未知攻击上的泛化性成为了目前人脸伪造检测领域的一大挑战。先前工作往往都采用基于交叉熵损失的分类框架来建模人脸伪造检测问题，然而这种范式过于强调类别层面的差异，但忽略了每个样本特有的伪造信息，限制了模型在未知领域的通用性。

　　为了解决上述问题，本文提出了一种新型的人脸伪造检测框架，即双重对比学习(Dual Contrastive Learning，DCL)，其针对性地构造了不同种类的样本对，并在不同粒度上进行对比学习得到更泛化的特征表示。具体而言，本文结合困难样本选择策略提出了实例间对比学习(Inter-ICL)，促进任务相关的判别性特征学习。此外，为了进一步探索本质上的差异引入了实例内对比学习(Intra-ICL)，来进一步捕捉伪造人脸中普遍存在的特征不一致性。

　　本文构造了泛化性评估实验，即在FaceForensics++等数据集上训练，并在DFD和DFDC等其他包含未知攻击的学术数据集下评估模型效果。大量实验和分析表明我们方法能显著提升模型的泛化性。

　　基于动态不一致性学习的人脸伪造视频检测

　　在人脸伪造视频的检测上，现有的Deepfake视频检测方法试图基于时序建模来捕获真假人脸之间的判别特征，然而这些方法往往对稀疏采样的视频帧进行建模，忽略了相邻帧之间的局部运动信息。由于局部运动信息中包含了帧间的运动不一致性，因此可以作为 DeepFake 视频检测的重要线索。

Module(InterSIM)来建立不一致性动态建模框架。具体来说，Intra-SIM 应用双向时间差分运算和可学习的卷积核来挖掘每个“Snippet”内的细微运动。然后 Inter-SIM 用以促进跨 “Snippet” 间的信息交互来形成全局表示。此外，IntraSIM 和 Inter-SIM 采用交替方式进行工作，可以方便插入现有的 2D 基础网络结构。

　　我们方法在FaceForensics++、Celeb-DF等多个学术数据集上视频评估标准下达到SOTA，丰富的可视化分析进一步证明了我们方法的有效性。

　　基于双流更新的视觉Transformer动态加速方法

　　视觉Transformer 通过自注意力机制捕获短程和长程视觉依赖的能力使其在各种计算机视觉任务中显示出巨大的潜力，但是长程感受野同样带来了巨大的计算开销，特别是对于高分辨率视觉任务。为了能够在保持原有模型准确率的前提下，降低模型计算复杂度，从而使得视觉 Transformer成为一种更加通用、高效、低廉的解决框架，我们提出了Evo-ViT，基于双流token更新的视觉transformer动态加速方法。该方法在保持了完整空间结构的同时给高信息量token和低信息量token分配不同的计算通道。从而在不改变网络结构的情况下，以极低的精度损失大幅提升直筒状和金字塔压缩型的Transformer模型推理性能。其中，我们提出的基于全局class attention的token选择策略通过增强层间的通信联系实现稳定token选择，相比以往方法，无需依靠外部的可学习网络来对每一层的token进行选择，也无需基于训练好的网络进行token裁剪。在ImageNet 1K数据集下，Evo-ViT可以提升DeiT-S 60%推理速度的同时仅仅损失0.4%的精度。

　　基于伪任务知识保存的行人重识别持续学习方法

　　现实应用中的行人重识别数据来源在时空上通常是分散的，这要求模型在不忘记旧知识的前提下，能够持续学习到新知识。数据的时空分散会带来任务相关的域差异，从而导致持续学习中的灾难性遗忘。为了解决这个问题，我们设计了一个伪任务知识存留框架来充分挖掘任务间的信息用于知识保存。该框架由一个能将当前任务特征映射到旧任务特征空间的伪任务变换模块，一个任务相关的域一致性学习模块，一个基于伪任务的知识蒸馏模块和身份判别模块组成。我们的方法在LReID任务上显著地超过了之前SOTA，并获得了可以媲美联合训练的效果。

　　通过Overlap估计引导局部特征点的匹配

　　尺度不变情况下的特征匹配问题从传统的SIFT到最近基于CNN的方法都没有得到很好解决。常规的局部特征点匹配方法直接从全图考虑，进行特征点提取匹配。本文提出的OETR方法，在借助CNN和Transformer强大特征交互能力，直接估计出两张图片之间的Overlap区域。通过将特征点的提取匹配限制在两张图片的Overlap区域内，并对Overlap区域进行缩放，有效降低两张图片尺度差异大时特征匹配的难度，在多个Benchmark上的实验获得SOTA的性能。此外，OETR可以作为一个前处理模块，应用于任意的局部特征提取匹配方法，帮助现有的特征匹配提升效果。

　　基于笔画-语义上下文感知的场景文本识别对比学习方法

PerSec)。针对场景文本图像兼具视觉性和语义性的特点，本方法提出了双重上下文感知器，可以对无标签的文本图像数据同时从低级别笔画和高级别语义上下文空间中进行对比学习。在场景文本识别的标准数据集上的实验结果表明，本文提出的框架可以为基于ctc和基于注意力的解码器生成更为鲁棒的特征表示。为了充分挖掘该方法的潜力，我们还收集了1亿张无标签文本图像作为数据集UTI-100M，涵盖5个场景和4种语言。通过利用上亿级的无标签数据进行预训练，得到的编码器特征对于下游文本识别的性能优良进一步提升。此外，PerSec学习的特征表示还展现除了很强的泛化能力，特别是在仅有少量有标签数据的场景下。

　　基于动作引导序列生成的语法错误纠正方法

S2A)模型。S2A模块将源语句和目标语句同时作为输入，并且能够在预测每个token之前自动生成token级别的操作序列(包括“跳过”、“拷贝”和“生成”三种操作)。之后，这些动作与基本的seq2seq框架融合进行最终的结果预测。在中英文GEC任务的基准数据集上的实验结果表明，本文提出的模型性能远优于业内其他方法，同时能够显著缓解过度校正问题。此外，与序列标记模型相比，本文方法在生成结果上能够保持更好的通用性和多样性。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时，本站将会在24小时内处理完毕。

}

久游无息网