WAIC2024：图像内容安全黑科技助力可信AI发展_图像安全领域

**篡改文本检测(TTD，tampered text detection)**作为多媒体信息安全领域的一个新兴研究方向，是指通过对文本图像中纹理特征的分析，捕捉真实文本和篡改文本之间的纹理差异性，以确定文本图像中文字区域的真伪性。常见的应用场景有：谣言检测流水、合同造假识别、欺诈图像识别、学历造假检测、保单PS检测等。

篡改文本检测任务有两个主要挑战。

局部纹理差异性捕捉困难。篡改文本与真实文本仅存在局部纹理差异；真实和篡改文本检测精度平衡困难。

P图是常见的图像篡改手段之一。去年的世界人工智能大会上，合合信息PS篡改检测技术首次亮相，像素级起底修改痕迹，覆盖身份证、护照等多种证照识别类目，吸引了社会各界关注。该技术基于深度学习的图像篡改检测技术及相关系统，通过学习图像被篡改后统计特征的变化，智能捕捉图像在篡改过程中留下的细微痕迹，并以热力图的形式展示图像区域篡改地点，相关技术已在银行、保险等领域落地应用

今年图像篡改检测“黑科技”持续优化升级，应用面也拓展至截图篡改检测。此前，图像篡改检测的技术研究对象主要集中于自然场景图像，然而，真正为人们的生活带来风险的通常是被篡改的资质证书、文档、截图等。

在这里插入图片描述

合合信息AI图像篡改检测技术可检测包括转账记录、交易记录、聊天记录等多种截图，无论是从原图中“抠下”关键要素后移动“粘贴”至另一处的“复制移动”图片篡改手段，还是“擦除”、“重打印”等方式，图像篡改检测技术均可“慧眼”识假

这类截图篡改检测比传统篡改检测更困难，原因在于，与自然图像相比，截图的背景没有纹路和底色，整个截图没有光照差异，难以通过拍照时产生的成像差异进行篡改痕迹判断，现有的视觉模型通常难以充分发掘原始图像和篡改图像的细粒度差异特征。

2 生成式图像鉴别

相较传统的文本检测任务，生成式篡改文本检测任务需要进一步区分篡改和真实文本。由于真实和篡改文本分类难度不一致，训练过程中网络无法平衡两类的学习过程，导致在测试过程中两类检测精度差异较大。上述挑战极大地限制了篡改文本检测方法的性能。因此，如何准确地捕捉局部纹理差异性，同时平衡篡改和真实类别学习难度，是目前篡改文本检测研究的重要方向。

该任务的难点主要分为两点

生成出来的图像场景繁多，不能穷举，不能通过细分来一一训练解决；有些生成图和真实图片的相似度过高，很贴近于人类的判断，对于机器而言，真伪判定只会更难

为此，合合信息提出了一种基于HRNet的编码器-解码器结构的图像真实性鉴别模型，结合图像本身的信息包括但不限于噪声、频谱等，能够在不用穷举图片的情况下，利用多维度特征来捕捉真实图片和生成式图片细粒度的视觉差异，达到高精度鉴别目的。模型结构如下图所示

在这里插入图片描述

2.1 主干特征提取通道

上述模型的第一个通道由若干主干提取网络层组成

**主干提取网络（Backbone Network）**在计算机视觉任务中扮演着关键的角色，通过一系列的卷积层、池化层和激活函数等操作，从原始图像中提取出各种特征，这些特征具有较好的局部感受野和平移不变性，能够捕捉到图像的结构和纹理信息，负责提取图像特征的主要组成部分。

在这里插入图片描述

主干网络的目标是将输入的图像转化为高级语义特征表示，通常是一系列的特征图。通过多层的卷积和非线性激活函数，主干网络可以学习到图像中的抽象特征表示。这些特征表示具有层次化的结构，能够逐渐提高语义表达能力，从低级的边缘、角点到高级的物体形状和语义信息，为后续的任务提供了更丰富和有意义的输入。同时，主干网络通常采用多层卷积和池化操作，可以在不同的层次上提取特征。这样的设计使得网络对于不同尺度的目标具有一定的感知能力，能够处理从小物体到大物体的尺度变化。在一些任务中，主干网络还可以进行特征融合操作，将来自不同层次的特征进行组合，以获取更全局和综合的特征表示。例如，通过连接或级联多个分辨率的特征图，可以获得更好的目标检测或语义分割结果。

2.2 注意力模块

**注意力机制（Attention Mechanism）**在计算机视觉任务中发挥着重要的作用。它是一种模拟人类视觉系统中注意力机制的方法，通过对输入的图像或特征进行加权，将注意力集中在具有重要信息的区域上，从而提高任务的性能和效果。

在这里插入图片描述

举例而言，在目标检测任务中，注意力机制能够帮助模型更关注感兴趣的目标区域，提高检测的准确性和鲁棒性。通过将注意力权重应用于特征图中的不同位置，可以突出目标的位置并抑制背景信息；在图像分类任务中，注意力机制可以提高模型对图像中重要区域的关注度，减少对无关区域的注意力分配。通过将注意力权重应用于特征图的不同通道，可以选择性地突出重要的图像特征，提高分类的准确性；在语义分割任务中，注意力机制可以帮助模型更好地理解图像的语义结构。通过对特征图的每个像素位置应用注意力权重，可以增强重要的语义区域并抑制非重要区域，从而提高分割的精度和细节。

而在本文介绍的图像生成任务中，注意力机制可以用于生成具有更好质量和多样性的图像。通过对生成器模型的输入特征进行加权，可以指导生成过程集中在重要的特征或区域上，生成更真实的图像结果进行对抗训练。

在这里插入图片描述

现在热门的Transformer也正是基于注意力机制构建

2.3 纹理增强模块

对于纹理缺失的截图图像鉴别而言，纹理增强模块扮演着重要的角色。它的作用是通过增强图像的纹理信息，提供更丰富、更清晰的视觉特征，从而改善图像分析和理解的效果。

纹理增强模块首先对输入图像进行预处理，包括去噪、平滑等操作，以减少噪声对后续处理的影响；接着利用各种纹理特征提取算法，如局部二值模式（Local Binary Patterns, LBP）、**方向梯度直方图（Histogram of Oriented Gradients, HOG）**等，提取图像中的纹理信息。根据提取的纹理特征，使用图像增强算法对图像进行增强，如调整对比度、增加锐度等，使纹理信息更加清晰和鲜明。最后，根据具体任务的需求，可以对增强后的图像进行后处理，如去除无关的纹理信息、进一步提取图像特征等。

总之，纹理增强模块可以帮助算法在低对比度、模糊、噪声等不良环境下更好地工作，提升算法的鲁棒性和性能。

3 OCR对抗攻击

在印刷体的文字识别领域，开展最早，且技术上最成熟的是国外的西方文字识别技术。早在 1929 年，德国的科学家Taushek已经取得了一项**光学字符识别(optical character recognition, OCR)**专利。自上个世纪五十年代以来，欧美国家就开始研究关于西方各个国家的文字识别技术，以便对日常生活中产生的大量文字材料进行数字化处理。经过长时间的不断研究和完善，西文的OCR技术已经有一套完备的识别方案，并广泛地用在西文的各个领域中。

说到光学字符识别大家可能比较陌生，但或多或少都应该听说过OCR，通俗来讲，OCR技术采用电子设备（例如扫描仪或数码相机）检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字。人们会出于生活、工作需要，拍摄自己的相关证件、文件并发送给第三方，这些图片上承载的个人信息可能被不法分子使用OCR技术识别提取并泄露。

在这里插入图片描述

那么什么是**对抗攻击（Adversarial Attack）**呢？这是近年来深度学习研究中出现的一个新问题，Szegedy等在图像分类问题上发现深度神经网络容易遭受到对抗样本的攻击，从而威胁到神经网络的安全性。对抗样本是指在图像上添加一些不影响人眼判断的干扰噪声，但能有效的迷惑深度模型，使其作出错误判断的样本。如下图左侧是一张大熊猫的图像，当添加一个噪声生成右侧的对抗样本。对于某个神经网络，能够正确的判定左图为大熊猫，却错误的判定右侧为长臂猿，而且相应的置信度为99.3%。而对于人眼来说，左右两张图像并没有明显的差异。

在这里插入图片描述

对抗样本产生的机理比较复杂，通常来说较大的模型参数对输入信号具有放大作用，某些微弱的信号被严重放大之后会对分类器产生干扰。使用正则化技术能够在一定程度上减弱对抗样本的攻击，但是效果非常有限。目前比较有效的防御手段是生成足够的对抗样本，然后将这些样本添加到训练集中进行二次训练，这样获得的模型则对大多数对抗样本具有较强的防御能力。

写在最后

在结束之际，我想重申的是，学习并非如攀登险峻高峰，而是如滴水穿石般的持久累积。尤其当我们步入工作岗位之后，持之以恒的学习变得愈发不易，如同在茫茫大海中独自划舟，稍有松懈便可能被巨浪吞噬。然而，对于我们程序员而言，学习是生存之本，是我们在激烈市场竞争中立于不败之地的关键。一旦停止学习，我们便如同逆水行舟，不进则退，终将被时代的洪流所淘汰。因此，不断汲取新知识，不仅是对自己的提升，更是对自己的一份珍贵投资。让我们不断磨砺自己，与时代共同进步，书写属于我们的辉煌篇章。

需要完整版PDF学习资源私我

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

张士玉小黑屋

当前位置：首页 » 《关注互联网》 » 正文