论文笔记:Digital Watermarking Technique for Text Document Protection Using Data Mining Analysis

一、基本信息

论文题目:《Digital Watermarking Technique for Text Document Protection Using Data Mining Analysis》

发表时间:IEEE Access 2019

作者及单位:

二、摘要

在当今时代,信息安全是所有组织的头等大事。随着物联网、大数据和云计算等互联网技术的快速发展,个人、政府和军队面临着数据安全问题。随着数据的高速增长,如何在设计智能城市的同时安全有效地管理海量的数据成为研究者们面临的一项具有挑战性的任务。制作数字内容的非法拷贝是相当容易的。数字内容的验证是一个主要问题,因为数字内容是每天生成并通过互联网共享的。有限的技术可用于文档版权保护。然而,大多数现有技术在水印插入或缺少容量时会产生失真。在此基础上,提出了一种基于数据挖掘的文档版权保护和所有权确认的数字水印技术。将数据挖掘技术应用于从文档中寻找合适的属性以嵌入水印。该模型为本地和云计算模式下的文本文档提供了版权保护。为了评估所提出的技术,使用20个不同的文本文档执行许多攻击,例如格式化、插入和删除攻击。在峰值信噪比(psnr)在64.67%~71.03%之间,相似度(sim)在99.92%~99.99%之间时,该方法具有很高的不可见性。该技术具有很强的鲁棒性和抗格式化攻击能力,与以前的技术相比,该技术的性能也得到了提高。

三、主要内容与工作

1、数据是智能城市的关键要素,它支撑着数据的基础设施,帮助人们获取数字内容。智能城市的架构如图1所示,数据存储、处理和分析在中心位置。数字水印为数字内容的版权保护和所有权确认提供了解决方案。一条秘密信息被放置在一个数字内容中,而不会损害有价值的数据。此机密信息稍后用于所有权识别。数字水印分为文本水印、图像水印、音频水印和视频水印。大部分的研究都集中在图像、音频和视频上。目前,由于文本文档的大量生成和共享,文本水印技术已经得到了广泛的应用[3]。

个人、政府官员和军队面临的数据安全问题也会影响到智能城市。数字出版商有权利,但面临许多威胁,如非法使用版权、数据操纵和信息再分配[4]。文本文档几乎是每个组织或公司(如审计公司、银行或任何大型私人或公共公司)的一部分。这些文件的形式有财务报表、法律声明、出生证明、软学位、分类报告和声明[5]。
然而,大多数现有技术在水印插入过程中产生失真,这直接影响了不可感知性。此外,大多数现有技术不健全或缺乏能力。将数字文件转换为其他格式可能会丢失嵌入的水印。如何保证文本文档的原创性和版权保护,需要一种抗格式攻击、不易察觉、嵌入容量高、安全可靠的水印技术。本文提出了一个新的框架来解决这一问题,以克服当前文本水印的挑战。

2、我们在这项研究中的主要贡献如下:

(1)利用数据挖掘技术,提出了一种新的数字文本水印模型。利用数据挖掘技术选择合适的ms-word文档属性,嵌入大尺寸的水印信息。
(2)提出了一种安全可靠的数字水印技术,该技术利用数据挖掘技术在本地和云模式下为文本文档提供版权保护。
(3)该技术对格式攻击具有99.9%的鲁棒性,不易察觉,安全性高,目的是保护大容量的文本文档。
(4)该技术支持格式转换,适用于某些语言。
(5)该技术将适用于大数据和物联网,提高智能城市数字文本文档的安全性。
论文的其余部分结构如下。第二节介绍了相关工作。第三部分介绍了水印的嵌入和提取过程。第4节说明拟议工作的方法。第5节对实验结果进行了评价,而第6节总结了目前的工作和未来的方向。

3、ms-word文档由两类组成,一类是应用程序类,另一类是文档类。应用程序类属性通过VisualBasic(VB)修改以嵌入水印,并且不会影响文档类。ms-word文档的特殊属性适用于两个原因。首先,在不影响整个文档的情况下存储了大量的信息。其次,任何ms-word相互命令都不会影响水印信息[19]。表2给出了合适的ms-word属性,这些属性被选择用于水印。

将水印信息分成相等的组嵌入到这些属性中,然后开始第二级嵌入。在二级嵌入中,来自布局的ms-word文档边距是目标。修改mar gin top、margin bottom、margin left和margin right的值,并分别替换为四个变量。水印文档是以可移植文档格式(PDF)生成的,在验证过程中,当文档格式更改时,文档边距不能更改并保持不变。当我们将MS Word文档转换为PDF或PDF到Word文档时,文档的边距和布局不能更改。嵌入水印后,将ms-word文档转换成pdf(可移植文档格式)并通过云存储或共享。算法2给出了水印嵌入的完整过程。

4、该技术对格式攻击具有99.9%的鲁棒性,如前所述,水印嵌入采用ms-word文档的特殊特性。任何常见的MS Word应用程序命令都不能中断水印。如图10所示,在对水印文档应用不同的攻击(包括剪切、复制、粘贴、字体大小、字体系列和其他更改)后,从文档中恢复100%的水印信息。这表明该技术对格式攻击具有很强的鲁棒性。格式化攻击无法中断或破坏水印。这些攻击包括字体颜色、字体系列、字体大小、文本背景颜色、行距和更改大小写。如图11所示,计算了所提出的算法结果,结果表明该算法对格式攻击具有鲁棒性,检测精度为99.9%。将提出的算法结果与已有的算法进行了比较。

四、总结

针对智能城市中数字内容的认证问题,提出了一种鲁棒的安全水印算法。将所提出的技术的性能与先前的技术进行比较和验证,以确定不可感知性、安全性、健壮性和容量。该领域已经提出了一些技术,但仍需要一种适用于云、物联网设备和智能城市的技术。实验表明,该算法具有很强的不可见性,相似度达到99.99左右。该算法在应用了剪切、复制、粘贴、字体大小、字体颜色和对齐等格式攻击后,证明了算法的鲁棒性,并能容忍大多数可能的攻击,水印提取准确率高。与以往的技术相比,该算法的容量也有所提高。在云计算环境下,该技术给出了与智能城市相同的结果,保证了文本文档的安全性。今后,本文提出的解决方案将扩展到印刷文本文档的版权保护。

猜你喜欢

转载自blog.csdn.net/qq_35771020/article/details/102555309