版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:空天信息安全与可信计算教育部重点实验室湖北武汉430072 武汉大学国家网络安全学院湖北武汉430072
出 版 物:《网络与信息安全学报》 (Chinese Journal of Network and Information Security)
年 卷 期:2022年第8卷第3期
页 面:53-65页
学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(61872275,62172306) 湖北省重点研发计划(2021BAA034,2020BAB018)
主 题:生成式文本隐写算法 算术编码 安全性可控 候选池截断
摘 要:生成式文本隐写算法通过对候选池中的单词进行控制性选择映射来隐藏秘密信息,通常包含3个模块:文本生成模型、候选池概率分布截断和隐写嵌入算法。由于不同时刻文本生成模型输出的概率分布差异巨大,现有算法通常采用top-k或top-p对候选池单词的概率分布进行截断,以减少低概率的生成词,提高生成文本的安全性。当文本生成模型输出的候选池概率分布过于集中(over-concentrated)或过于平坦(over-flat)时,原有的top-k或top-p截断方式不足以应对概率分布的变化,容易产生概率较低的词或忽略概率较高的词,导致生成文本的安全性指标出现异常。针对此类问题,提出了安全性可控的生成式文本隐写算法,在候选池中根据秘密信息控制性选择生成词时,所提算法基于困惑度和KL散度的参数约束,动态进行候选池概率分布的截断,使候选池中所有单词都满足参数约束,提高了生成文本的安全性。实验结果表明,所提算法生成的隐写文本困惑度和KL散度可控;在相同KL散度情况下,生成文本的困惑度较现有算法下降最高达20%~30%;可以同时控制困惑度和KL散度,在指标合理的情况下,使生成的文本同时满足困惑度和KL散度两个指标。在使用3种文本隐写分析算法检测生成的隐写文本时,检测准确率均在50%左右,表现出很好的统计安全性。