深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近似最优解.可是,不受安全控制的探索性学习很可能会带来重大风险.针对上述问题,提出了一种基于双深度网络的安全深度强化学习(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法设计了危险样本经验池和安全样本经验池,其中危险样本经验池用于记录探索失败时的临界状态和危险状态的样本,而安全样本经验池用于记录剔除了临界状态和危险状态的样本.DDN-SDRL方法在原始网络模型上增加了一个深度Q网络来训练危险样本,将高维输入编码为抽象表示后再解码为特征;同时提出了惩罚项描述临界状态,并使用原始网络目标函数和惩罚项计算目标函数.DDN-SDRL方法以危险样本经验池中的样本为输入,使用深度Q网络训练得到惩罚项.由于DDN-SDRL方法利用了临界状态、危险状态及安全状态信息,因此Agent可以通过避开危险状态的样本、优先选取安全状态的样本来提高安全性.DDN-SDRL方法具有通用性,能与多种深度网络模型结合.实验验证了方法的有效性.
利用规约规则可以约简EPCCL理论的规模,从而提高扩展规则知识编译算法的编译质量。为此,设计了约简EPCCL理论相邻子句的算法(reducing adjacent clauses in EPCCL,RACE),用于约简EPCCL理论中满足规约规则的相邻子句,进而降低了基于超扩...
详细信息
利用规约规则可以约简EPCCL理论的规模,从而提高扩展规则知识编译算法的编译质量。为此,设计了约简EPCCL理论相邻子句的算法(reducing adjacent clauses in EPCCL,RACE),用于约简EPCCL理论中满足规约规则的相邻子句,进而降低了基于超扩展规则的求差知识编译算法(computing the difference set for knowledge compilation based on hyper extension rule,DKCHER)的中间结果EPCCL理论和最终结果EPCCL理论的规模。结合RACE算法和DKCHER算法,设计并实现了改进的DKCHER算法(improved DKCHER,imp-DKCHER)。实验结果表明:imp-DKCHER算法能够显著提高DKCHER算法的编译质量,平均可提高17.3%,并在大部分实例上能够提高DKCHER算法的编译效率。
鉴于传统的异质信息网络通常存在的高维稀疏性缺点,首先提出将异质信息网络的高维顶点嵌入低维向量空间的无监督学习模型——基于生成对抗网络的异质网络表征学习(heterogeneous network representation learning based on generative a...
详细信息
鉴于传统的异质信息网络通常存在的高维稀疏性缺点,首先提出将异质信息网络的高维顶点嵌入低维向量空间的无监督学习模型——基于生成对抗网络的异质网络表征学习(heterogeneous network representation learning based on generative adversarial network,HNRL-GAN)模型;然后分析HNRL-GAN模型中的不足之处,进一步提出改进 后的基于生成对抗网络的增强版异质网络表征学习(heterogeneous network representation learning based on generative adversarial network plus plus,HNRL-GAN++)模型;最后 分别在DBLP、Yelp、Aminer等数据集中使用HNRL-GAN模型和HNRL-GAN++模型进行节点分类和节点聚类等实验以测试模型的有效性。实验结果表明:1)HNRL-GAN模型和HNRL-GAN++模型都实现了将异质信息网络中的高维稀疏节点表示为低维稠密向量这一目标;2)相较于HNRL-GAN模型,HNRL-GAN++模型在保留高维空间中网络结构信息和语义信息等方面拥有更好的性能。
暂无评论