词嵌入模型可以将词语映射到低维向量空间以分析词语语义,为计算机理解和文本处理提供有效手段。传统中文词嵌入模型通过中文词语内部的组成信息学习语义信息,然而,对于汉字及其不同层级组件信息的利用程度,不同模型存在利用不够或过度的问题。为了更好地利用汉字不同层级组件信息生成高质量的词嵌入,提出多级组件融合中文词嵌入(MJWE)模型,综合考虑词语、汉字和多级组件的特征,融合带有位置信息的字嵌入,构建以偏旁、部首和更小粒度的组件构成的多级组件嵌入,从而更全面地捕捉中文词语内部语义信息。同时,构建非组合词词表防止词语内部信息的过度利用。实验结果表明,在词相似任务WS-295上,与JWE(Joint learning Word Embeddings)模型相比,MJWE模型的准确率提高了2.11%;在词类比任务state上,与跳元(SG)模型相比,MJWE模型的准确率提高了2.52%;在词类比任务family上,与连续词袋(CBOW)模型相比,MJWE模型的准确率提高了6.58%。在情感二分类任务上,与JWE模型相比,MJWE模型的准确率提高了0.71%;在情感七分类任务上,与SG模型相比,MJWE模型的准确率提高了8.60%。同时,将MJWE模型应用于中医文献分析,在方剂核心药物识别的任务中,MJWE可以识别治疗慢性肾小球肾炎不同证候的核心药物。可见,MJWE可以生成质量较好的中文词嵌入,结合社区检测算法可以识别治疗慢性肾小球肾炎不同证候的核心药物,有利于辅助中医医师临床决策。
目的探讨艾迪注射液治疗胃癌的潜在活性成分与可能的作用机制。方法通过TCMSP、DisGeNET、GeneCards等数据库获取艾迪注射液中的活性成分和胃癌的相关靶点。把二者的交集靶点导入STRING数据库中进行PPI网络分析,将分析结果导入Cytoscape软件构建蛋白相互作用网络图。同时使用该软件构建艾迪注射液化学成分-靶点网络图、成分-靶点-疾病网络图、药物-成分-靶点-通路网络图。通过Metascape数据库,对关键靶点进行基因本体(gene ontology,GO)富集分析和京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)通路富集分析。使用AutoDockTools软件对关键靶点与艾迪注射液中的与其相对应的活性成分进行分子对接验证。结果筛选得到艾迪注射液中的23个活性化合物、273个化合物相关靶点、165个化合物与疾病交集靶点,其中艾迪注射液治疗胃癌的关键基因有TP53、HSP90AA1、STAT3、SRC、JUN、AKT1、RB1、HDAC1、ESR1。对PPI富集分析总共得到3202条GO功能条目与165条KEGG通路。在GO功能条目中,包括2798条生物过程(BP)相关条目,146条细胞成分(CC)相关条目,258条分子功能(MF)相关条目。分子对接结果表明cantharidin、formononetin、astragaloside IV、ginsenoside-Rb1等化合物与TP53、ESR1、JUN、STAT3、HSP90AA1、RB1等有较好的结合活性。结论艾迪注射液治疗胃癌是基于多成分、多靶点、多通路的作用机制,该研究为下一步相关机制的实验研究提供了理论基础。
目的探讨龙菊清肝胶囊治疗原发性高血压的潜在活性成分和可能作用机制。方法通过TCMSP、OMIM、DigSee等数据库获取龙菊清肝胶囊中的活性成分和潜在靶点以及原发性高血压相关人类靶点。取两者交集靶点导入STRING中进行蛋白互作分析,运用Cytoscape构建化合物-化合物靶点网络,蛋白互作网络以及药物-化合物-原发性高血压靶点-通路图。通过DAVID数据库,对关键靶点进行基因本体(gene ontology,GO)富集分析和京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)通路富集分析。运用AutoDockTools对关键靶点和龙菊清肝胶囊活性成分进行分子对接。结果筛选得到龙菊清肝胶囊活性化合物115个,化合物预测靶点2203个,化合物和疾病相关共同靶点325个,其中龙菊清肝胶囊治疗原发性高血压的关键基因有:TNF、JUN、IL6、MMP2和NOS3。富集分析结果获得显著的45个GO条目和20条KEGG通路信号通路,包括癌症的通路、内分泌耐药和糖尿病并发症的AGE-RAGE信号通路等。分子对接结果表明Kaempferol与TNF、JUN、MMP2和NOS3有较强的结合活性。结论龙菊清肝胶囊治疗原发性高血压是基于多成分、多靶点和多通路的整体药效效应,该研究为进一步实验研究提供了理论基础。
暂无评论