版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
作者机构:南华大学计算机科学与技术学院湖南衡阳421001
出 版 物:《郑州大学学报(理学版)》 (Journal of Zhengzhou University:Natural Science Edition)
年 卷 期:2008年第40卷第3期
页 面:52-55页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:湖南省自然科学基金资助项目 编号04JJ40051 湖南省教育厅科研项目 编号06c724
主 题:Web信息抽取 最大熵马尔可夫模型 条件模型 最大熵 隐马尔可夫模型
摘 要:针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.