咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于混合条件模型的Web信息抽取 收藏

基于混合条件模型的Web信息抽取

Web Information Extraction Based on Hybrid Conditional Model

作     者:肖基毅 朱道辉 邹腊梅 XIAO Ji-yi;ZHU Dao-hui;ZOU La-mei

作者机构:南华大学计算机科学与技术学院湖南衡阳421001 

出 版 物:《郑州大学学报(理学版)》 (Journal of Zhengzhou University:Natural Science Edition)

年 卷 期:2008年第40卷第3期

页      面:52-55页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:湖南省自然科学基金资助项目 编号04JJ40051 湖南省教育厅科研项目 编号06c724 

主  题:Web信息抽取 最大熵马尔可夫模型 条件模型 最大熵 隐马尔可夫模型 

摘      要:针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分