该文首先分析了现有的两大类数据抽取算法:自顶向下抽取算法和自底向上抽取算法.这两类算法的处理思想不同,适用场合不同,各有其优点和局限性.接着,该文提出了一种新的以XML作为半结构化数据模型的数据抽取算法:自顶向下与自底向上相结合的双向数据抽取算法(Bi-Direction Data Extraction,简称BiDDE).它同时具备两种方法的优点,又在一定程度上克服了两种方法所带来的局限性.BiDDE在分离对象时采用自顶向下的方法,既可以利用HTML标签获得较高的对象分离精度,又避免了自底向上方法中不同对象之间属性值的混淆,同时还可以实现只对文档一部分内容进行抽取;在识别每个对象的结构时采用自底向上的方法,弥补了自顶向下方法处理嵌套结构的能力的不足,同时也提高了对象筛选的精确度.此外,BiDDE采用学习方法逐渐扩展可生成的模式的种类,随着使用时间的增长,BiDDE能够生成更加精确的匹配模式.在论文的最后,以一定数量的实际的Web页面为例对BiDDE进行了实验,以验证方法的可行性、有效性和性能.
HLS-Ⅱ(Hefei Light Source-Ⅱ)是以真空紫外和软X射线为主的专用同步辐射光源,其历史数据的检索速度对于性能分析和故障诊断至关重要,因此设计并开发了基于HBase的数据存档与检索系统(HBase-base Data Archiving and Retrieving System...
详细信息
HLS-Ⅱ(Hefei Light Source-Ⅱ)是以真空紫外和软X射线为主的专用同步辐射光源,其历史数据的检索速度对于性能分析和故障诊断至关重要,因此设计并开发了基于HBase的数据存档与检索系统(HBase-base Data Archiving and Retrieving System,HDARS),以提高历史数据的检索速度。HDARS中设计了一个数据抽取算法在存档过程中以不同的时间粒度抽取原始数据中的特征数据。原始数据和特征数据分别存入到HBase的原始数据表和冗余数据表中,当查询长期的历史数据时,HDARS将根据查询数据的时间范围来计算合适的时间粒度,并从冗余数据表中检索、返回具有此粒度的特征数据。该系统自投入运行以来,性能稳定,可以在1 s内响应任意时间范围的查询请求,完全满足了用户对HLS-Ⅱ历史数据查询需求。这种设计以较小的冗余存储空间为代价,完全解决了长期历史数据检索速度慢的问题。
暂无评论