在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near-Duplicate Web Pages)。试验...
详细信息
在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near-Duplicate Web Pages)。试验证明,比起其它网页去重算法(I-Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。
本文通过元数据在数字图书馆中的功能的分析,探讨其在信息组织及知识表述和索引方面的若干问题,论述了元数据与置标语言的相互关系及其结合点。我们在一个数字图书馆中所需要的应该不只是对资源的发掘(discovery of resources),而应加...
详细信息
本文通过元数据在数字图书馆中的功能的分析,探讨其在信息组织及知识表述和索引方面的若干问题,论述了元数据与置标语言的相互关系及其结合点。我们在一个数字图书馆中所需要的应该不只是对资源的发掘(discovery of resources),而应加上对资源所含内容的发掘(discovery within resources),元数据将在这当中大显身手。元数据是有效地组织与处理任何数字化文献资源的必不可少的工作数据。虽然元数据的思想来源于编目,但已经是青出于蓝而胜于蓝了。文章着重探讨了元数据的存在形式、描述功能及局限,并对元数据与置标语言结合后的功能加以探析。元数据与置标语言的结合使它们在数字图书馆信息组织和知识表述方面的功能增加了,但是要达到更理想的目标,我们还需要对元数据与置标语言的相互关系和结合的方法进行大量研究和试验,还需要从根本上解决机器自动生成元数据记录或自动置标等等方面存在的问题。
暂无评论