分类:论文资源库 作者:admin 评论:0 点击: 439 次
摘要:随着互联网的飞速发展,供用户的信息资源也变得多之又多,但是如何从这么庞大的资源库中寻找自己需要的资料却使一件难事,本论文提出了一种利用搜集器互联网中得多媒体资源,即基于web页面多媒体资源库的设计,这样可以从中提取有利于资源描述的文本信息,建立多媒体资源,为师生提供检索服务。
关键词:互联网;web页面;多媒体资源库;检索
在互联网中,用户经常会使用像google、baidu、yahoo!搜索引擎来帮助寻找自己要的资源。但其超大规模的分布式数据源、异构的数据及信息的检索质量不高等问题造成用户很难找到真实要用的信息,使其无法直接为高校师生提供信息服务。为了解决这一问题,本文设计并开发了基于web的多媒体资源库,为用户提供多媒体信息资源的检索服务。
一、基于web页面多媒体资源库的设计
本系统首先对web中存在的多媒体资源的页面进行搜索,然后对搜索到的网页进行预处理与结构分析,再从网页中提取多媒体资源的相关文本,相关文本进行拼音及英文翻译转换、中文分词、关键词过滤提取等操作,最终形成对多媒体资源进行描述的信息库。
(一)搜集多媒体资源网页。利用网络资源搜索器baidu或google等搜索与多媒体相关的web页面,利用页面的<title>标签等属性计算机内容相似度。这个过程中包括将html代码保存在一起,组建一个资源库,利用布尔模型决定搜索器的爬行主题和爬行方向,提高搜索引擎的准确率。
(二)分析多媒体资源网页和定位多媒体区域。获取charset的属性值,判断网页的编码语言和编码类型,例如从代码“<meta http-equiv="content-type" content="text/html;charset=gb2312"/>”中就可以得知该网页的编码代码为gb2312编码,而从代码“<meta http-equiv="contenttype"content="text/html;charset=utf-8"/>”中可能得知该网页的编码代码为utf-8编码。得知编码类型后将不同的编码类型统一转换成gb2312编码。vc的两个函数widechartomultibyte()和multibytetowidechar()就能将utf-8编码转化成gb2312编码。接着定位多媒体区域,利用网页结构图判断多媒体资源的表格区域,将与资源描述相关的文本定位,尤其是那些导航文本对于资源的搜索非常重要。通过一定的算法将干扰的文本区域或干扰文本剔除,保留有利用价值的文本。
(三)提取多媒体资源相关文本信息。提取那些用于描述多媒体资源的文本信息。如网页重要标签“<title>……</title>”之间的内容,网页头部关键词keywords和description,标记为<meta name="keywords"content="网页的关键词">,<meta name="description"content="网页的简述">的内容。这些都能高概括性区分不同网页,精度高。这种网页结构分析或区域分析能更有效地降低干扰,提高文本提取的精确度。大多数网站的页面都提供了多媒体资源导航,例如英语学习网站:英语之声>>听力训练>>动画听力>>字母训练。从导航文本上就可知道字母听力训练是关键字。
(四)入库文本信息。提取的相关文本信息,只是做了一个关键字的选择,还要将这些关键字入库到数据库,这部分工作就是信息入库工作。
二、多媒休资源库相关技术
(一)数据库技术:数据管理是现代计算机的一项重要应用,对数据进行分类、组织、编码、存储、检索和维护的利用。数据库技术为应用程序提供了更为标准和开放式的接口。
(二)面向对象技术:面向对象技术对于复杂知识单元的结构表示,多媒体资源库的构件化集成、信息处理模块的整和等都是至关重要的。
(三)网络技术:计算机网络将地理位置不同并具有独立功能的多台计算机系统通过通信设备和线路连接起来,以功能完善的网络软件实现网络资源共享的系统。
(四)人工智能技术:人工智能从学习者的结构特征、知识的表示等方面来进一步培养学习都能从庞大的知识库从寻找到有价值的,值得学习的资料。
三、实验与分析
利用多媒体资源搜集器对20个网站进行搜索试验,共搜索了250个页面,通过提取到的关键字来计算提取率和准确率两个硬性指标,来衡量文本提取的准确性。页面数目包含关键词的数目提取正确的网页数提取率准确率25024223996.8%95.6%可以看本系统对web中多媒体资源的相关文本提取效果较好。但本系统是只是针对表格定位标签里的文本信息进行定位分析、存取,存在比较大的误差,造成少数没有使用表格定位的但由于部分网页没有使用表格来定位的网页里的多媒体资源信息没有被提取分析出来。
四、结论
创新教育的本质是培养学生的创新意识和创新能力,而创新意识、创新能力的培养很大程度上取决于学生积极性、自主性的发挥。在这方面,多媒体网络教学可以为创新教育提供良好的教学环境,那么网络中多媒体资源的搜索及其相关文本的提取对描述网上多媒体的信息具有重要意义了。希望本文可以为高校师生提供更好的多媒体资源检索服务。
参考文献:
[1]李志文;网络教学资源建设与应用[D];山东师范大学;2003年
[2]张锦原.校园网多媒体资源库的建设[j].黑龙江科技信息,2009,23:58-58
[3]安然,杨征,陈媛媛.校园多媒体教学资源库建设的思考[j].科技资讯,2009,18:201-201
[4]韩旭,曹永存,王辉,林旺.构建基于web的非物质文化遗产多媒体资源库[j].情报杂志,2009,28,6
[5]黄蕾;多媒体数据基于内容检索综述[J];情报探索;2000年04期
——核心论文网
声明: 本文由( admin )原创编译,转载请保留链接: http://www.hxlww.net/7334/hxlwfb
近期评论