Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (4): 71-77    DOI: 10.11925/infotech.1003-3513.2014.04.11
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
图书网页的自动识别及书目信息抽取研究
李湘东1,2, 霍亚勇1, 黄莉3
1. 武汉大学信息管理学院 武汉 430072;
2. 武汉大学信息资源研究中心 武汉 430072;
3. 武汉大学图书馆 武汉 430072
Study of Book Pages Automatic Identification and Bibliographic Information Extraction
Li Xiangdong1,2, Huo Yayong1, Huang Li3
1. School of Information Management, Wuhan University, Wuhan 430072, China;
2. Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China;
3. Wuhan University Library, Wuhan 430072, China
全文: PDF(725 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 以相关的图书类网页为对象,研究图书网页的自动识别及书目信息抽取方法。[方法] 在分析不同图书网页标签使用特征、布局结构以及书目信息表征的基础上,通过定义通用规则及共现词和页面分析等技术建立图书网页自动识别及书目信息抽取模型。[结果] 实验证明,该模型针对来自一般性网站的图书网页识别率可以达到近80%,而针对各类图书网页书目信息的抽取准确率平均也达到79%左右。[局限] 该方法中阈值的设定综合考虑了多种类型图书网页信息特征,但对于部分特征极其特殊的网页存在误判现象,若进一步改进算法,可能效果更好。[结论] 此方法对于各种类型图书网页的自动识别和书目信息抽取均能取得比较理想的效果,普适性较强,同时也为图书网页信息组织管理和自动分类研究奠定了基础。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
霍亚勇
李湘东
黄莉
关键词 图书网页书目信息自动识别信息抽取    
Abstract

[Objective] The article studies the book pages automatic identification and the thematic information extraction method, which sets relevant book pages as the objects. [Methods] Based on the analysis of the features usage of different book pages labels, layout structure and theme information representation, the article establishes a book pages automatic identification and thematic information extraction model through defining general rules, using co-occurrence words and pages analysis, etc. [Results] The result shows that the book pages identification rates from the general Web sites of the model can reach nearly 80%, and the average abstraction rates of the thematic information about kinds of book pages can reach nearly 79%. [Limitations] The method of threshold setting comprehensively considerates various types of books characteristics of Web information, but for some features extremely special webpages exists misjudgment phenomenon, if the algorithm is further improved, it may be better. [Conclusions] The method for automatic identification of all kinds of book pages and thematic information extraction can obtain ideal result, it has a strong universality, at the same time, it also has laid the foundation for the book Web page information organization management and automatic classification research.

Key wordsBook pages    Bibliographic information    Automatic identification    Information extraction
收稿日期: 2013-12-18     
:  TP391  
基金资助:

本文系湖北省高校图工委基金项目“传统分类体系下多种类型文献自动分类研究”(项目编号:2012YB02)的研究成果之一。

通讯作者: 霍亚勇 E-mail:413261403@qq.com     E-mail: 413261403@qq.com
作者简介: 作者贡献声明:李湘东:提出研究方向和思路,介绍相关技术的应用; 霍亚勇:实验流程设计,实验材料采集及分析,进行实验; 黄莉:实验数据分析; 霍亚勇:论文起草;李湘东:最终版本修订。
引用本文:   
李湘东, 霍亚勇, 黄莉. 图书网页的自动识别及书目信息抽取研究[J]. 现代图书情报技术, 2014, 30(4): 71-77.
Li Xiangdong, Huo Yayong, Huang Li. Study of Book Pages Automatic Identification and Bibliographic Information Extraction. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2014.04.11.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.04.11

[1] 罗永莲,秦振吉.新闻网页主题内容提取方法研究[J].微计算机应用,2007,28(5):556-560.(Luo Yonglian,Qin Zhenji.Research on Extracting Topic Content from News Web Pages[J].Microcomputer Applications,2007,28(5):556-560.)
[2] 施洋,张奇,黄萱菁.含有语义特征的网页新闻自动抽取[J].计算机工程,2010,36(7):173-178.(Shi Yang,Zhang Qi,Huang Xuanjing.Automatic Web News Extraction with Semantic Features[J].Computer Engineering,2010,36(7):173-178.)
[3] 孔胜,王宇.一种基于正文特征的新闻网页抽取方法[J].情报杂志,2010,29(8):122-125.(Kong Sheng,Wang Yu.A News Page Information Extraction Based on Web Feature[J].Journal of Intelligence,2010,29(8):122-125.)
[4] 刘伟,严华梁.一种统一的Web新闻对象自动抽取方法[J].计算机工程,2012,38(11):167-169.(Liu Wei,Yan Hualiang.A Unified and Automatic Web News Object Extraction Approach[J].Computer Engineering,2012,38(11):167-169.)
[5] 朱红灿,龙朝阳.基于熵的新闻网页抽取方法的研究[J].现代图书情报技术,2007(4):48-51.(Zhu Hongcan,Long Chaoyang.An Entropy-Based Approach for News Article Extraction from Web Page[J].New Technology of Library and Information Service,2007(4):48-51.)
[6] 孙承杰,关毅.基于统计的网页正文信息抽取方法的研究[J].中文信息学报,2004,18(5):17-22.(Sun Chengjie,Guan Yi.A Statistical Approach for Content Extraction from Web Page[J].Journal of Chinese Information Processing,2004,18(5):17-22.)
[7] 赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-148.(Zhao Xinxin,Suo Hongguang,Liu Yushu.Web Content Information Extraction Method Based on Tag Window[J].Application Research of Computer,2007,24(3):144-148.)
[8] Zheng S Y,Song R H,Wen J R.Template-independent News Extraction Based on Visual Consistency[C].In:Proceedings of the AAAI'07,Vancouver,Canada.2007.
[9] 郑德权,张迪,赵铁军,等.Blog网页分类与识别技术研究[J].通信学报,2007,28(12):156-160.(Zheng Dequan,Zhang Di,Zhao Tiejun.Study on the Classification and Identification of Blog Pages[J].Journal of Communication,2007,28(12):156-160.)
[10] 范纯龙,夏佳,肖昕,等.基于功能语义单元的博客评论抽取技术[J].计算机应用,2011,31(9):17-23.(Fan Chunlong,Xia Jia,Xiao Xin,et al.Extraction Technology of Blog Comments Based on Functional Semantic Units[J].Journal of Computer Application,2011,31(9):17-23.)
[11] 曹冬林,廖祥文,许洪波,等.基于网页格式信息量的博客文章和评论抽取模型[J].软件学报,2009,20(5):1282-1291.(Cao Donglin,Liao Xiangwen,Xu Hongbo,et al.Extraction Model Based on Web Format Information Quantity in Blog Post and Comment Extraction[J].Journal of Software,2009,20(5):1282-1291.)
[12] 唐伟,洪宇,冯艳卉,等.网页中商品"属性-值"关系的自动抽取方法研究[J].中文信息学报,2012,27(1):21-29.(Tang Wei,Hong Yu,Feng Yanhui,et al.Automatic Extraction of the Product "Attribute-Value" Pair from the Web Pages[J].Journal of Chinese Information Processing,2012,27(1):21-29.)
[13] 杨舟,卓林,赵朋朋,等.一种针对商品数据记录的自动抽取方法[J].计算机工程,2010,36(23):262-265.(Yang Zhou,Zhuo Lin,Zhao Pengpeng,et al.Automatic Extraction Method for Product Data Records[J].Computer Engineering,2010,36(23):262-265.)
[14] 吴晓彦,郑骁庆,顾轶灵,等.基于结构语义熵的网上商品信息提取系统[J].计算机应用与软件,2010,27(9):49-53.(Wu Xiaoyan,Zheng Xiaoqing,Gu Yiling,et al.Extraction Algorithm of Merchandise Information on Networks Based on Structured-Semantic Entropy[J].Computer Application and Software,2010,27(9):49-53.)
[15] 李文博.基于XML的藏文网页的信息抽取与转存技术研究[D].兰州:西北民族大学,2006.(Li Wenbo.The Research of XML-Based Tibet Web Page Information Extraction and Conversion Storage[D].Lanzhou:Northwest University for Nationalities,2006.)
[16] 蔡李,单艳,薛化建.维吾尔文网页正文抽取系统的研究与实现[J].计算机工程与设计,2012,33(2):551-555.(Cai Li,Shan Yan,Xue Huajian.Research and Implementation of Uyghur Web Content Extraction System[J].Computer Engineering and Design,2012,33(2):551-555.)
[17] 王瑞,周喜,李晓.基于正文相关度的维吾尔网页正文提取[J].计算机工程,2012,38(21):153-160.(Wang Rui,Zhou Xi,Li Xiao.Content Extraction of Uighur Web Based on Content Correlativity[J].Computer Engineering,2012,38(21):153-160.)
[18] 王爽.面向数字旅游网页的Web信息抽取技术研究[D].西安:西安电子科技大学,2012.(Wang Shuang.Research of Web Information Extraction Technology Oriented to Digital Tourism Website[D].Xi'an:Xidian University,2012.)
[19] 顾轶灵.基于多维语义的互联网药品信息提取方法[J].计算机系统应用,2011,20(11):50-54.(Gu Yiling.Multidim­ensional-Semantics-Based Web Medicine Information Extr­action[J].Computer Systems and Applications,2011,20(11):50-54.)
[20] 王文生,谢能付.基于Web的农业信息自动抽取方法研究[C].见:全国农业信息分析理论与方法学术研讨会.2007:77-83.(Wang Wensheng,Xie Nengfu.Research on Web-based Agriculture Information Extraction[C].In:National Seminar on Agricultural Information Analysis Theory and Method.2007:77-83.)

[1] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[2] 牟冬梅,金姗,琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[3] 王小梅,邓启平. 科学结构地图的领域群自动识别研究*[J]. 现代图书情报技术, 2016, 32(4): 48-55.
[4] 段宇锋,黄思思. 中文植物物种多样性描述文本的信息抽取研究*[J]. 现代图书情报技术, 2016, 32(1): 87-96.
[5] 刘伟, 王星, 宋培彦. 同义词抽取结果的噪音清洗方法研究[J]. 现代图书情报技术, 2015, 31(6): 64-70.
[6] 李湘东, 巴志超, 黄莉. 一种基于加权LDA模型和多粒度的文本特征选择方法[J]. 现代图书情报技术, 2015, 31(5): 42-49.
[7] 刘雅静, 王衍喜, 郝丹, 周津慧. 机构知识库支撑科研服务方法研究[J]. 现代图书情报技术, 2014, 30(3): 1-7.
[8] 翟东升, 张欣琦, 张杰, 康宁. 分布式专利信息抽取系统设计与构建[J]. 现代图书情报技术, 2013, 29(7/8): 114-121.
[9] 张晗, 刘双梅. 中心度指标对语义述谓网络概念抽取的比较分析——以疾病治疗学研究为例[J]. 现代图书情报技术, 2013, (6): 30-35.
[10] 黄勋, 游宏梁, 于洋. 关系抽取技术研究综述[J]. 现代图书情报技术, 2013, 29(11): 30-39.
[11] 何琳, 何娟, 沈耕宇, 杨波, 黄水清. 一种通过文本挖掘发现实时定量聚合酶链式反应实验内参基因的方法研究[J]. 现代图书情报技术, 2012, 28(7): 109-114.
[12] 谢靖, 苏新宁, 沈思. CSSCI语料中短语结构标注与自动识别[J]. 现代图书情报技术, 2012, (12): 32-38.
[13] 高强, 游宏梁. 基于层叠模型的国防领域命名实体识别研究[J]. 现代图书情报技术, 2012, (11): 47-52.
[14] 王秀艳, 崔雷. 应用关键动词抽取生物医学实体间语义关系研究综述[J]. 现代图书情报技术, 2011, 27(9): 21-27.
[15] 周虹, 张蓓, 姜爱蓉, 张成昱. 馆藏书目信息自助短信推送服务的设计与实现[J]. 现代图书情报技术, 2011, 27(7/8): 127-131.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn