Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (11): 73-78    DOI: 10.11925/infotech.1003-3513.2014.11.11
  应用实践 本期目录 | 过刊浏览 | 高级检索 |
医学学术信息自动采集系统的设计与实现
武海东, 何晓阳, 张精理
第三军医大学图书馆 重庆 400038
Design and Implementation of Medical Academic Information Automatic Gathering System
Wu Haidong, He Xiaoyang, Zhang Jingli
Third Military Medical University Library, Chongqing 400038, China
全文: PDF(1079 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 针对高水平期刊文献的中文导读这类特定的新闻信息, 构建一套自动汇聚医学网站新闻系统, 实现关键词提取、分类及期刊导航等二次数据加工功能.[应用背景] 为图书馆开展主动推送及学科服务提供国外学术研究信息源.[方法] 利用HttpClient 与HtmlParser构建主题网页采集器, 实现新闻列表页及内容采集.利用IK Analyzer2012分词器及医学主题词表实现关键词提取及学科分类.[结果] 系统实现指定网站新闻的自动采集、关键词提取、学科分类归属等功能.[结论] 为图书馆员开展学术信息推送及学科化服务等提供一套行之有效的工具, 为医学研究者纵览学术进展提供一站式访问.

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张精理
何晓阳
武海东
关键词 信息采集学术期刊HttpClientHtmlParser信息推送    
Abstract

[Objective] Aiming at Chinese news of medical research literature published on top journals, design an automatic gathering system which can gather news from different medical news websites, extract content and keywords, realize the subject classification and journal navigation. [Context] Provide information source of foreign academic research for active push and subject services. [Methods] Using HttpClient & HtmlParser to build Web-page collector, realize the news list page and content acquisition. Using IK Analyzer 2012 and MeSH to realize medical keywords extraction and subject classification. [Results] The system achieves automatic gathering, keyword extraction and subject classification of specified website news. [Conclusions] Librarians can use this system to provide effective medical academic information push service for medicine researchers.

Key wordsInformation gathering    Academic journal    HttpClient    HtmlParser    Information push
收稿日期: 2014-03-27     
:  G354  
  TP391  
通讯作者: 武海东 E-mail: tmmuwuhd@163.com     E-mail: tmmuwuhd@163.com
作者简介: 作者贡献声明: 武海东, 何晓阳: 提出研究思路, 设计研究方案;武海东, 张精理: 提出网站系统架构, 负责系统开发; 武海东: 论文撰写及修订.
引用本文:   
武海东, 何晓阳, 张精理. 医学学术信息自动采集系统的设计与实现[J]. 现代图书情报技术, 2014, 30(11): 73-78.
Wu Haidong, He Xiaoyang, Zhang Jingli. Design and Implementation of Medical Academic Information Automatic Gathering System. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2014.11.11.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.11.11

[1] 王涛. 基于HTML标记的主题爬行器的设计与实现[D]. 成

都: 电子科技大学, 2009. (Wang Tao. Design and Imple­men­tation of Topic Focused Crawler Based on HTML Tags [D]. Chengdu: University of Electronic Science and Technology of China, 2009.)
[2] 贺苏伟. 教育新闻采集系统的设计与实现[D]. 广州: 华南理工大学, 2012.(He Suwei. The Design and Implementation of Education New Collection System [D]. Guangzhou: South China University of Technology, 2012.)
[3] 韩朝阳. 基于Web的动态语料库构建——以中国政治新闻语料库建库为例[J]. 中国教育技术装备, 2013(23): 66-68. (Han Zhaoyang. Construction of Dynamic Corpus Based on Web: An Example of China Political News Corpus [J]. China Educational Technology Equipment, 2013(23): 66-68.)
[4] 张春元, 康耀红, 伍小芹. Web新闻自动采集发布系统的设计与实现[J]. 计算机技术与发展, 2009(9): 250-253. (Zhang Chunyuan, Kang Yaohong, Wu Xiaoqin. Design and Implementation of Web News Automatically Gathering and Publishing System [J]. Computer Technology and Development, 2009(9): 250-253.)
[5] 陈建国. 基于Web结构的网站新闻采集系统的设计与实现[J]. 井冈山大学学报: 自然科学版, 2012, 33(2): 54-57. (Chen Jianguo. Design and Implementation of News Gathering System Based on Web Structure [J]. Journal of Jinggangshan University: Natural Science, 2012, 33(2): 54-57.)
[6] 钱爱兵, 江岚. 基于标题的中文新闻网页自动分类[J]. 现代图书情报技术, 2008(10): 59-68. (Qian Aibing, Jiang Lan. Automatic Classification Based on News Titles for Chinese News Web Pages [J]. New Technology of Library and Information Service, 2008(10): 59-68.)

[1] 王思丽,刘巍,祝忠明,吴志强,王金平. 基于CSpace的科技信息可配置化自动监测功能设计与实现*[J]. 数据分析与知识发现, 2017, 1(10): 85-93.
[2] 俞立平. 来源指标与被引指标关系及对期刊评价的影响*——以JCR数学期刊为例[J]. 现代图书情报技术, 2016, 32(7-8): 94-100.
[3] 潘竹虹,萧德洪. 一种支持双栈及高速网络的数字资源利用分析系统数据过滤方法[J]. 现代图书情报技术, 2016, 32(3): 90-96.
[4] 张晓丹, 乔晓东, 顾立平, 姚长青, 初景利. 中国学术期刊对机构知识库存缴政策调查分析[J]. 现代图书情报技术, 2014, 30(6): 1-7.
[5] 李文江, 陈诗琴. 基于Android GCM服务的图书馆信息推送系统设计[J]. 现代图书情报技术, 2013, 29(11): 91-96.
[6] 王灵芝, 俞立平. 学术期刊评价中关键指标的确定方法研究[J]. 现代图书情报技术, 2012, 28(7): 103-108.
[7] 沈洪洲, 宗乾进, 袁勤俭. 应用Google云消息框架C2DM实现商务信息推送服务[J]. 现代图书情报技术, 2012, 28(6): 78-83.
[8] 吴红, 王凤英, 付秀颖. 面向专利分析的法律状态分布式采集系统的设计与实现[J]. 现代图书情报技术, 2012, (12): 66-71.
[9] 俞立平, 潘云涛, 武夷山. 学术期刊非线性评价方法的检验与修正研究[J]. 现代图书情报技术, 2011, 27(7/8): 110-115.
[10] 周虹, 张蓓, 姜爱蓉, 张成昱. 馆藏书目信息自助短信推送服务的设计与实现[J]. 现代图书情报技术, 2011, 27(7/8): 127-131.
[11] 邓三鸿, 王昊, 苏新宁. 基于CSSCI本体的学术期刊关联分析[J]. 现代图书情报技术, 2011, 27(3): 30-37.
[12] 许鑫 黄仲清 邓三鸿. 互联网侨情信息采集系统设计与实现*[J]. 现代图书情报技术, 2010, 26(7/8): 95-101.
[13] 陈诗琴 李文江. 基于.Net的农产品市场行情信息采集 ——以重庆农产品市场行情查询网为例[J]. 现代图书情报技术, 2010, 26(6): 88-92.
[14] 薛娟. 基于RSS技术的重点学科信息推送系统设计及实现*[J]. 现代图书情报技术, 2010, 26(4): 83-86.
[15] 黄进. 图书馆应用系统监控的设计与实现[J]. 现代图书情报技术, 2010, 26(3): 90-94.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn