Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. Issue (11): 48-53    DOI: 10.11925/infotech.1003-3513.2011.11.08
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
基于主题句相似度的标题党新闻鉴别技术研究
王志超1, 翁楠2, 王宇3
1. 上海交通大学情报科学技术研究所 上海 200240;
2. 南京大学工程管理学院 南京 210093;
3. 大连理工大学管理学院 大连 116024
Research of Title Party News Identification Technology Based on Topic Sentence Similarity
Wang Zhichao1, Weng Nan2, Wang Yu3
1. Institute of Information Science & Technology, Shanghai Jiaotong University, Shanghai 200240, China;
2. School of Management & Engineering, Nanjing University, Nanjing 210093, China;
3. School of Management, Dalian University of Technology, Dalian 116024, China
全文: PDF(698 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 针对目前网络上的标题党新闻,提出一种标题党新闻自动识别的算法。通过分析新闻网页构成的特点,抽取出新闻标题和新闻正文;以句子关系矩阵为基础,提出一种以语句为单位的主题句抽取算法;根据句子相似度计算结果来进行判断。实验表明,本方法的识别精度可达到80%,是一种有效的方法。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王志超
翁楠
王宇
关键词 标题党新闻新闻标题抽取新闻正文信息抽取句子相似度计算主题句抽取    
Abstract:Concerning the issues of the more and more title party news in the Web,this paper presents a new algorithm of title party news identification. Firstly, it analyzes the composition of the news page, then puts forward an approach of news title extraction and information extraction based on the features of news page. Secondly, considering the problem of extracting coherent topic sentences from news pages, starting with the relationship matrix of sentences, it puts forward an algorithm of topic sentence extraction. Then, according to the extracted news title and the candidate set of topic sentences, it can compute the similarity value, which is the main basis for judging the title party. Finally, the experiment results show that this method is effective and feasible.
Key wordsTitle party news    News title extraction    News information extraction    Sentence similarity computing
收稿日期: 2011-09-16     
:  TP391  
引用本文:   
王志超, 翁楠, 王宇. 基于主题句相似度的标题党新闻鉴别技术研究[J]. 现代图书情报技术, 2011, (11): 48-53.
Wang Zhichao, Weng Nan, Wang Yu. Research of Title Party News Identification Technology Based on Topic Sentence Similarity. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2011.11.08.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.11.08
[1] 蒲宇达,关毅,王强. 基于数据挖掘思想的网页正文抽取方法的研究 .见: 第三届学生计算语言学研讨会论文集 ,沈阳.2006.
[2] Moorn L.Discovery in Web-Documents .In: Proceedings of the 1999 ACM SIGMOD,Philadelphia,Pennsylvania,USA.1999.
[3] Marlin L.Relational Learning of Pattern-Match Rules for Information Extraction . In: Proceedings of Workshop in Natural Language Learning.1997:3-84.
[4] 李彬,刘挺,秦兵,等.基于语义依存的汉语句子相似度计算[J]. 计算机应用研究, 2003,20(12):15-17.
[5] 车万翔,刘挺,秦兵,等.基于改进编辑距离的中文相似句子检索[J]. 高技术通讯, 2004,14(7):15-19.
[6] 杨思春,程节华,陈家骏,等.一种基于模式的汉语句子相似度计算方法[J]. 微型机与应用, 2001,20(8):52-53.
[7] 李芳,柯熙政.基于切平面的主题提取算法[J]. 计算机工程与应用, 2007(25):172-174.
[8] 石晶,胡明,戴国忠.基于小世界模型的中文文本主题分析[J]. 中文信息学报, 2007,21(3):69-75.
[9] 李楠.基于遗传算法的汉语文本主题词提取研究 .长春:吉林大学,2007.
[10] 罗永莲,秦振吉.新闻网页主题内容提取方法研究[J]. 微计算机应用, 2007,28(5):556-560.
[11] 孙承杰,关毅.基于统计的网页正文信息抽取方法的研究[J]. 中文信息学报, 2004,18(5):17-22.
[12] 王森,王宇.基于文本树结构的论文复制检测算法[J]. 现代图书情报技术, 2009(10):50-55.
[1] 段晓丽, 王宇. 基于主题分割与PageRank算法的文本主题抽取[J]. 现代图书情报技术, 2010, 26(12): 34-39.
[2] 廉站俊,吕学强,张玉杰,施水才. 基于句子相似度计算的信息抽取*[J]. 现代图书情报技术, 2007, 2(6): 38-41.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn