Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (6): 38-41     https://doi.org/10.11925/infotech.1003-3513.2007.06.09
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
基于句子相似度计算的信息抽取*
廉站俊1 吕学强1 张玉杰2 施水才1
1(北京信息科技大学中文信息处理研究中心 北京 100101)
2(大连工业大学信息学院 大连 116011)
Information Extraction Based on Calculation of Sentence Similarity
Lian ZhanjunLv XueqiangZhang Yujie2  Shi Shuicai1
1 (Chinese Information Processing Research Center,Beijing Information
Science and Technology University,Beijing 100101,China)
2 (College of Information Science and Engineering,Dalian  Polytechnic University, Dalian 116011,China)
全文: PDF (432 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

提出一种基于句子相似度的信息抽取方法。采用句子主题相似度计算, 对测试语料进行小句主题识别;同时结合句子主题在整个文章中的概率分布特点,提高识别的准确性。以网络上个人信息资源为语料,在该系统上进行测试, 取得较好效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
施水才
张玉杰
廉站俊
吕学强
关键词 信息抽取概率分布主题句子相似度计算    
Abstract

This paper gives a new method of information extraction based on calculation of sentence similarity. The topics of the sentences in testing words are labeled by adopting the method of calculation of sentence similarity. The veracity is increased by referencing the distributing of probability of the sentences in the documents. Using the resources of personal information on Internet, the paper achieves a statistic result.

Key wordsInformation extraction    Distributing of probability    Topic    Calculation of sentence similarity
收稿日期: 2007-05-10      出版日期: 2007-06-25
: 

TP391

 
基金资助:

* 本文系“863”计划重点项目“跨媒体搜索关键技术研究及服务产品开发”(项目编号:2006AA010105)和北京市教委科技发展计划项目“基于大规模真实文本的新词发现研究”(项目编号:KM200710772010)的研究成果之一。

通讯作者: 廉站俊     E-mail: dikk12345678@gmail.com
作者简介: 廉站俊,吕学强,张玉杰,施水才
引用本文:   
廉站俊,吕学强,张玉杰,施水才. 基于句子相似度计算的信息抽取*[J]. 现代图书情报技术, 2007, 2(6): 38-41.
Lian Zhanjun,Lv Xueqiang,Zhang Yujie,Shi Shuicai. Information Extraction Based on Calculation of Sentence Similarity. New Technology of Library and Information Service, 2007, 2(6): 38-41.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.06.09      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I6/38

1Zhang Y M,Zhou J F.A Trainable Method for Extracting Chinese Entity Names and Their Relations.In:Proceedings of the Second Chinese Language Processing Workshop,Hong Kong,2000
2Barzilay R, Lee L. Catching the Drift: Probabilistic Content Models. with Application to Generation and Summarization,HLT-NAACL 2004:113-120
3李向阳,苗壮,肖江.无结构文本信息抽取综述.军事通信技术,2004,25(2):32-35
4车万翔,刘挺,秦兵,李生等.基于改进编辑距离的中文相似句子检索.高技术通讯,2004(7):15-20
5李彬,刘挺,秦兵,李生.基于语义依存的汉语句子相似度计算.计算机应用研究,2003(12):15-17
6菅小艳,郑家恒. 基于HMM的农作物信息抽取.自然语言理解与大规模内容计算,2005(10):25-28
7高霄云,杨建林.基于规则的中文时间词和数词的自动识别算法.现代图书情报技术,2007(3): 46-50
8Sigz.垂直搜索引擎技术. http://www.fullsearcher.com/n20051112144420735.asp (Accessed  Sept.10,2006)

[1] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[2] 伊惠芳,刘细文. 一种专利技术主题分析的IPC语境增强Context-LDA模型研究[J]. 数据分析与知识发现, 2021, 5(4): 25-36.
[3] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[4] 张鑫,文奕,许海云. 一种融合表示学习与主题表征的作者合作预测模型*[J]. 数据分析与知识发现, 2021, 5(3): 88-100.
[5] 王红斌,王健雄,张亚飞,杨恒. 主题不平衡新闻文本数据集的主题识别方法研究*[J]. 数据分析与知识发现, 2021, 5(3): 109-120.
[6] 沈思,李沁宇,叶媛,孙豪,叶文豪. 基于TWE模型的医学科技报告主题挖掘及演化分析研究*[J]. 数据分析与知识发现, 2021, 5(3): 35-44.
[7] 赵天资, 段亮, 岳昆, 乔少杰, 马子娟. 基于Biterm主题模型的新闻线索生成方法 *[J]. 数据分析与知识发现, 2021, 5(2): 1-13.
[8] 张金柱, 于文倩. 基于短语表示学习的主题识别及其表征词抽取方法研究[J]. 数据分析与知识发现, 2021, 5(2): 50-60.
[9] 王伟, 高宁, 徐玉婷, 王洪伟. 基于LDA的众筹项目在线评论主题动态演化分析*[J]. 数据分析与知识发现, 2021, 5(10): 103-123.
[10] 胡广伟, 滕婕, 刘露. 政民互动中社会诉求主题挖掘和省际差异研究*——基于省级政府领导电子信箱语料的分析[J]. 数据分析与知识发现, 2021, 5(10): 15-27.
[11] 陈浩, 张梦毅, 程秀峰. 融合主题模型与决策树的跨地区专利合作关系发现与推荐*——以广东省和武汉市高校专利库为例[J]. 数据分析与知识发现, 2021, 5(10): 37-50.
[12] 邵琦,牟冬梅,王萍,靳春妍. 基于语义的突发公共卫生事件网络舆情主题发现研究*[J]. 数据分析与知识发现, 2020, 4(9): 68-80.
[13] 盛嘉祺, 许鑫. 融合主题相似度与合著网络的学者标签扩展方法研究*[J]. 数据分析与知识发现, 2020, 4(8): 75-85.
[14] 岳丽欣,刘自强,胡正银. 面向趋势预测的热点主题演化分析方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 22-34.
[15] 蔡永明,刘璐,王科唯. 网络虚拟学习社区重要用户与核心主题联合分析*[J]. 数据分析与知识发现, 2020, 4(6): 69-79.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn