Please wait a minute...
Advanced Search
现代图书情报技术  2009, Vol. 25 Issue (6): 31-36     https://doi.org/10.11925/infotech.1003-3513.2009.06.07
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
多语言文本聚类研究综述*
章成志1,2  王惠临2
1(中国科学技术信息研究所 北京 100038)
2(南京理工大学信息管理系 南京 210094)
Survey on Multilingual Documents Clustering
Zhang Chengzhi1,2   Huilin Wang2
1(Institute of Scientific & Technical Information of China, Beijing 100038, China)
2(Department of Information Management, Nanjing University of Science and Technology, Nanjing 210094, China)
全文: PDF (414 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

 对多语言文本聚类问题进行综述,说明多语言文本聚类的作用、多语言聚类方法的分类、现有方法存在问题以及今后的研究趋势。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
章成志
王惠临
关键词 多语言文本聚类跨语言文本聚类文本挖掘多语言信息处理    
Abstract

 This paper gives a survey on multilingual documents clustering. The potential application of multilingual documents clustering is introduced firstly. Then, the multilingual documents clustering methods are classified according to the resources. Finally, the authors describe the existing problems and the future trends of multilingual documents clustering.

Key words Multilingual documents clustering    Cross language documents clustering    Text mining    Multilingual information processing
收稿日期: 2009-05-13      出版日期: 2009-06-25
ZTFLH: 

TP391 

 
     
  G252

 
基金资助:

*本文系“十一五”国家科技支撑计划重点项目子课题“多语言信息服务环境关键技术研究”(项目编号:2006BAH03B02)、中国博士后科学基金特别资助项目“多语领域本体学习研究”(项目编号:200801105)、中国博士后科学基金面上资助项目“多语领域本体学习关键技术研究”(项目编号:20080430463)和教育部人文社会科学研究一般项目“多语领域本体的自动构建研究”(项目编号:08JC870007)的研究成果之一。

通讯作者: 章成志     E-mail: zhangchz@istic.ac.cn
作者简介: 章成志,王惠临
引用本文:   
章成志,王惠临. 多语言文本聚类研究综述*[J]. 现代图书情报技术, 2009, 25(6): 31-36.
Zhang Chengzhi,Huilin Wang. Survey on Multilingual Documents Clustering. New Technology of Library and Information Service, 2009, 25(6): 31-36.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2009.06.07      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2009/V25/I6/31

[1] Top Ten Languages Used in the Web [EB/OL]. [2008- 12-10]. http://www.internetworldstats.com/stats7.htm.
[2] 多语并存[EB/OL]. [2009-02-20]. http://www.unesco.org/bpi/pdf/memobpi24_multilingualism_zh.pdf.
[3] Graddol D. The Future of Language [J]. Science, 2004, 303(5662): 1329-1331.
[4] Google News [EB/OL]. [2008-12-10]. http://news.google.com.
[5] Montalvo S, Martinez R, Casillas A,et al. Multilingual Document Clustering: An Heuristic Approach Based on Cognate Named Entities [C]. In: Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, 2006: 1145-1152.
[6] Chen H H,Lin C J. A Multilingual News Summarizer [C]. In: Proceedings of the 18th International Conference on Computational Linguistics, 2000: 159-165.
[7] Braschler M, Ripplinger B, Schuble P. Experiments with the Eurospider Retrieval System for CLEF2001 [C]. In: Proceedings of the Second Workshop of the Cross-Language Evaluation Forum, 2001: 102-110.
[8] Lawrence J L. Newsblaster Russian-English Clustering Performance Analysis [R]. Columbia Computer Science Technical Reports, 2003.
[9] Steinberger R, Hagman J, Scheer S. Using Thesauri for Automatic Indexing and for the Visualization of Multilingual Document Collections [C]. In: Proceedings of the Workshop on Ontologies and Lexical Knowledge Bases, 2000: 130-141.
[10] Evans D K,Klavans J L. A Platform for Multilingual News Summarization [R]. Technical Report, Department of Computer Science, Columbia University, 2003.
[11] Mathieu B, Besancon R, Fluhr C. Multilingual Document Clusters Discovery [C]. In: Proceedings of RIAO2004, 2004: 1-10.
[12] Pouliquen B, Steinberger R, Ignat C,et al. Multilingual and Cross-Lingual News Topic Tracking [C]. In: Proceedings of the 20th International Conference on Computational Linguistics, 2004: 959-965.
[13] Wu K,Lu B L. Cross-Lingual Document Clustering [C]. In: Proceedings of the 11th Pacific-Asia Conference on Knowledge Discovery and Data Mining, Nanjing, China. 2007: 956-963.
[14] Pham M H, Bernhard D, Diallo G,et al. SOM-based Clustering of Multilingual Documents Using an Ontology [A].//Nigro H O, Cisaro S C, Xodo D (Eds.). Data Mining with Ontologies: Implementations, Findings and Frameworks [C]. IGI Global, 2007: 65-82.
[15] 孙广范, 宋金平, 袁琦,等. 中英可比语料库中翻译等价对抽取方法研究[J]. 计算机工程与应用, 2007, 43(320):44-46, 71.
[16] Lin C H,Chen H C. An Automatic Indexing and Neural Network Approach to Concept Retrieval and Classification of Multilingual (Chinese-English) Documents [J]. IEEE Transactions on Systems, Man, and Cybernetics, 1996, 26(1): 75-88.
[17] Wei C H,Yang C C,Lin C M. A Latent Semantic Indexing-based Approach to Multilingual Document Clustering [J]. Decision Support Systems, 2008, 45(3):606-620.
[18] Montalvo S, Martinez R, Casillas A,et al. Bilingual News Clustering Using Named Entities and Fuzzy Similarity [C]. In: Proceedings of TSD 2007, 2007: 107-114.
[19] Montalvo S, Martinez R, Casillas A,et al. Multilingual News Clustering: Feature Translation vs. Identification of Cognate Named Entities [J]. Pattern Recognition Letter, 2007,28(16): 2305-2311.
[20] 杜慧平, 侯汉清. 网络环境中汉语叙词表的自动构建研究[J]. 情报学报, 2008, 27(6): 863-869.

[1] 余传明, 王曼怡, 林虹君, 朱星宇, 黄婷婷, 安璐. 基于深度学习的词汇表示模型对比研究*[J]. 数据分析与知识发现, 2020, 4(8): 28-40.
[2] 夏天. 面向中文学术文本的单文档关键短语抽取 *[J]. 数据分析与知识发现, 2020, 4(7): 76-86.
[3] 马建霞,袁慧,蒋翔. 基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 78-88.
[4] 关鹏,王曰芬. 国内外专利网络研究进展*[J]. 数据分析与知识发现, 2020, 4(1): 26-39.
[5] 黄名选,卢守东,徐辉. 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索 *[J]. 数据分析与知识发现, 2019, 3(9): 77-87.
[6] 杨亚楠,赵文辉,张健,谭珅,张贝贝. 基于多视图协同的政策文本可视化研究*[J]. 数据分析与知识发现, 2019, 3(6): 30-41.
[7] 张梦吉,杜婉钰,郑楠. 引入新闻短文本的个股走势预测模型[J]. 数据分析与知识发现, 2019, 3(5): 11-18.
[8] 张宁, 尹乐民, 何立峰. 网络股评“发布者-关注者”BSI与股票市场关联性研究*[J]. 数据分析与知识发现, 2018, 2(6): 1-12.
[9] 范馨月, 崔雷. 基于文本挖掘的药物副作用知识发现研究[J]. 数据分析与知识发现, 2018, 2(3): 79-86.
[10] 汪强兵, 章成志. 融合内容与用户手势行为的用户画像构建系统设计与实现*[J]. 数据分析与知识发现, 2017, 1(2): 80-86.
[11] 谢秀芳, 张晓林. 针对科技路线图的文本挖掘研究: 集成分析及可视化*[J]. 数据分析与知识发现, 2017, 1(1): 16-25.
[12] 姚兆旭,马静. 面向微博话题的“主题+观点”词条抽取算法研究*[J]. 现代图书情报技术, 2016, 32(7-8): 78-86.
[13] 兰秋军,刘文星,李卫康,胡星野. 融合句法信息的金融论坛文本情感计算研究*[J]. 现代图书情报技术, 2016, 32(4): 64-71.
[14] 毕强, 刘健, 鲍玉来. 基于语义相似度的文本聚类研究*[J]. 数据分析与知识发现, 2016, 32(12): 9-16.
[15] 林园园,战洪飞,余军合,李长江,张凡. 基于产品评论的消费者情感波动分析模型构建及实证研究*[J]. 现代图书情报技术, 2016, 32(11): 44-53.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn