Please wait a minute...
Advanced Search
现代图书情报技术  2006, Vol. 22 Issue (1): 71-73     https://doi.org/10.11925/infotech.1003-3513.2006.01.14
  网络资源与建设 本期目录 | 过刊浏览 | 高级检索 |
超大规模分类语料库的构建
刘华
(暨南大学华文学院 广州  510610)
Construction of a Super Classed and Denoted Corpus
Liu Hua
(College of Chinese Language and Culture of Jinan University,Guangzhou 510610,China)
全文:
输出: BibTeX | EndNote (RIS)      
摘要 

针对文本分类中训练(测试)集获得较难、分类系统不合理的问题,我们构建了一个超大规模层级网页分类语料库。该语料库字段信息丰富,分类系统科学,存储格式可扩展性强、语义结构化。适合构建文本分类、话题识别和信息检索的大型训练(测试)集。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
刘华
关键词 内容解析字段信息分类体系XML    
Abstract

Aimming at the problem of training and test corpus in text classing, we have built a super classed and denoted corpus, which has abundant field information, scientific class system, extensible storage format and structured semantic denotations. It adapts to the construction of training and test corpus for text classing、topic identify and IR.

Key wordsContent parsing    Field information    Class system    XML
收稿日期: 2005-10-24      出版日期: 2006-01-25
: 

H319

 
通讯作者: 刘华      E-mail: liuhua0461@sina.com
作者简介: 刘华
引用本文:   
刘华 . 超大规模分类语料库的构建[J]. 现代图书情报技术, 2006, 22(1): 71-73.
Liu Hua. Construction of a Super Classed and Denoted Corpus. New Technology of Library and Information Service, 2006, 22(1): 71-73.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2006.01.14      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2006/V22/I1/71

1谢振亮. 基于WEB挖掘技术的网页自动分类和聚类的研究. 天津:天津大学硕士学位论文,2004
2冯是聪等. “天网”目录导航服务研究. 计算机研究与发展. 2004(4):653-659
3朱凯等. 因特网语料自动下载分析软件的设计. 北京:第一届学生计算语言学研讨会论文集,2002
4黄昌宁、李涓子. “语料库语言学”. 北京:商务印书馆,2002

[1] 胡正银, 方曙, 文奕, 张娴, 梁田. 面向TRIZ的专利自动分类研究[J]. 现代图书情报技术, 2015, 31(1): 66-74.
[2] 胡振宁, 杨巍, 丁培, 林伟明, 吴元业. SULCMIS OPAC多语言界面的设计与实现[J]. 现代图书情报技术, 2013, 29(2): 70-76.
[3] 王丽伟, 牟冬梅, 王伟. NCBO领域本体映射项目及应用[J]. 现代图书情报技术, 2013, 29(10): 15-19.
[4] 林伟明. e读在SULCMIS OPAC中的应用——以深圳大学图书馆为例[J]. 现代图书情报技术, 2013, 29(10): 85-89.
[5] 李树青, 刘晓倩. 基于向心扩散加权XML模型的异构用户个性化模式匹配方法[J]. 现代图书情报技术, 2012, 28(5): 32-40.
[6] 李嘉, 张朋柱, 李欣苗. 面向在线群体研讨的言语行为分类体系设计框架研究[J]. 现代图书情报技术, 2012, 28(2): 1-9.
[7] 胡志刚, 陈超美, 刘则渊, 侯海燕. 基于XML全文数据引文分析系统的设计与实现[J]. 现代图书情报技术, 2012, (11): 72-77.
[8] 刘丹. 基于XML的中文博硕士论文检索系统设计及实现[J]. 现代图书情报技术, 2010, 26(5): 50-57.
[9] 刘丹 孔少华 陆伟. XML检索研究综述[J]. 现代图书情报技术, 2010, 26(4): 24-34.
[10] 周玉陶, 范国银. 学位论文OAI-METS元数据生成的实现[J]. 现代图书情报技术, 2010, 26(10): 91-94.
[11] 李树青,程国达,王维民. 基于加权XML模型的XML数据与DTD模式匹配*[J]. 现代图书情报技术, 2010, 26(1): 57-65.
[12] 李文江,陈诗琴. 基于LINQ的RSS 2.0生成与解析类库的设计*[J]. 现代图书情报技术, 2009, 25(7-8): 131-135.
[13] 贾君枝,卫荣娟,罗林强. 《汉语主题词表》XML文档的自动生成研究[J]. 现代图书情报技术, 2009, 25(5): 50-54.
[14] 翟东升,刘晨,欧阳轶慧. 专利信息获取分析系统设计与实现*[J]. 现代图书情报技术, 2009, 25(5): 55-60.
[15] 李树青. 基于加权XML模型的个性化产品推荐方法*[J]. 现代图书情报技术, 2009, 25(4): 64-69.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn