超大规模分类语料库的构建

doi:10.11925/infotech.1003-3513.2006.01.14

现代图书情报技术

2006, Vol. 22

Issue (1): 71-73 https://doi.org/10.11925/infotech.1003-3513.2006.01.14

网络资源与建设

本期目录 | 过刊浏览 | 高级检索

超大规模分类语料库的构建

刘华

（暨南大学华文学院广州 510610）

Construction of a Super Classed and Denoted Corpus

Liu Hua

（College of Chinese Language and Culture of Jinan University，Guangzhou 510610，China）

摘要
参考文献
相关文章
Metrics

全文:
输出: BibTeX | EndNote (RIS)

摘要

针对文本分类中训练（测试）集获得较难、分类系统不合理的问题，我们构建了一个超大规模层级网页分类语料库。该语料库字段信息丰富，分类系统科学，存储格式可扩展性强、语义结构化。适合构建文本分类、话题识别和信息检索的大型训练（测试）集。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	刘华

关键词 ：内容解析, 字段信息, 分类体系, XML

Abstract：

Aimming at the problem of training and test corpus in text classing, we have built a super classed and denoted corpus, which has abundant field information, scientific class system, extensible storage format and structured semantic denotations. It adapts to the construction of training and test corpus for text classing、topic identify and IR.

Key words： Content parsing Field information Class system XML

收稿日期: 2005-10-24 出版日期: 2006-01-25

H319

通讯作者: 刘华 E-mail: liuhua0461@sina.com

作者简介: 刘华

引用本文:

刘华 . 超大规模分类语料库的构建[J]. 现代图书情报技术, 2006, 22(1): 71-73.
Liu Hua. Construction of a Super Classed and Denoted Corpus. New Technology of Library and Information Service, 2006, 22(1): 71-73.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2006.01.14 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2006/V22/I1/71

1谢振亮. 基于WEB挖掘技术的网页自动分类和聚类的研究. 天津：天津大学硕士学位论文，2004
2冯是聪等. “天网”目录导航服务研究. 计算机研究与发展. 2004（4）：653-659
3朱凯等. 因特网语料自动下载分析软件的设计. 北京：第一届学生计算语言学研讨会论文集，2002
4黄昌宁、李涓子. “语料库语言学”. 北京：商务印书馆，2002

[1]	胡正银, 方曙, 文奕, 张娴, 梁田. 面向TRIZ的专利自动分类研究[J]. 现代图书情报技术, 2015, 31(1): 66-74.
[2]	胡振宁, 杨巍, 丁培, 林伟明, 吴元业. SULCMIS OPAC多语言界面的设计与实现[J]. 现代图书情报技术, 2013, 29(2): 70-76.
[3]	王丽伟, 牟冬梅, 王伟. NCBO领域本体映射项目及应用[J]. 现代图书情报技术, 2013, 29(10): 15-19.
[4]	林伟明. e读在SULCMIS OPAC中的应用——以深圳大学图书馆为例[J]. 现代图书情报技术, 2013, 29(10): 85-89.
[5]	李树青, 刘晓倩. 基于向心扩散加权XML模型的异构用户个性化模式匹配方法[J]. 现代图书情报技术, 2012, 28(5): 32-40.
[6]	李嘉, 张朋柱, 李欣苗. 面向在线群体研讨的言语行为分类体系设计框架研究[J]. 现代图书情报技术, 2012, 28(2): 1-9.
[7]	胡志刚, 陈超美, 刘则渊, 侯海燕. 基于XML全文数据引文分析系统的设计与实现[J]. 现代图书情报技术, 2012, (11): 72-77.
[8]	刘丹. 基于XML的中文博硕士论文检索系统设计及实现[J]. 现代图书情报技术, 2010, 26(5): 50-57.
[9]	刘丹孔少华陆伟. XML检索研究综述[J]. 现代图书情报技术, 2010, 26(4): 24-34.
[10]	周玉陶, 范国银. 学位论文OAI-METS元数据生成的实现[J]. 现代图书情报技术, 2010, 26(10): 91-94.
[11]	李树青,程国达,王维民. 基于加权XML模型的XML数据与DTD模式匹配*[J]. 现代图书情报技术, 2010, 26(1): 57-65.
[12]	李文江,陈诗琴. 基于LINQ的RSS 2.0生成与解析类库的设计*[J]. 现代图书情报技术, 2009, 25(7-8): 131-135.
[13]	贾君枝,卫荣娟,罗林强. 《汉语主题词表》XML文档的自动生成研究[J]. 现代图书情报技术, 2009, 25(5): 50-54.
[14]	翟东升,刘晨,欧阳轶慧. 专利信息获取分析系统设计与实现*[J]. 现代图书情报技术, 2009, 25(5): 55-60.
[15]	李树青. 基于加权XML模型的个性化产品推荐方法*[J]. 现代图书情报技术, 2009, 25(4): 64-69.

Viewed

Full text

Abstract

Cited

Shared

Discussed