知识抽取中的嵌套向量分词技术

doi:10.11925/infotech.1003-3513.2007.07.12

现代图书情报技术

2007, Vol. 2

Issue (7): 50-53 https://doi.org/10.11925/infotech.1003-3513.2007.07.12

知识组织与知识管理

本期目录 | 过刊浏览 | 高级检索

知识抽取中的嵌套向量分词技术

化柏林赵亮

(中国科学技术信息研究所北京 100038)

Nested Vector Segmentation Technique in Knowledge Extraction

Hua Bolin Zhao Liang

(Institute of Scientific and Technical Information of China, Beijing 100038, China)

摘要
参考文献
相关文章
Metrics

全文: PDF (406 KB)
输出: BibTeX | EndNote (RIS)

摘要

向量分词算法已经比较成熟，通过在知识抽取过程中实现向量分词算法，对向量切分中的关键技术进行归纳总结，同时发现一趟向量切分的不足，并针对这些不足，设计嵌套的向量分词技术。实验证明，在知识抽取过程中，采用嵌套的向量切分方法，不但切分准确率高、切分全面，而且能从根本上解决“词中有词”的问题，有利于后续的句法分析。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	赵亮
	化柏林

关键词 ：知识抽取, 最大向量法, 词法分析, 分词技术, 嵌套向量分词

Abstract：

Well-known algorithm of maximum matching method is implemented in the process of knowledge extraction, and drawn a conclusion about critical techniques of vector segmentation. Nested vector segmentation is designed and implemented on account of disadvantage of once scanning. According to experiment, nested vector segmentation is used in knowledge extraction, it not only improves precision and recall, which resolves the problem of word in word radically, but also provides convenience to following syntactic analysis.

Key words： Knowledge extraction Maximum matching method Lexical analysis Segmenting technique Nested vector segmentation

收稿日期: 2007-05-11 出版日期: 2007-07-25

:	TP391

	G356

通讯作者: 化柏林 E-mail: huabolin@istic.ac.cn

作者简介: 化柏林,赵亮

引用本文:

化柏林,赵亮. 知识抽取中的嵌套向量分词技术[J]. 现代图书情报技术, 2007, 2(7): 50-53.
Hua Bolin,Zhao Liang. Nested Vector Segmentation Technique in Knowledge Extraction. New Technology of Library and Information Service, 2007, 2(7): 50-53.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.07.12 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I7/50

1］梁南元．书面汉语的自动分词与一个自动分词系统—CDWS［J］．北京航空学院学报，1984，（4）：97-104.
［2］揭春雨，刘源，梁南元．论汉语自动分词方法［J］．中文信息学报，1989，3（1）：1-9.
［3］关英春，秦蓓．汉语文字自动统计系统［J］．中文信息学报，1986，（1）：26-32.
［4］揭春雨，刘源，梁南元．汉语自动分词实用系统CASS的设计和实现［J］．中文信息学报，1991，5（4）：27-34.
［5］骆正清，陈增武，胡上序．一种改进的MM分词方法的算法设计［J］．中文信息学报，1996，10（3）：30-37.
［6］王兰成．基于EMM中文抽词算法的XMARC主题信息挖掘［J］．情报学报，2005，24（1）：82-86.
［7］赵元正，戴尔晗．基于递归式最大匹配法的数据库查询接口的实现［J］．计算机时代，2006（12）：38-40.
［8］苏芳仲，林世平．Web文本挖掘中的一种中文分词算法研究及其实现［J］．福州大学学报（自然科学版），2004，32（增刊）：67-71.
［9］路永刚，赵伟．一种改进的MM分词方法的研究与实现［J］．长春工业大学学报（自然科学版），2006，27（4）：320-323.
［10］郑逢斌，付征叶，乔保军，等．HENU汉语自动分词系统中歧义字段消除算法［J］．河南大学学报（自然科学版），2004，34（4）：49-52.
［11］马玉春，宋瀚涛．Web 中文文本分词技术研究［J］．计算机应用，2004，24（4）：134-136.

[1]	石湘,刘萍. *基于知识元语义描述模型的领域知识抽取与表示研究 ^——以信息检索领域为例**[J]. 数据分析与知识发现, 2021, 5(4): 123-133.
[2]	徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[3]	徐浩,朱学芳,章成志,江川. 面向学术文献全文本的方法论知识抽取系统分析与设计 ^*[J]. 数据分析与知识发现, 2019, 3(10): 29-36.
[4]	王颖,钱力,谢靖,常志军,孔贝贝. 科技大数据知识图谱构建模型与方法研究^*[J]. 数据分析与知识发现, 2019, 3(1): 15-26.
[5]	刘建华, 王颖, 张智雄, 李传席. 植物物种多样性语义知识抽取研究^*[J]. 数据分析与知识发现, 2017, 1(1): 37-46.
[6]	化柏林. 针对中文学术文献的情报方法术语抽取[J]. 现代图书情报技术, 2013, (6): 68-75.
[7]	姜彩红,乔晓东,朱礼军. 基于本体的专利摘要知识抽取*[J]. 现代图书情报技术, 2009, 3(2): 23-28.
[8]	张智雄,吴振新,刘建华,徐健,洪娜,赵琦. 当前知识抽取的主要技术方法解析*[J]. 现代图书情报技术, 2008, 24(8): 2-11.
[9]	周宁,王淼. 基于MUDs的面向特定领域的知识管理模型研究[J]. 现代图书情报技术, 2008, 24(5): 33-38.
[10]	化柏林 . 知识抽取中的停用词处理技术[J]. 现代图书情报技术, 2007, 2(8): 48-51.
[11]	化柏林 . 基于NLP的知识抽取系统架构研究*[J]. 现代图书情报技术, 2007, 2(10): 38-41.
[12]	张晗,路振宇,崔雷 . *利用关联规则对医学文本数据库进行知识抽取的尝试——以四种抗肿瘤药为例**[J]. 现代图书情报技术, 2006, 1(9): 49-52.
[13]	汤艳莉,赖茂生. Ontology在自然语言检索中的应用研究[J]. 现代图书情报技术, 2005, 21(2): 33-36.

Viewed

Full text

Abstract

Cited

Shared

Discussed