Please wait a minute...
Advanced Search
数据分析与知识发现
  本期目录 | 过刊浏览 | 高级检索 |
融合句法信息的文本语料库检索方法研究
张永伟,刘婷,刘畅,吴冰欣,俞敬松
(中国社会科学院大学文学院 北京  102488) (中国社会科学院语言研究所/语料库暨计算语言学研究中心 北京  100732) (北京大学软件与微电子学院 北京  100871)
A Retrieval Method Incorporating Syntactic Information for Text Corpora
Zhang Yongwei,Liu Ting,Liu Chang,Wu Bingxin,Yu Jingsong
(School of Chinese Language and Literature, University of Chinese Academy of Social Sciences, Beijing 102488, China) (Center for Corpus and Computational Linguistics Research, Institute of Linguistics, Chinese Academy of Social Sciences, Beijing 100732, China) (School of Software and Microelectronics, Peking University, Beijing 102600, China)
全文:
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]探究高效的大规模文本语料库句法信息检索方法。

[方法]依据句法信息特点,将句法信息线性化索引,直接提供检索时条件匹配所需的各种信息,从而提升检索速度。

[结果]使用2851万句《人民日报》语料进行实验,26个检索条件平均用时802.6毫秒,达到了大规模语料库检索系统对检索效率的要求。

[局限]实验使用的检索条件数量较少,未使用更多的检索条件进行验证。

[结论]本文方法有助于在大规模文本语料库中快速地检索词法信息、依存句法信息和成分句法信息。


服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 依存句法成分句法语料库索引检索     
Abstract

[Objective] This study aims to explore an efficient method for retrieving syntactic information in large text corpora.

[Methods] Linearized indices are created for syntactic information in line with the features of syntactic information. They can directly provide information required for conditional matching during retrieval and improve retrieval efficiency.

[Results] An experiment is conducted, using People's Daily Corpus, which contains 28.51 million sentences, to test the speed of queries. The results show that the average time for 26 queries is 802.6 milliseconds, which meets the retrieval efficiency requirements of retrieval systems for large corpora.

[Limitations] More research is needed to examine proposed method with more queries.

[Conclusions]The method proposed by this study can help to quickly retrieve lexical, dependency syntactic and constituency syntactic information in large text corpora.


Key words Dependency Syntax    Constituency Syntax    Corpus    Index    Retrieval
     出版日期: 2022-07-01
ZTFLH:  TP393,G250  
引用本文:   
张永伟, 刘婷, 刘畅, 吴冰欣, 俞敬松. 融合句法信息的文本语料库检索方法研究 [J]. 数据分析与知识发现, 10.11925/infotech.2096-3467.2022-0093.
Zhang Yongwei, Liu Ting, Liu Chang, Wu Bingxin, Yu Jingsong. A Retrieval Method Incorporating Syntactic Information for Text Corpora . Data Analysis and Knowledge Discovery, 0, (): 1-.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2022-0093      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y0/V/I/1
[1] 周长顺, 应文豪, 钟珊, 龚声蓉. 一种用于解析问答推理过程的多轮迭代检索算法研究*[J]. 数据分析与知识发现, 2024, 8(3): 120-131.
[2] 李天煜, 刘立波. 基于模态内相似性与语义保留的深度跨模态哈希*[J]. 数据分析与知识发现, 2023, 7(5): 105-115.
[3] 吕学强, 杜一凡, 张乐, 潘慧萍, 田驰. GKTR:一种融合图卷积拓扑特征和关键词特征的工程咨询报告检索模型*[J]. 数据分析与知识发现, 2023, 7(12): 155-163.
[4] 张艳琼, 朱兆松, 赵晓驰. 面向手语语言学的中国手语词汇多模态语料库构建研究*[J]. 数据分析与知识发现, 2023, 7(10): 144-155.
[5] 武楷彪, 郎宇翔, 董瑜. 融合句法结构和词义信息的政策文本关联挖掘方法研究*[J]. 数据分析与知识发现, 2022, 6(5): 20-33.
[6] 丁晟春, 游伟静, 王小英. 基于属性词补全的武器装备属性抽取研究*[J]. 数据分析与知识发现, 2022, 6(2/3): 289-297.
[7] 张永伟,刘婷,刘畅,吴冰欣,俞敬松. 融合句法信息的文本语料库检索方法研究*[J]. 数据分析与知识发现, 2022, 6(11): 25-37.
[8] 范涛,王昊,吴鹏. 基于图卷积神经网络和依存句法分析的网民负面情感分析研究*[J]. 数据分析与知识发现, 2021, 5(9): 97-106.
[9] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[10] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[11] 卢利农,祝忠明,张旺强,王小春. 基于Lingo3G聚类算法的机构知识库跨库知识整合与知识指纹服务实现[J]. 数据分析与知识发现, 2021, 5(5): 127-132.
[12] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[13] 朱路, 邓芳, 刘坤, 贺婷婷, 刘媛媛. 基于语义自编码哈希学习的跨模态检索方法*[J]. 数据分析与知识发现, 2021, 5(12): 110-122.
[14] 徐以聪,田学东,李新福,杨芳,史青宣. 基于犹豫模糊权重的数学表达式检索 *[J]. 数据分析与知识发现, 2020, 4(7): 118-126.
[15] 李轲禹,王昊,龚丽娟,唐慧慧. 学术数据库中研究主题术语的质量测度及分布研究*[J]. 数据分析与知识发现, 2020, 4(6): 91-108.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn