基于公式描述结构和词嵌入的科技文档检索方法*

doi:10.11925/infotech.2096-3467.2019.0943

基于公式描述结构和词嵌入的科技文档检索方法*

宰新宇, 田学东^,^,

河北大学网络空间安全与计算机学院保定 071002

Retrieving Scientific Documents with Formula Description Structure and Word Embedding

Zai Xinyu, Tian Xuedong^,^,

School of Cyber Security and Computer, Hebei University, Baoding 071002, China

通讯作者: * 田学东,ORCID:0000-0002-2746-2278,E-mail:xuedong_tian@126.com。

收稿日期: 2019-08-13 修回日期: 2019-11-7 网络出版日期: 2020-01-25

基金资助:

*本文系国家自然科学基金项目“数学表达式资源获取与检索模型研究”.  61375075
河北省自然科学基金项目“引入犹豫模糊逻辑的数学检索结果文档排序”.  F2019201329
河北省教育厅河北省高等学校科学技术研究重点项目“基于犹豫模糊集的古籍汉字图像检索”的研究成果之一.  ZD2017208

Received: 2019-08-13 Revised: 2019-11-7 Online: 2020-01-25

摘要

【目的】 提出一种公式匹配与文本排序相融合的科技文档检索方法。【方法】 利用公式描述结构对数学表达式进行解析得到公式的结构信息,实现基于数学表达式的科技文档检索;同时,通过词嵌入模型投影得到查询关键字的词向量和文档词向量,根据两种词向量之间的相似度对文档集合进行排序。【结果】 实验结果表明,方法的查全率和查准率分别为0.77和0.63,相较于传统科技文档检索方法分别提高24.2%和23.5%。【局限】 只针对LaTeX格式的查询表达式,在数学表达式描述格式方面有局限性。【结论】 数学表达式与文档关键字相结合的科技文档检索模型提高了科技文档检索的性能。

关键词： 科技文档检索 ; 公式描述结构 ; 词嵌入

Abstract

[Objective] This study proposes a scientific document retrieval method combining formula match and text ranking, which address the challenges from mathematical expressions.[Methods] First, we used the analysis algorithm for formula description structure to study the mathematical expressions. Then, we acquired formula structure information, and retrieved technical documents based on mathematical expressions. Meanwhile, we obtained the inquiry keywords and document word vectors with the help of word embedding model. Finally, we ranked the documents based on the similarity between the two word vectors[Results] The recall and precision scores of our new model were 0.77 and 0.63, which were 24.2% and 23.5% higher than those of the traditional scientific document retrieval methods.[Limitations] Our method only focuses on expressions in LaTeX format.[Conclusions] The proposed model combining formula and document keywords improves the performance of scitific document retrieval.

Keywords： Technical Document Retrieval ; Formula Description Structure ; Word Embedding

PDF (762KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

宰新宇, 田学东. 基于公式描述结构和词嵌入的科技文档检索方法*. 数据分析与知识发现[J], 2020, 4(1): 131-138 doi:10.11925/infotech.2096-3467.2019.0943

Zai Xinyu. Retrieving Scientific Documents with Formula Description Structure and Word Embedding. Data Analysis and Knowledge Discovery[J], 2020, 4(1): 131-138 doi:10.11925/infotech.2096-3467.2019.0943

1 引言

自万维网问世以来,科学文献的数量呈指数级增长,形成了庞大的科学知识库。因此,在海量的科技文档中检索出符合需要的文档信息是学术界迫切需要解决的问题^[1]。数学表达式是科技文档的重要成分,利用其实现科技文档检索,是信息检索的有效途径。由于科学文献中所包含数学表达式和关键字在不同语境中具有不同的形式和意义,因此,数学信息检索（Mathematical Information Retrieval, MIR）系统中,需要识别用户输入的数学查询表达式或者关键字获取符合需要的目标文档^[2]。作为一个相对较新的研究领域,目前,MIR在全面满足用户查询需求方面还存在以下问题:

（1）普通的文档检索系统不能很好地处理数学表达式复杂的二维结构问题。

（2）不同类型文献之间对同一事物或主题使用不同的词汇或特征进行描述,产生语义上的差异,由此导致检索结果不准确^[3]。

为解决这些问题,本文提出一种基于公式描述结构（Formula Description Structure, FDS）^[4,5]和词嵌入（Word Embedding）^[6]的科技文档检索模型。利用FDS对数学表达式进行解析,忽略表达式中运算数,根据提取出的运算符快速地检索出含有查询表达式的文档;使用词嵌入模型,得到用户输入关键字的词向量和由表达式检索到的文档关键字集合的词向量,根据语义扩大检索范围;通过数学表达式与关键字相结合的检索模式,实现对科技文档更加全面合理的检索排序。

2 相关研究

在基于数学表达式的科技文档检索系统中,WikiMirs^[7]作为维基百科中检索数学公式的工具,其目标是通过文本和空间的相似性搜索相似的数学表达式。WikiMirs3.0^[8]提出一种支持精确匹配和模糊匹配的混合索引匹配模型。在混合模型中,既考虑公式的上下文信息,又考虑公式的结构信息。此外,模型中还引入了公式重要性的概念,使排序更加合理。LaTeXSearch^[9]是施普林格（Springer）为研究人员提供的一项免费查询服务,用来获取LaTeX格式的科技文档,LaTeXSearch独特的“相似度”算法对LaTeX字符串进行规范化和比较,如果相似的公式写得稍有不同,输出就会进行规范化匹配,从而为用户提供尽可能广泛的结果集,使研究者能够发现与自己的公式相似的公式^[10]。周南等^[11]在充分考虑公式特点的基础上,设计LaTeX数学表达式解析和检索特征提取算法,使用Treap数据结构和倒排索引结构构成数学表达式索引,并在此基础上实现了数学表达式的索引匹配。在基于数学表达式的科技文档检索系统中,并未考虑到数学表达式相同但检索主题不同的情况,这会导致检索结果中存在大量与检索需求无关的文档。

为增加科技文档检索的准确性,一些研究人员将文本信息结合到基于数学表达式的科技文档检索中,取得了不错的效果。MIaS^[12]对公式的所有子结构进行索引,并根据子结构的层次计算每个子结构的相似性。Pathak等^[13]提出一种增强MathIRs的体系结构,它包含用于查询中的（文本/数学）内容和文档中的（文本/数学）内容之间进行语义相似性检测的单独模块,还通过改进基于替代树的索引机制,克服了传统索引技术的缺点。针对NTCIR-12 MathIR^[14]任务中用户能够使用数学公式搜索特定数学概念的需求,MCAT Search System^[15]通过使用三部分索引实现检索,分别是:前期处理、检索数学表达式、查找排序,其中,在前期处理阶段提取的文本信息,将在最终阶段结合所有的检索类型信息进行查找排序,提高了检索系统的性能。但是,大多数检索系统仅考虑文档中是否包含检索关键字,而不考虑与关键字语义相同或相近的其他词语,使检索范围具有一定的局限性。

综上,虽然已经存在一些科技文档检索系统和方法,但是技术还不够成熟,尤其在数学表达式和关键字相结合的科技文档检索方法上研究较少。

3 研究框架与方法

3.1 研究框架与设计

基于公式描述结构和词嵌入的科技文档检索系统分为三个步骤:

（1）通过FDS解析算法,检索出和查询表达式相匹配的文档集合;

（2）利用Word Embedding算法,分别得到查询关键字集合的词向量和第一部分检索出的文档集中关键字集合的词向量;

（3）利用余弦距离,得到两组词向量的余弦相似度,根据相似度值对文档进行排序。

定义1 设文档集合 $F = {\{F_{n}\}}_{n = 1}^{N}$ 所对应的关键字集合为 $K = {\{K_{m}\}}_{m = 1}^{M}$ , $M, N \in R$ , ${\{V_{K_{m}}\}}_{m = 1}^{M}$ 为 ${\{K_{m}\}}_{m = 1}^{M}$ 所对应的词向量集合,由 $L$ 个查询关键字组成的集合 $P = {\{P_{l} \in F\}}_{l = 1}^{L}$ 所对应的词向量为 $V = {\{V_{P_{l}}\}}_{l = 1}^{L}$ 。

定义2 设 $E = {\{E_{u} | U \in R\}}_{u = 1}^{U}$ 为文档集合 $F = {\{F_{n} | N \in R\}}_{n = 1}^{N}$ 所对应的表达式集合, ${\{W_{E_{u}}\}}_{u = 1}^{U}$ 为 $E$ 所对应的结构编码集合,查询表达式 $Q$ 经过FDS算法解析后的结构编码为 $H$ 。

科技文档检索及排序算法如下:

输入:LaTeX格式的查询表达式 $Q$ 和与查询文档相关的关键字集合 $P$

输出:科技文档的检索排序结果

①利用FDS算法对 $Q$ 进行解析,得到查询表达式 $Q$ 的结构编码 $H$ ;

②根据 $H$ 中的信息,在数据库中检索出符合该结构的表达式 $ES \in E$ ,并获得 $ES$ 所对应的文档集合 $FS \in F$ 和关键字集合 $KS \in K$ ;

③利用Word Embedding模型,分别得到 $KS$ 和 $P$ 的词向量 $V_{KS}$ 和 $V_{P}$ ;

④利用余弦距离,计算 $V_{KS}$ 和 $V_{P}$ 的余弦相似度;

⑤根据余弦相似度值的大小,对 $FS$ 进行排序,输出排序结果。

3.2 数学表达式索引的建立

FDS是一种用来描述数学表达式格式的结构,通过提取数学表达式骨架的方式忽略运算符对检索的影响,这样做有利于提高数学表达式检索的效率。一个数学表达式中的每个符号在FDS中包含4个属性,如式（1）^[5]所示。

（1）

CString (str) + int (level) + int (operator) + int (flag)

其中, $CString (str)$ 存储当前符号的代码; $int (level)$ 为当前符号的层次; $int (operator)$ 是运算符标记, $int (flag)$ 是符号之间的位置关系。

FDS依据提取的表达式建立数学表达式索引,并存入数据表Exp(Id, fileId, fdsCode, expInfo),其中,Id为表达式的序号,fileId为当前表达式所在的文档编号,fdsCode为表达式的FDS结构编码,expInfo为表达式本身。根据表达式所在的文档,构建文档的索引结构表Fileinfo(fileId, filename),其中,fileId为文档编号,filename为当前文档的名称。

当输入待检索的查询表达式 $Q$ 后,通过FDS解析算法得到 $Q$ 的结构信息集合,提取出表达式的结构编码fdsCode。根据fdsCode,在数据表Exp中检索出所有包含相同结构的表达式,若检索结果不为空,再根据表达式对应的fileId在Fileinfo表中找到对应的文档名filename。最后,输出符合条件的所有文档信息。

3.3 面向科技文档的词嵌入训练

词嵌入又名词向量,可以通过神经网络训练语言模型得到,是一种词的类型表示。词嵌入将高维的词向量嵌入到低维空间,既能捕获词的语义信息,又能捕获词的句法信息,可用于测量词的相似性,在自然语言处理和机器学习中发挥了重要作用。

本文的词嵌入模型是在连续词袋（Continuous Bag of Words, CBOW）模型的基础上得到的。CBOW模型^[16,17]根据上下文词语预测当前词语出现的概率,其目的是最大化目标单词周围环境下其他单词出现的概率,如公式（2）^[6]所示。

（2）

P = \overset{N}{\sum_{n = 1}} \log (S_{n} | C_{n})

其中,C_n是第n个单词的上下文,S(n-2), S(n-1), …, S(n+1) , S(n+2)表示单词序列。CBOW模型的架构如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 CBOW模型

Fig.1 CBOW Model

输入层包括当前词 $n$ 以及其前后各若干词;映射层为输入层若干词向量相加的和;输出层是一个树形结构,根据语料库中出现的单词作为叶子节点。

由于词库中的单词数量庞杂,在很多情况下直接计算公式（2）是不切实际的。因此使用一种二分类器做Softmax分层判断,通过与一组抽样获得的否定候选词对比得到正确的单词,从而得到CBOW模型最大化的目标函数,如公式（3）所示。

（3）

F = \overset{N}{\sum_{n = 1}} [\log (1 + e^{- γ (S_{n}, C_{n})}) + \sum_{m \in M_{C_{n}}} \log (1 + e^{γ (m, C_{n})})]

其中, $M_{C}$ 是从词汇表中抽取的一组负面示例, $γ (S, C)$ 表示单词 $S$ 及其上下文 $C$ 之间的评分函数,如公式（4）所示。

（4）

γ (S, C) = \frac{1}{|C|} \sum_{S^{'} \in C} u_{S^{'}}^{N} v_{S}

使用向量 $v_{s}$ 表示单词 $S$ 。同样地,上下文由窗口中每个单词 $S^{'}$ 的单词向量 ${v_{s}}^{'}$ 的平均值表示。值得注意的是,上下文中的单词和预测的单词使用了不同的参数。

如果单词及其位置进行显式地编码表示,容易出现过度拟合的情况。针对这一问题,使用学习位置表示（Position Representations）法^[18]重新加权单词向量。用A表示[-c,…,-1,1,…,c]在上下文窗口中的相关位置,则单词 $S_{n}$ 的上下文相关向量 $v_{C}$ 如公式（5）^[18]所示。

（5）

v_{C} = \sum_{A \in p} d_{A} ⊙ u_{n + A}

其中, $⊙$ 代表向量的点乘。

标准的词向量忽略了包含丰富信息的词的内部结构。目前一种简单而有效的方法是:通过“一袋”n元语法模型（n-gram）字符来丰富词向量,每个词都被分解为n-gram字符的集合 $N$ ,并且每个n-gram字符 $n$ 都被表示为向量 $x_{n}$ ,词向量 $WE$ 如公式（6）^[6]所示。

（6）

WE = v_{S} + \frac{1}{N} \sum_{n \in N} x_{n}

4 实验过程及结果分析

4.1 系统实验

实验使用的工具为PyCharm,编程语言为Python,结合MySQL,在C/S模式下进行。实验环境为CPU Intel(R) Core(TM) i7-6700,3.40GHz,内存8GB,系统环境为Microsoft Windows 10。

实验数据集为NTCIR-12_MathIR_Wikipedia_ Corpus,其中包含30 165篇英文文档,共366 432个数学表达式。

（1）基于FDS的科技文档检索

对文档中所有公式进行解析,并将文档信息和解析后的表达式信息存入数据库。部分结果如表1所示。

表1 部分表达式解析结果

Table 1 Partial Expression Parsing Results

查询表达式	LaTeX结构	FDS结构
$2^{q}$	2^{q}	^\1
$a \times b$	a \times b	\times\0,
$\frac{a}{b}$	\frac{a}{b}	frac\0
$\frac{- b \pm \sqrt{b^{2} - 4 ac}}{2 a}$	\frac{-b ±√({b^{2} -4 a c} )}{2 a}	\frac\0,-\1,\pm\1,\sqrt\1,^\3,-\2,
$\frac{1}{σ \sqrt{2 π}} e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}$	\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^{2}} {2 \sigma^{2}}}	\frac\0,\sqrt\1,^\1,-\1,\frac\1,(\2,-\2,)\2,^\3,^\3,

新窗口打开| 下载CSV

针对不同的表达式进行大量实验,其中正态分布表达式 $f (x) = \frac{1}{σ \sqrt{2 π}} e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}$ 的部分检索结果如表2所示。

表2 表达式的部分检索结果

Table 2 Partial Search Results of Expression

EXPID	EXP	FileName(html)
57113	$p (x μσ) = \frac{1}{σ \sqrt{2 π}} e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}$	Computer stereo vision
127297	$P_{G} (Z) = \frac{1}{σ \sqrt{2 π}} e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}$	Gaussian noise
206443	$p (x \| μσ) = \frac{1}{σ \sqrt{2 π}} e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}$	Maximum entropy probability distribution
232616	$f (x \| μ, σ) = \frac{1}{σ \sqrt{2 π}} e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}$	Normal distribution
79135	$g (x) = \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}$	Differential entropy

新窗口打开| 下载CSV

其中EXPID为表达式在数据库中对应的编号,EXP是和正态分布表达式相似的公式,FileName为表达式所在文档的名称。由于实验检索出的表达式数量太多,因此只选择5个检索结果进行展示。通过表2可以看到表达式检索得到与查询表达式相似的公式和这些公式所对应的文档信息。

（2）基于词嵌入的科技文档排序

采用RAKE^[19]算法提取文档的关键词组以及它们所占的权重（WordScore）。使用停用词表去除文档中一些常见的高频词汇,例如“a, of, the”等;将抓取的关键词进行还原,例如“distributions”还原为“distribution”;通过设置关键词在文本中出现的次数等提取高频词汇。根据实验需要,每个文档选取10个高频词汇,输出符合条件的词组以及相对应的权重,文档“Folded normal distribution.html” 提取关键字部分结果如表3所示。

表3 关键词组提取结果

Table 3 Keyword Group Crawl Results

Keyword	WordScore
folded normal distribution	7.37
folded distribution	5.03
normal distribution	4.78
random variable	4.33
differential equations	4.02

新窗口打开| 下载CSV

由于本文所使用的NTCIR数据集是从维基百科获取的英文文档,所以本系统使用开源框架fastText ( https://github.com/facebookresearch/fastText.)训练的Word Embedding模型作为基模型,并在此基础上根据实验需求进行微调（Fine-Tune）,最终得到本实验所对应的Word Embedding模型。

利用Python中的Gensim模块,导入训练好的Word Embedding模型,将公式检索得到的符合条件的文档集合和用户输入的查询关键字集合,通过Word Embedding得到文档关键字集合和查询关键字集合的词向量,并计算两组词向量集合的余弦相似度值。根据相似度值的大小,对文档进行排序并输出。

当用户输入的关键词组和查询公式分别为“normal distribution”和“ $f (x) = \frac{1}{σ \sqrt{2 π}} e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}$ ”时,系统首先通过查询公式检索出符合条件的文档集合;利用Word Embedding模型求出“normal distribution”和文档关键字集合的词向量,从而计算它们的余弦相似度;最后,根据相似度值对文档排序并输出。这里只输出前10个文档的排序结果,如表4所示。

表4 文档排序Top-10结果

Table 4 Document Sorting Top-10 Results

序号	文档（html）	相似度
1	Folded normal distribution	0.93
2	Normal gamma distribution	0.86
3	Gaussian distribution	0.80
4	Exponential family	0.75
5	Stochastic simulation	0.74
6	Logit normal distribution	0.73
7	Normal distribution	0.72
8	Kernel (statistics)	0.68
9	Distributed random	0.67
10	Slice sampling	0.66

新窗口打开| 下载CSV

4.2 对比实验

SearchOnMath是Oliveira等^[20]提出的一种基于数学信息的检索系统,可以根据公式或者关键字检索科技论文以及维基百科的英文文档等内容。

以泊松分布（Poisson Distribution）公式为例,如公式（7）所示。

（7）

p (k) = \frac{λ^{k}}{k!} e^{- λ}

本文系统和SearchOnMath系统检索的前5个结果如表5所示。

表5 两系统Top-5检索结果

Table 5 Top-5 Search Results for Both Systems

系统	公式	文档(html)
Search OnMath	$p (k) = \frac{λ^{k}}{k!} e^{- λ}$	Variance
	$f (k; λ) = P_{r} (X = k) = \frac{λ^{k} e^{- λ}}{k!}$	Poisson distribution
	$p (d) = \frac{λ^{d}}{d!} e^{- λ}$	Long tail traffic
	$p (n) = \overset{T}{\prod_{i = 1}} \frac{1}{n} {(M_{i})}^{n_{i}} e^{- M_{i}}$	Constellation model
	$Q (ψ_{n}) (x, p) = \frac{(x^{2} + p^{2})}{n!} \frac{e^{- (x^{2} + p^{2})}}{π}$	Quantum harmonic oscillator
本文系统	$p (k) = \frac{λ^{k}}{k!} e^{- λ}$	Variance
	$f (k; λ) = P_{r} (X = k) = \frac{λ^{k} e^{- λ}}{k!}$	Poisson distribution
	$p (N = k) = \frac{λ^{k}}{k!} e^{- n}$	Poisson games
	$P_{n} (t) = \frac{t^{k}}{n!} e^{- t}$	Poisson wavelet
	$\frac{λ^{k}}{k!} e^{- λ} = \frac{5^{k}}{k!} e^{- 5}$	Poisson limit theorem

新窗口打开| 下载CSV

关于公式（7）的检索,本系统检索消耗的时间为0.48秒,SearchOnMath系统的检索时间为0.56秒,在检索时间上,两系统都能快速给出检索结果,本系统检索所用时间略少于SearchOnMath系统,因为本系统采用的FDS方法在公式检索中忽略了运算数对检索的影响,从而提高了检索速度;公式检索结果方面,两系统的Top-2基本相同,但是从整体的Top-5结果来看,本系统的公式检索性能更为合理,从表5所列出的文档信息可以看出,本系统检索出的文档与关键词“Poisson distribution”相关性更强。

选取经过专家排序后的10组文档数据作为本次对比实验的测试集,评价时分别计算本系统和SearchOnMath系统与专家排序结果的余弦相似度,相似度越高说明系统性能越好,反之亦然。文档列表如表6所示。

表6 文档列表

Table 6 Document List

序号	公式	关键字	序号	公式	关键字
1	$\frac{y}{t}$	fractional	6	$\lim_{n \to \infty} {(1 + \frac{1}{n})}^{n}$	limit theorem
2	$2^{q}$	exponential	7	$a^{2} + b^{2} = c^{2}$	pythagorean theorem
3	$\sin θ$	sine function	8	$\frac{λ^{k}}{k!} e^{- λ}$	poisson
4	$\cos x$	cosine function	9	$\frac{- b \pm \sqrt{b^{2} - 4 ac}}{2 a}$	quadratic formula
5	$\sqrt{a}$	radical expression	10	$\frac{1}{σ \sqrt{2 π}} e^{- \frac{{(x - μ)}^{2}}{2 σ^{2}}}$	normal distribution

新窗口打开| 下载CSV

根据10组专家排序后的文档得到两个系统的余弦相似度,结果如图2所示。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 本文方法和SearchOnMath的相似度对比

Fig.2 Comparison of Similarity Between Our Method and SearchOnMath

从图2可以看出,本方法比SearchOnMath系统基于表达式和关键字检索出的文档的相似度更接近于专家排序,更能满足用户的查询需求。需要说明的是,专家排序属于人工评价方式,因此评价标准并不唯一。

4.3 实验分析

对于一组文档的检索,查全率（Recall）指检索出的相关文档数与检索系统中含有的全部相关文档数的比值,查准率（Precision）指检索到的相关文档数和检索出的文档总数的比值。

根据表6的10组文档数据进行检索,通过专家标记认证,判断检索出的公式是否与查询内容相关。传统方法在不使用词嵌入模型进行科技文档检索的情况下,检索系统的平均查全率为0.62,平均查准率为0.51。本方法的查全率和查准率如图3所示。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 系统检索查全率和查准率

Fig.3 Retrieval Recall and Precision

图3为本系统对10组不同文档进行检索得到的结果,其中平均查全率为0.77,平均查准率为0.63。对比使用词嵌入前后的检索结果,在不使用词嵌入模型进行科技文档检索的情况下,系统只能检索到包含关键字的文档,这会导致检索的范围较小,从而使系统检索性能较低,尤其是查全率。将词嵌入模型融入科技文档检索系统后,检索范围有限这一问题得到解决,检索性能得到提高。因此,词嵌入模型对在一定程度上保证查准率条件下扩大文档检索范围是有效的。

5 结语

本文立足于公式和关键字相结合的检索模式,提出一种基于公式描述结构和词嵌入的科技文档检索排序方法。该方法通过公式描述结构获得表达式的运算符信息,降低表达式中运算数对检索的影响,提高表达式检索的效率;再根据词嵌入模型,得到和查询关键字语义相似的词语,解决了基于关键字检索单一性问题,提高文档和查询关键字的相似度。本方法主要针对LaTeX格式的查询表达式,导致检索系统具有一定的局限性。未来将尝试对不同形式的表达式进行解析,使科技文档检索系统更加广泛地满足用户的检索需求。

作者贡献声明

田学东:提出研究思路,设计研究方案;

宰新宇:进行实验,分析数据,撰写论文;

田学东,宰新宇:论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: xinyu_zai@163.com。

[1] 宰新宇. Dataset.rar. 实验数据集.

[2] 宰新宇. SmartStoplist.txt. 停用词表.

[3] 宰新宇. Model.rar. 词向量模型和公式解析算法.

[4] 宰新宇. Index.rar. 公式解析与关键字提取索引集.

[5] 宰新宇. Result.rar. 实验结果集.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Shahid

, Afzal M

Section-Wise Indexing and Retrieval of Research Articles

[J]. Cluster Computing, 2018,21(1):481-492.

检索词推荐：