利用文本挖掘技术,并结合科学计量、自然语言处理等方法,提出一种基于三重共现算法的技术路线图中未来技术词表构建方法,以揭示特定技术领域的未来技术发展方向和未来发展阶段水平特征,初步实现技术路线图中的未来技术分析目标。实验表明该方法能够在一定程度上支持技术路线图的未来技术分析研究。
The paper proposes a triple co-occurrence algorithm to construct the future-oriented technology thesaurus of technology roadmap based on text mining combining the method of scientometrics and natural language processing, which reveals the future-oriented technology development direction and level characteristics of special technical field and achieves preliminarily the target of future-oriented technology analysis of technology roadmap. The experiment shows that this method can support the future-oriented technology analysis of technology roadmapping to some extent.
目前,面向未来的技术分析已成为国内外许多战略科研机构的重要任务和核心能力之一。包括技术预见、技术预测、技术监测、技术竞争情报、技术路线图和技术评价等在内的各类未来技术分析研究活动受到广泛重视,许多国家的政府、机构和企业等组织在不同层面上开展了面向未来的技术分析研究和实践活动[ 1]。
作为一种预见方法,未来技术分析的主要目标是系统地生成有助于应对未来的挑战和危机的关于未来的知识。2008年,Cagnin等[ 1]对FTA的概念进行了明确的解释,并指出FTA主要是指如何构建未来可能的备选技术,以及如何从中优选出更具有价值的与未来技术有关的理论、方法和实践。目前,情景分析方法、技术路线图方法以及德尔菲方法是面向未来的技术分析主要研究方法[ 2]。本文以技术路线图方法为基础,利用文本挖掘技术,并结合科学计量、自然语言处理等方法,提出一种三重共现算法以构建技术路线图的未来技术词表和基于技术路线图的未来可能的备选技术(即未来技术发展方向),并从中可以优选出具有更高价值的未来技术发展目标及其发展水平(即未来技术发展水平特征)。
以美国兰德公司为代表的一些政策咨询机构积极开展未来科技发展的研究和预测工作,并形成了著名的德尔菲法和情景分析等方法。与此同时,由于技术路线图能支持公司或部门的计划和预测而获得研究人员和实践人员的更多注意。目前,技术路线图已被证明是在战略技术规划的背景下应对技术挑战、支持信息收集和决策制定的一种有效方法。作为一种重要的未来技术分析方法[ 3],国内外对其展开了深入的研究和探索。
Yoon等[ 4]使用文本挖掘方法从产品手册和专利文件等材料中提取关键信息,用于识别现有的产品及其技术形态,并以此作为技术路线图的方法基础。Lee等[ 5]对技术路线图方法进行了改进研究,利用文本挖掘技术从产品资料、科技文献和专利文献中抽取技术关键词,并利用组合、共词、网络分析等方法,以制作基于关键词的技术路线图,从而减少路线图对专家知识的依赖。刘兰等[ 6]将文本挖掘和技术路线图结合起来,通过挖掘隐含在科技信息中的知识和联系,并结合技术领域专家绘制技术路线图,以发现技术创新的机会。
技术路线图以简洁的图形、表格、文字等形式描述技术变化的步骤或技术相关环节之间的逻辑关系,能够帮助使用者明确技术领域的未来发展方向以及实现目标所需的核心技术,理清领域和核心技术之间的关系。刘细文等[ 7]指出,绘制技术路线图需要关注其关键组成要素,包括时间规划、层次关系、重要突破点等。因此,作为一种重要的辅助科技决策和管理的战略规划工具,技术路线图的内容是获得未来技术发展方向和发展水平特征的主要依据。
到目前为止,大多数研究将技术路线图作为一种面向未来技术分析的工具或方法进行优化,基本上没有将技术路线图作为研究对象对其文本内容进行深层次的情报分析,如构建揭示未来技术发展方向和发展水平的未来技术词表。
徐峰等[ 8]指出,情报分析方法是重要的面向未来的技术分析方法,可以与其他方法混合使用,以便能更好地反映未来技术的状态信息。目前,越来越多的研究人员将情报分析方法引入未来技术分析中,并取得了一些有价值的研究成果[ 9, 10]。不管是技术形态关联的分析方法[ 11],还是非相关文献知识发现的分析方法[ 12],都是从方法的角度对未来技术分析进行探索和研究。
本文以技术路线图为蓝本,利用文本挖掘、科学计量分析、自然语言处理等方法与技术,结合技术路线图的文本结构,自动地对技术路线图全文进行深度扫描,构建技术路线图中的未来技术词表,旨在准确反映技术领域的未来技术发展方向和发展水平特征。
以构建技术路线图中的未来技术词表为主要研究内容。为了更好地实现词表的存储,本文定义一种三元组数据结构,包括时间特征词(Time)、核心技术关键词(Term)以及度量值(Value)三个维度指标,分别用来定义特定技术领域技术未来发展方向(由核心技术关键词定义)及其在未来发展的阶段(由时间特征词定义)中的发展水平特征(由度量值定义),表达了未来技术发展的三个维度。
根据技术路线图文档结构的特点,以三元组为词表项目的基本数据结构,以共现分析理论和方法为基础,提出基于三重共现的未来技术词表构建方法,具体构建过程如图1所示:
(1)核心技术关键词的自动抽取
在技术路线图中,由核心技术关键词表征特定技术领域未来技术发展方向,核心技术关键词的自动抽取是实现未来技术词表构建的基础。具体抽取方法参见文献[ 13]。
(2)时间特征词的自动抽取
在技术路线图中,由时间特征词表征特定技术领域未来技术发展阶段,时间特征词的自动抽取是未来技术词表构建的核心。时间特征词的抽取工作相对比较简单,从分词的角度看,时间特征词具有明显的词性特征;从抽取的角度看,时间特征词和领域关键词在一定窗口中存在共现关系。因此,根据时间特征词和领域关键词之间特定的语义关系,采用传统的共现算法,可以很好地完成时间特征词的抽取工作。
(3)时间特征词和技术关键词匹配算法
为了进一步获得特定技术领域未来技术发展阶段水平,需要获得该技术领域中未来技术方向(由核心技术关键词表示)在未来时间点(由时间特征词表示)的发展水平(由度量值表示)。由于一个技术领域包含多个核心技术关键词和多个时间点,而未来技术发展阶段水平度量值必须根据核心技术关键词和时间特征值匹配的结果再从原始词汇集中获得,因此,时间特征词、核心技术关键词之间的匹配运算是未来技术词表构建的关键。匹配算法的前提条件是选择一个确定的技术领域,该领域的内容是由词汇链的初始值标记。
具体的算法描述如下:
输入:领域关键词fm、时间特征词集T、核心技术关键词集W、原始词汇集V。
输出:具有较强语义关联度的词汇对W={fm,T,W}集合,其中ti(ti∈T)和wi(wi∈W)具有一定的语义关联度。
步骤如下:
①i=0;读取ti,si,其中si是句子编号。
②以si为条件在V中进行查找,结果返回与ti在一定时间窗口共现的词汇集Vi,Vi是V的子集。
③对Vi和W进行交集运算,结果返回Vi和W共现的技术关键词集Wi,Wi是W的子集,如果Wi为空,则令si=si-1,转至步骤②继续执行,直到si为空。
④结果返回Wi中等价指数E最大的技术关键词wi。
⑤i++,转至步骤①继续执行,直至ti为空。
在使用匹配算法计算时间特征词ti和技术关键词wi之间的语义关联度时,要充分考虑两个主要影响因素:ti和wi之间的等价指数E,该指数主要考虑ti和wi之间关联强度的权重;ti和wj同现范围,由于上述匹配算法中“一定窗口”体现ti和wj同现范围,当si与wj所在的句子编号sj相等时,则属于同句共现,否则属于临近度为n(n=|si-sj|)的句子共现,匹配参数的调整反映同现窗口的动态性,匹配算法的输出则是和ti在最小范围同现的具有最大语义关联度的核心技术关键词wj。
(4)度量值的自动抽取
在技术路线图中,由度量值表征特定技术领域未来技术发展阶段水平,标志技术发展阶段水平度量值往往都是用数值型数据或部分数值型数据,抽取的目标对象是由原始文档构成的原始词汇集。在构造三元组时,度量值不是一个必要的条件,在技术路线图文档中,有些核心技术关键词没有明确的标志技术发展的度量值,在具体抽取操作时,可参照上述匹配算法。
使用Java和SQL Server 2005设计相应的测试系统完成图1所示的未来技术词表的构建,并对实验结果进行有效性分析。
以美国NASA的“Draft Nanotechnology Roadmap(纳米技术路线图)”[ 14]作为数据源和未来技术词表构建方法研究的实证对象,并进一步选取该文档中的“Lightweight Material(轻质材料)”技术领域作为实证领域,以本文提出的三重共现方法构建该技术领域的未来技术词表。
根据笔者前期的研究成果[ 13],可以确定包含该技术领域的备选技术关键词的目标词汇链。然后利用上述匹配算法进行时间特征词的抽取,时间特征词具有明显的词性特征,所获得的时间特征词主要包括2013、2019、2022以及2030,这4个时间特征词分别表示“Lightweight Material”技术发展的4个时间阶段。
在技术关键词抽取的过程中,主要采用等价指数(E值)作为语义关联强度的重要指标,从目标词汇链中抽取的部分核心技术关键词,以E值降序排列,如表1所示:
![]() | 表1 “Lightweight Material”技术领域核心技术关键词集 |
同时,采用词性分析、N-Gram分词、C_value术语识别等自然语言处理方法从技术路线图的全文中获得原始词汇集,该集合包括每个词汇所在的段落、句子、词汇次序、词性分析、频次以及C_value值等信息,原始词汇集的部分数据如表2所示:
![]() | 表2 “Lightweight Material”技术领域原始词汇集 |
以时间特征词集结合表1、表2中的核心技术关键词集以及原始词汇集的数据为基础,采用匹配算法进行计算,最终获得“Lightweight Material”技术领域未来技术词表,如表3所示:
![]() | 表3 “Lightweight Material”的未来技术词表 |
由表3可以看出,“Lightweight Material”技术领域在未来发展共有4个时间阶段,分别是2013、2019、2022以及2030年。每个时间阶段的发展方向在技术关键词中有明确的提示,同时在度量值中也有明确的技术发展水平特征。有了这样的词表作为支持,研究者很容易把握该技术领域未来发展方向和未来发展阶段水平特征。
为了对本文提出的三重共现构建方法进行评价,笔者结合领域专家的意见,采用人工方法对实验材料中的“Lightweight Material”技术领域建立未来技术词表,根据4个时间特征词相应地为词表构建4个表项。将人工构建的词表和表3的结果进行对比发现,两者的重合率为75%。对不一致的词表项目(2022年)进一步分析发现,人工构建的词表中包含的关键词为“carbon fiber reinforced polymer composite”,而表1中识别的关键词为“carbon fiber”。通过对实验过程回溯分析发现,自动抽取的候选关键词包括“carbon fiber”、“carbon fiber reinforced”、“polymer composite”三项,而最终列出的关键词“carbon fiber”是根据等价指数进一步筛选的结果。
本文根据技术路线图文本结构的特点,以包含时间特征词、核心技术关键词、度量值的三元组为词表项目的基本数据结构,以共现分析理论和方法为基础,提出一种基于三重共现的未来技术词表构建方法。实验表明,该方法能够比较理想地建立表征特定技术未来发展方向和发展水平特征的词表。根据分析可以看出,词表中的第三个表项的关键词不够准确,其主要原因是由于关键词自动抽取环节中提高准确率的同时降低了召回率,因此,在实际的应用中,可以考虑提供多关键词的方式提高关键词的召回率。但是,召回率的提高势必影响本词表中核心技术关键词的准确率,因此,要想获得更完整、更精确的未来技术词表,可以考虑对词表构建的各个环节做进一步的优化。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|