面向TRIZ的专利自动分类研究
胡正银1,2, 方曙1, 文奕1, 张娴1,2, 梁田1
1中国科学院成都文献情报中心 成都 610041
2中国科学院大学 北京 100049
通讯作者:胡正银, ORCID: 0000-0002-5699-9891, E-mail:huzy@clas.ac.cn

作者贡献声明:

胡正银: 文献调研, 实证分析, 论文撰写;

方曙: 研究命题的提出、设计, 论文修订;

文奕: LDA主题模型应用;

张娴: 领域词表建设, 面向TRIZ分类体系构建;

梁田: SAO数据清洗, 分类数据处理。

摘要

【目的】通过构建个性化分类体系, 研究面向TRIZ应用的专利自动分类方法。【方法】基于主题模型, 从宏观、中观、微观三个层面构建面向TRIZ个性化分类体系; 通过对不同分类特征项与算法进行组合, 挑选分类准确率最高的组合构建初始分类器; 采用平滑非平衡数据与特征项降维方式对分类器进行优化, 完成对专利的自动分类。【结果】实现半自动构建面向TRIZ的个性化分类体系及基于该分类体系的专利自动分类。在中等数据量级场景下(千条), 实现专利自动分类, 分类效果综合评价指标高达90.2%。【局限】该方法不适用于数据量较小(百条)时的专利分类; 在较大数据量(万条)场景下, 该方法的有效性尚未得到验证。【结论】对中等规模专利数据, 能快速构建面向TRIZ的分类体系, 并实现自动分类。

关键词: 发明问题解决理论; 主题模型; 专利分类; 个性化分类体系
中图分类号:G353.1
Study on Automatic Classification of Patents Oriented to TRIZ
Hu Zhengyin1,2, Fang Shu1, Wen Yi1, Zhang Xian1,2, Liang Tian1
1 Chengdu Document and Information Center, Chinese Academy of Sciences, Chengdu 610041, China
2 University of Chinese Academy of Sciences, Beijing 100049, China
Abstract

[Objective] This paper proposes an approach to automatically classify patents oriented to TRIZ applications based on a personalized classification system.[Methods] A personalized classification system is constructed in micro-macro-meso levels using topic model. Then, an appropriate feature and classifier are chosen to preliminarily classify patents. The classifier is optimized by smoothing unbalance data and reducing features dimensions.[Results] This approach implements semi-automatically constructing a personalized classification and automatically classifying patents oriented to TRIZ applications. In medium data size, this approach can classify patents with F-measure value of 90.2%.[Limitations] This approach is not available in small size data set and not verified in big size data set.[Conclusions] This paper can classify patents oriented to TRIZ applications in medium data size.

Keyword: TRIZ; Topic model; Patent classification; Personalized classification system
1 引言

TRIZ是发明问题解决理论(Theory of Inventive Problem Solving)的俄文缩写, 它是Altshuller等分析200多万份专利, 归纳出关于发明具有共性的原则与方法[1]。技术矛盾(Technical Contradictions)与创新原则(Inventive Principles)是TRIZ核心内容之一。TRIZ中的技术矛盾指发明中解决的各种技术难题(Problems), Altshuller等将其归纳成1 201个标准工程技术矛盾; 解决这些难题的具体技术方案(Solutions), 被抽象成40个标准解, 即创新原则[1]

专利分类既是组织管理专利的一种手段, 也是专利技术挖掘的重要应用场景。面向TRIZ的专利分类可帮助用户快速发现采用了相似发明原理或解决了相似技术难题的专利, 促进专利有效利用[2]。但直接利用现有TRIZ技术矛盾与创新原则进行分类, 存在一些不足。

(1) 它们主要是依靠分析机械、工程类专利得出的结果, 无法很好反映信息技术、生命科学等领域的专利特性;

(2) 它们是从专利中总结出来的一般性原则与规律, 难以直接映射到某一具体专利;

(3) 技术矛盾与创新原则长时间结构保持稳定, 描述过于抽象, 难以描述微观层面、特定领域专利集的技术特征[3]

为此, 本文提出一种通过半自动构建个性化分类体系, 进行面向TRIZ的专利分类方法。该方法基于主题模型, 从技术范畴(Tech)、技术难题与解决方案(Problems & Solutions, P& S)、SAO(Subject-Action- Object)基础语义单元三个层面构建个性化分类体系, 可实现个性化、深层次、高效率专利自动分类。

2 研究背景
2.1 专利分类

专利分类是通过机器学习少量人工分好类的专利分类规则, 然后基于该规则, 将大量专利分入相应分类体系的过程。根据分类体系不同, 现有研究可分为: 面向分类号、面向TRIZ与面向个性化分类体系分类三种[4]

专利分类号是专利领域非常权威并且应用广泛的分类体系。分类号从技术领域的角度, 采用等级的形式对专利进行分类, 如国际专利分类号(International Patent Classification, IPC)将技术内容分为: 部、分部、大类、小类、大组、小组, 逐级形成完整的分类体系[5]。专利分类号层次结构复杂, 以专家人工分类为主。

面向TRIZ的分类关注专利特有的P& S信息, 它可帮助用户发现面对不同技术难题采用了相同解决方案或同一个技术难题采用不同解决方案的专利。这些专利在技术领域上可能相差很远, 分布在不同的分类号中[4]。目前, 研究集中在基于TRIZ创新原则分类。He等[6]利用句法信息, 采用关联规则进行面向创新原则的专利分类。梁艳红等[7]将创新原则归纳为显性原则与隐性原则两类, 实现了面向显性创新原则的自动分类。

分类号与TRIZ创新原则都存在过于宽泛与抽象等不足。面向个性化分类体系的专利分类成为研究热点。Teichert等[8]提出了基于专利功能类别构建分类体系的方法。Hu等[9]结合主题模型与主成分分析, 研究了自动构建个性化专利知识组织体系。

总之, 分类号是标注专利技术领域的重要分类体系, 但过于宽泛, 没有反映专利特有的P& S信息。面向TRIZ专利分类是挖掘专利特有P& S信息的重要方法, 但现有研究集中在基于抽象创新原则分类, 不能满足领域个性化专利分类需求。而面向个性化分类体系专利分类研究多基于关键词构建分类体系, 没有与TRIZ应用结合起来。

2.2 主题模型

主题模型是一系列基于概率模型、旨在发现大规模文档中隐性主题结构方法的统称。它通过分析文档集合中术语共现的概率分布, 来挖掘文档集中潜在的主题及主题的概率分布[10]。LDA(Latent Dirichlet Allocation)是一个常用的主题模型, 它将文档视作一系列主题的概率分布, 而主题则视作一系列术语的概率分布[11]。LDA模型已广泛应用于专利文献分析与挖掘中, 相对直接将专利文献表示成关键词或SAO向量, LDA生成了新的技术特征, 更能揭示专利深层次知识结构, 适用于构建复杂的、个性化的专利分类体系[9]

3 研究框架与方法

鉴于现有研究的不足, 本文采用LDA主题模型, 从技术范畴、技术难题与解决方案、SAO基础语义单元三个层面构建面向TRIZ的个性化分类体系, 并基于该分类体系对专利进行自动分类。三个层面概念说明如表1所示:

表1 面向TRIZ个性化分类体系概念说明

该方法流程如下: 构建待分类领域专利数据集; 基于SAO, 采用LDA模型构建面向TRIZ的个性化分类体系; 基于该分类体系对专利自动分类; 优化分类结果。具体流程如图1所示:

图1 面向TRIZ专利自动分类流程

3.1 构建待分类领域专利数据集

针对具体技术领域, 制定专利检索策略。选择合适数据源、时间段与数据过滤策略, 进行专利检索, 构建专利数据集。

3.2 构建面向TRIZ个性化分类体系

分类体系是自动分类的基础与前提, 构建步骤如下:

(1) SAO自动抽取与清洗

SAO是一种采用主-谓-宾形式表示的三元组, 是该分类体系的基础语义单元。利用关系抽取工具如TextRunner [12]、ReVerb [13]等从专利文本字段, 如摘要(Abstract)、权利要求(Claims)、背景知识(Background)中抽取原始SAO。

原始SAO数量庞大, 表达不规范, 需要进行数据清洗。参考Zhang等[14]提出术语收敛(Term Clumping)框架, SAO清洗步骤如表2所示:

表2 SAO清洗步骤

清洗完毕后, 每一篇专利表示成一系列SAO组成的词袋子。

(2) 基于SAO生成P& S主题

SAO从微观层面描述了专利包含的具体技术信息, 意义相近的一组SAO可归纳成一种通用的技术手段或功效, 即中观层面P& S主题。基于SAO词袋子, 采用LDA主题模型, 可自动挖掘出潜在的P& S主题。本次LDA的输入是直接表示SAO词袋子的专利— — SAO矩阵, 通过对SAO降维, 生成一系列P& S主题。经过本次主题建模, 专利表示成一系列P& S主题的概率分布, P& S主题则表示成一系列语义相近SAO的概率分布。

定义PSset为P& S主题集合, psj是某一具体P& S主题:

PSset = (ps0, … psj, …psn) (1)

(2)

其中, 是SAOi在psj中的条件概率。

有两种利用LDA的方式: 学习模式, 即直接从文档集中挖掘隐含的主题分布; 推理模式, 即通过学习已存在的LDA训练模型, 推导出新文档集的主题分布[17]

一般来说, 推理模式适用于数量比较大的场景, 它的准确率比学习模式高。由于SAO词袋子数目较大, 本次LDA建模采用推理模式, 即先挑选出部分核心专利作为训练集, 运行LDA学习模式, 得到LDA训练模型; 然后针对所有数据, 在训练模型基础上, 运行推理模式, 得到所有专利文献关于P& S主题概率分布及P& S主题关于SAO的概率分布。

(3) 基于P& S生成技术范畴

利用LDA对P& S主题挖掘, 可自动生成一系列更宽泛主题, 这些主题可抽象成宏观层面技术范畴。本次LDA的输入表示成P& S概率分布专利— — P& S矩阵, 通过对P& S主题降维, 生成一系列技术范畴。经过本次主题建模, 专利表示成一系列技术范畴的概率分布, 技术范畴则表示成一系列有关联的P& S主题的概率分布。

定义Techset为技术范畴集合, techj是某一具体技术范畴:

Techset = (tech0, … techj, …techm) (3)

(4)

其中, 是psi在techj中的条件概率。

由于P& S数量较少, 本次LDA建模采用学习模式直接得到技术范畴关于P& S的概率分布。

(4) 主题筛选及裁剪

LDA自动生成的P& S主题、技术范畴含有噪音, 需要清洗之后, 才能成为分类体系有效成分。主要通过两种方式清洗: 将条件概率小于指定阈值的P& S主题与技术范畴裁剪掉; 请领域专家进一步筛选有效主题。

最后, 请专家给P& S主题和技术范畴撰写有意义的标签, 得到完整的面向TRIZ的分类体系。与已有分类体系如专利分类号系统相比较, 该分类体系有以下特点:

①该分类体系是一种个性化的分类体系。它是基于特定领域专利数据、面向具体应用的个性化分类体系; 领域不同, 应用目的不同, 分类体系会随之动态变化; 而专利分类号是面向整个技术领域、相对静态的通用分类体系[5]

②该分类体系侧重于揭示专利的具体技术难题与解决方案信息, 如它的微观层SAO是以“ 动词+名词” 的形式表示某一具体的技术手段或功效; 而专利分类号是按与发明创造有关知识领域进行分类[5]

③该分类体系的描述粒度更细致、更专业; 而专利分类号体系在有些领域, 尤其是高技术领域, 对技术分类过于宽泛, 难以满足需求[5]

该分类体系示意图如图2所示:

图2 面向TRIZ的专利个性化分类体系

3.3 面向TRIZ的专利自动分类

(1) 选取训练集进行手工分类

在专利数据集中, 选取一定比例的专利作为分类训练集, 由专家对这些专利进行手工分类。

(2) 分类特征选择

特征选择是指从原始候选特征集中挑选或提取与任务最相关的特征集。原始候选特征集一般维度很高, 相互之间存在依赖关系。如果直接利用它们进行分类, 会导致分类准确率低, 甚至失败。通过特征选择, 将高维的原始特征集投射到低维的选定特征集中, 可提高分类器的准确性与效率, 是自动分类的关键步骤[18]。有两种特征选择的方式: 特征提取与特征子集选取。前者通过对原始特征集进行组合或变换, 产生新的低维特征, 如主成分分析、主题模型等; 后者则是直接从原始特征集中挑选与任务高度相关的特征[18]

本研究中, 原始候选特征集是清洗后的SAO集合, 采用特征子集选取方式进行特征选择。分别采用SAO的信息增益(Information Gain, IG)与它们在文档集中出现频率(Document Frequency, DF)作为量化SAO特征重要性的方法, 挑选具有高特征值的SAO作为分类特征项。

(3) 分类算法选择

分类算法通过学习训练集, 发现分类规律, 进而利用该分类规律对未知数据进行自动分类。现有分类算法很多, 如决策树、原生贝叶斯、人工神经网络、最大熵模型、K-近邻、支持向量机和基于关联规则的分类等[18]。每一种分类算法都有各自的特点与适用场景, 需选择不同分类算法进行试分类。

(4) 构建初始分类器

通过对不同分类特征项与算法进行组合, 挑选分类准确率最高的组合来构建初始分类器, 利用该分类器对专利进行自动分类。

3.4 优化分类结果

为了更准确分类, 需要对分类结果进行优化。本文从非平衡数据处理、SAO特征项降维两个方面进行优化。

非平衡数据是指数据集中某几类样本数量远大于其他类, 其广泛存在于各种分类问题中。如果不对非平衡数据进行处理而直接分类, 分类器会将少数类样本错分到多数类, 导致分类性能急剧下降。如何处理非平衡数据是数据挖掘领域的热点与难点[19]。本文通过对训练集进行多次人工重采样, 以改变训练集的分布, 降低不平衡性。

清洗后的SAO集合语义发散, 存在很多特征相近的SAO, 有利于生成P& S主题, 但不利于特征选择。本文根据P& S主题关于SAO的概率分布, 在特征选取前, 预先对SAO进行降维, 提高特征选择的准确性。

4 研究过程

选择大口径光学元件(Large Aperture Optical Elements, LAOE)专利进行面向TRIZ专利自动分类实证研究。

4.1 构建LAOE领域专利数据集

选择德温特专利(Derwent Innovations Index, DII)作为专利检索数据库, 时间跨度为2000年-2011申请年。由情报分析专家与领域专家共同制定检索策略, 具体如表3所示, 共得到1 364条专利。

表3 LAOE专利检索策略
4.2 构建LAOE领域面向TRIZ的个性化分类体系

(1) SAO自动抽取与清洗

采用开放式实体关系抽取工具ReVerb[13]从DII数据中的Title、Abstract字段中抽取SAO, 共得到20 957条原始SAO。利用表2所示清洗步骤进行SAO清洗, 得到4 892条SAO。由具有领域背景的分析人员进一步筛选, 并省略部分Subject/Object单元, 得到2 372条SAO基础语义单元, 如表4所示:

表4 基础语义单元SAO示例

(2) 基于SAO生成P& S主题

采用机器学习工具集MALLET[17]中LDA模块对SAO进行降维, 生成P& S主题。LDA的重要参数包括“ 主题数目” 、“ Dirichlet先验参数” 等。参数值设置不合适, 会导致最终分类体系过于宽泛或过于狭窄。经反复实践, 本文采用的参数设置原则为: 绝大部分专利能被10%的主题表示; 且绝大部分主题能被1%的SAO表示[9]。部分LDA重要参数配置如表5所示。在这组参数配置下, 84.16%(1 148)的专利能被10%(20)的主题表示; 83.50%(167)的主题能被约1%(20)的SAO表示。

表5 LDA参数配置

通过LDA, 得到1364× 200 的专利— — P& S主题分布矩阵及200× 2372 的P& S主题— — SAO分布矩阵。矩阵的权重为相应的条件概率值。

(3) 基于P& S生成技术范畴

进一步采用LDA学习模式对P& S主题进行降维, 生成Tech主题。LDA参数配置中, Tech主题数目设置为20, 其他参数保持不变。得到1364× 20 的专利— — Tech主题分布矩阵及20× 200 的Tech主题— — P& S主题分布矩阵。矩阵的权重为相应的条件概率值。

(4) 主题筛选及裁剪

裁剪掉权重较低的主题。设置Tech主题的阈值为0.1, 即剔除专利— — Tech主题分布矩阵中权重小于0.1的Tech主题; 设置P& S主题的阈值为0.05, 即剔除Tech主题— — P& S主题分布矩阵中权重小于0.05的P& S主题。由情报分析专家与领域专家共同对主题进一步筛选、合并。得到124个有效P& S主题与4个有效Tech主题。LAOE领域的面向TRIZ的个性化分类体系如表6所示:

表6 LAOE领域的面向TRIZ的个性化分类体系
4.3 面向TRIZ的专利自动分类

(1) 选取训练集进行手工分类

选取100条专利作为训练集。请专家人工将这100条专利归入{C1, C2, C3, C4}类中。为了尽可能保证数据平衡, 按分类号分布比例挑选训练集。

(2) 分类特征选择

分别选择top5、top10、top20 IG与DF大于阈值2、3、5 的SAO作为分类的特征项。

(3) 分类算法选择

选择最大熵模型(Maximum Entropy Classifier, MaxEnt)、决策树分类(C4.5 Decision Tree Classifier, DT)、原生贝叶斯分类(Naï ve Bayes, NB)三种分类算法, 利用MALLET[17]工具集中分类模块进行试分类。

(4) 构建初始分类器

选取300条专利, 平均分成三组{t1, t2, t3}。交叉选取{t1, t2}、{t1, t3}、{t2, t3}作为测试集。在不同分类特征项下, 三种分类算法在三组测试集的平均分类准确率如表7所示:

表7 三种分类算法在不同特征项下分类准确率

分类器准确率越高, 表示对待分类专利数据自动分类的能力越强。从表7可以看出, 当选择top 10 IG的SAO作为分类特征项、DT作为分类算法时, 分类准确率最高, 达82.8%。因此, 选择该组合构建初始分类器, 对全部LAOE专利分类。

4.4 优化分类结果

常用评价分类效果指标包括: 准确率P (Precision)、召回率R (Recall) 与综合评价指标F-measure。P表示已分类数据中分类正确的比例[20]; R表示已正确分类数据占所有应该被分到该类数据的比例[20]; F-measure是综合考虑P和R性能的指标, 常用的F-measure为F1, F1 = 2PR/(P+R)[20]

基于初始分类器分类效果欠佳, 需要优化。本文从非平衡数据处理、SAO特征项降维两方面优化。首先人工重采样时, 通过增加少数类样本数量(Over- Sampling)与减少多数类样本数量(Under-Sampling)来处理非平衡数据。然后特征选择时, 通过裁剪低概率SAO等方式对其降维, 提高特征选择准确性。最后技术范畴分类效果如表8所示:

表8 专利技术范畴分类准确率
5 结果与讨论

本文基于LDA主题模型, 提出一种面向TRIZ的专利自动分类方法。基于LAOE专利实证研究发现: LAOE专利集中在“ 光学元件面形检查(Measuring Surface Shape)、面形测量方法(Surface Measuring Method)、面形测量装置(Surface Measuring Device)、在线面形监测(Online Monitoring)” 4个技术范畴。这4个技术范畴包涵“ 检查大透镜的凸面(Checking Large Lens Convex Surface)、衍射法测量大光学元件曲率(Diffraction Method for Measuring Large Optical Curvature)、波像差测量装置(Wave Aberration Measuring Device)、光学元件表面质量控制(Optical Surface Quality Control)” 等124个具体技术问题。这些技术问题又可用2 372个SAO来进行描述。基于该分类体系对LAOE专利进行分类, 技术范畴的分类准确率最高达92.6%, 最低为72.6%; 召回率最高达88%, 最低为78%; 综合分类评价参数F1值最高达90.2%, 最低为78.1%。目前, 基于该方法构建的LAOE专利辅助创新知识库系统已成功在中国科学院上海光学精密机械研究所部署应用。

该方法在实际应用中还存在一些问题:

(1) 将中观层面的P& S主题看成一个整体考虑, 没有进一步区分成Problems与Solutions主题及自动发现它们之间的语义关系。如何将SAO定向、准确生成Problems与Solutions主题, 并挖掘出它们之间的语义关系, 是未来研究的难点与重点。

(2) 在数据量较小(如几百条)时, 该方法效果较差, 与LDA对数据量有一定要求有关; 在较大数据量级(上万条)场景下, 该方法的有效性尚未得到验证。

(3) 虽然领域专家参与是专利技术挖掘必不可少的部分, 但如何规范领域专家参与模式、减少其主观影响, 增强该方法的稳定性与通用性, 也是未来研究重点。

6 结语

本文基于LDA主题模型与SAO基础语义单元, 提出了一种面向TRIZ的专利自动分类方法。该方法实现了半自动构建面向TRIZ个性化分类体系及基于该分类体系的专利自动分类。实证研究表明: 在中等数据量级场景下(千条), 该方法可高效、准确地实现面向TRIZ专利自动分类。基于该方法构建的面向TRIZ个性化分类体系还可应用于更多的专利技术挖掘领域, 如专利语义检索、技术演化分析、发现核心专利、热门专利预测等。

未来, 笔者将在较大数据量级场景下(万条), 对该方法的有效性进行研究; 自动区分与挖掘Problems与Solutions之间的关系, 也是未来研究的重点。

参考文献
[1] Kaplan S. An Introduction to TRIZ: The Russian Theory of Inventive Problem Solving [EB/OL]. [2013-07-02]. http://www.trizasia.com/FileStorage/6341665956857300352005-Intro_to_TRIZ%20--%20for%20printer.pdf. [本文引用:2]
[2] Loh H T, He C, Shen L. Automatic Classification of Patent Documents for TRIZ Users[J]. World Patent Information, 2006, 28(1): 6-13. [本文引用:1]
[3] Hu Z Y, Fang S, Liang T. Automatic Patent Classification Oriented to Problems & Solutions [C]. In: Proceedings of Conference on Artificial Intelligence and Data Mining (AIDM’13), Sanya, China. 2013: 22-24. [本文引用:1]
[4] 胡正银, 方曙. 专利文本技术挖掘研究进展综述[J]. 现代图书情报技术, 2014(6): 62-70.
Hu Zhengyin, Fang Shu. Review on Text-based Patent Technology Mining[J]. New Technology of Library and Information Service, 2014(6): 62-70. [本文引用:2] [CJCR: 1.073]
[5] WIPO. International Patent Classification (Version 2014) [EB/OL]. [2014-06-01]. http://www.wipo.int/export/sites/www/classifications/ipc/en/guide/guide_ipc.pdf. [本文引用:4]
[6] He C, Loh H T. Pattern-oriented Associative Rule-based Patent Classification[J]. Expert Systems with Applications, 2010, 37(3): 2395-2404. [本文引用:1] [JCR: 1.854]
[7] 梁艳红, 檀润华, 马建红. 面向产品创新设计的专利文本分类研究[J]. 计算机集成制造系统, 2013, 19(2): 382-390.
Liang Yanhong, Tan Runhua, Ma Jianhong. Study on Patent Text Classification for Product Innovative Design[J]. Computer Integrated Manufacturing Systems, 2013, 19(2): 382-390. [本文引用:1]
[8] Teichert T, Mittermayer M A. Text Mining for Technology Monitoring [C]. In: Proceedings of 2002 IEEE International Engineering Management (IEMC’02). IEEE, 2002: 596-601. [本文引用:1]
[9] Hu Z, Fang S, Liang T. Empirical Study of Constructing a Knowledge Organization System of Patent Documents Using Topic Modeling[J]. Scientometrics, 2014, 100(3): 787-799. [本文引用:3] [JCR: 2.133]
[10] Blei D M. Probabilistic Topic Models [EB/OL]. [2013-06-12]. https://www.cs.princeton.edu/~blei/kdd-tutorial.pdf. [本文引用:1]
[11] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022. [本文引用:1] [JCR: 3.42]
[12] Yates A, Cafarella M, Banko M, et al. TextRunner: Open Information Extraction on the Web [C]. In: Proceedings of NAACL-Demonstrations ’07 of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations. Association for Computational Linguistics, 2007: 25-26. [本文引用:1]
[13] Fader A, Soderland S, Etzioni O. Identifying Relations for Open Information Extraction [EB/OL]. [2013-03-02]. http://ai.cs.washington.edu/www/media/papers/reverb.pdf. [本文引用:2]
[14] Zhang Y, Porter A L, Hu Z, et al. “Term Clumping” for Technical Intelligence: A Case Study on Dye-sensitized Solar Cells[J]. Technological Forecasting and Social Change, 2014, 85: 26-39. [本文引用:1]
[15] Thomson Reuters. Thomson Data Analyzer [EB/OL]. [2013-03-03]. http://ip-science.thomsonreuters.com.cn/media/tda.pdf. [本文引用:1]
[16] The Stanford Natural Language Processing Group. Research [EB/OL]. [2013-03-03]. http://www-nlp.stanford.edu/research.shtml. [本文引用:1]
[17] Mimno D. Machine Learning with MALLET [EB/OL]. [2013-03- 03]. http://mallet.cs.umass.edu/mallet-tutorial.pdf. [本文引用:3]
[18] 杨建武. 文本自动分类技术 [EB/OL]. [2013-06-13]. http: //www. icst. pku. edu. cn/course/mining/11-12spring/TextMining04-%E5%88%86%E7%B1%BB. pdf.
Yang Jianwu. Review on Text Classification [EB/OL]. [2013-06-13]. http://www.icst.pku.edu.cn/course/mining/11-12spring/TextMining04-%E5%88%86%E7%B1%BB.pdf. [本文引用:3]
[19] 钱洪波, 贺广南. 非平衡类数据分类概述[J]. 计算机工程与科学, 2010, 32(5): 85-88.
(Qian Hongbo, He Guangnan. A Survey of Class-imbalanced Data Classification[J]. Computer Engineering & Science, 2010, 32(5): 85-88. ) [本文引用:1]
[20] Powers D M W. Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation [EB/OL]. [2013-03-03]. http://www.infoeng.flinders.edu.au/research/techreps/SIE07001.pdf. [本文引用:3]