文本相似度计算方法研究综述
陈二静, 姜恩波
Review of Studies on Text Similarity Measures
Chen Erjing,Jiang Enbo
表2
基于本体的方法
基于距离
基于内容
基于属性
混合式
基本
原理
用概念之间的路径长度表示
语义距离
用概念词共享的信息量化它们之间的语义相似度
用概念词之间的公共属性数
量衡量它们之间的相似度
将基于距离、基于内容、基于属性三种方法综合计算概念之间的相似度
代表
方法
Shortest Path
[
38
]
、Wu等
[
39
]
、
Weighted Links
[
40
]
、Li等
[
41
]
、
刘群等
[
10
]
Lin
[
42
]
、Resnik
[
43
]
、Lord等
[
44
]
、边振兴
[
45
]
Tversky
[
46
]
葛斌等
[
47
]
、王艳娜等
[
48
]
、李文清等
[
49
]
特点
在计算方法中加入了节点深度、密度、强度、宽度及分类体系
层次等影响因子
计算方法采用不同节点的信息量以及表达信息内容的不同公式
计算效果依赖于本体属性集的完整性
计算方法中权重参数设置大多依赖领域专家