大众性问答社区答案质量排序方法研究

易明, 张婷婷

华中师范大学信息管理学院武汉 430079

Yi Ming^,, Zhang Tingting

School of Information Management, Central China Normal University, Wuhan 430079, China

通讯作者:易明, ORCID: 0000-0002-4864-6025, E-mail: yiming0415@mail.ccnu.edu.cn。

基金资助: *本文系国家社会科学基金项目“基于人类动力学的社交网络信息交流行为研究”(项目编号: 16BTQ076)的研究成果之一;

中图分类号: G350

摘要:

【目的】针对大众性问答社区答案质量参差不齐的现状, 对答案质量排序方法进行探讨。【方法】依据信息接受模型, 从感知价值角度构建答案质量排序初始指标体系; 采用K-Medoids聚类算法对初始指标进行离散化, 同时利用粗糙集理论对初始指标进行约简并赋予权值, 进而修正指标体系; 运用加权灰色关联分析计算答案的加权灰色关联度, 以产生排序结果。【结果】针对“知乎”6类话题下6个问题的2 297条相关数据进行实验分析, 排序靠前的答案通常采用图文结合的表达方式、答案所含信息量高, 且回答者社区参与度较高, 从而答案的质量较高。【局限】数据规模需要扩大, 对排序方法的评价还可以优化。【结论】73名“知乎”用户对原始排序与本研究排序进行满意度评价, 结果表明本文方法具有优越性。

关键词: 大众性问答社区 ; 答案质量排序 ; 感知价值 ; 粗糙集理论 ; 加权灰色关联分析

Abstract:

[Objective] This paper proposes a new method to rank the quality of answers from a popular Q&A community in China. [Methods] First, based on the information acceptance model, we established initial quality indicators for the answer’s perceived values. Then, we discretized these indicators with the K-Medoids clustering algorithm. Third, we reduced and weighted the indictors with the help of rough set theory. Finally, we generated the formal rankings with the weighted grey correlation analysis. [Results] We evaluated the proposed method with 2 297 answers for six different types of questions from the Q&A website of “Zhihu”. We found that the answers ranked higher generally included textual message with images. These answers were also more informative than others and involved active members of the Q&A community. [Limitations] The size of our dataset needs to be expanded, and the evaluation method of the proposed model could be optimized. [Conclusions] The proposed method is an effective way to rank the quality of answers from the Q&A community.

Key words: Common Q&A Community ; Answer Quality Ranking ; Perceived Value ; Rough Set Theory ; Weighted Grey Correlation Analysis

1 引言

大众性问答社区作为一种综合类的生产型知识源, 已经成为用户快速获取知识的重要来源之一。然而, 大众性问答社区的答案由用户创造生成, 而用户却并不一定是某个领域的专家, 因此答案质量参差不齐, 从而引发“知识泛滥”、“知识过载”等问题。科学的知识组织有利于用户快速获取优质答案、减轻认知负担, 从而增加用户黏性。由此, 作为大众性问答社区知识组织的重要方式之一, 答案质量排序便成为实践领域和研究领域共同关注的重要问题。例如, 作为国内知名的大众性问答社区, “知乎”引入“投票机制”, 通过答案的点赞数和反对数结合威尔逊得分算法对答案质量进行排序, 取得了一定效果^[1]。但是, 大众性问答社区的社交属性会造成“投票机制”失灵。当用户回答了某个问题时, 其关注者很有可能为其回答点赞。回答者的关注人数越多, 答案所收到的点赞数越多。同时, 当用户遇到与自身观点相异的回答或许也不会吝惜自己手中的反对票。因此, 仅依据点赞数和反对数进行答案质量排序存在一定局限性。此外, 通过梳理国内外相关文献, 已有研究在答案质量评价因素、答案质量评价方法、实验研究对象选择等方面均存在一定优化空间。由此, 本文在“知乎”社区已有答案质量排序方法和国内外相关研究成果的基础上, 提出一种新的答案质量排序方法, 以期对大众性问答社区知识组织研究进行有益补充。

2 相关研究

从研究现状来看, 答案质量排序方法主要有三种类型。

(1) 人工方法, 即依据答案质量评价因素, 通过人工方式进行评分。例如, Fichman从准确性、完整性、可证实性等三个方面采用人工打分的方式分析Askville、WikiAnswers、Wikipedia Reference Desk、Yahoo!Answers等4个问答社区的答案质量^[2]; Shah等雇佣了5个工作人员, 按照Zhu等提出的13维度质量评估模型(包括相关性、信息量、完整性等)^[3]对Yahoo! Answers的答案质量进行评估^[4]。

(2) 语义模型方法, 即通过构建主题模型、语言模型^[5], 挖掘问答内容中隐含的主题及其概率分布, 发现问题和答案之间的语义关系, 从而实现答案质量排序。例如, Yang等以Stack Overflow为实验研究对象, 利用TEM(Topic Expertise Model), 引入用户之间的链接关系, 得到用户的兴趣分布和专业程度, 进而通过答案主题相似性和用户权威度对候选答案进行排序^[6]; 刘瑜等在此基础上进一步提出RTEM (Related Topic Expertise Model)^[7]; 张成等利用概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)模型表达用户兴趣分别, 进而依据答案和问题之间的主题匹配度对Yahoo! Answers中的答案进行排序^[8]; Guo等利用LDA-DF主题模型发现问题和答案的主题分布、用户的潜在主题兴趣, 然后将这些结果融入到已有答案质量排序方法中以提高Yahoo! Answers的答案质量排序效果^[9]; 来社安等通过计算答案和问题中语言“单位”之间的相似度和对应的权值, 引入HITS算法模型对权值进行调整, 提出一种基于相似度的答案质量评价方法, 并以百度知道为例进行实验分析^[10]。

(3) 分类模型方法, 即利用支持向量机、决策树、逻辑回归、随机森林等方法对答案质量评价因素进行实验分析^[11], 以产生答案质量分类模型。例如, Ginsca等通过分析Stack Overflow中用户特征(如年龄、自我描述、个性肖像等), 利用支持向量机构建分类器筛选出高质量答案^[12]; 孔维泽等综合考虑基于时序的特征、基于问题粒度的特征、基于百度知道特性的用户特征和经典的文本、链接特征, 采用支持向量机构建答案质量分类模型^[13]; 姜雯等提取Yahoo! Answers中答案的文本特征、用户特征、时序特征等, 并提出附加情感标注的回答特征, 利用决策树实现了信息质量自动化分类预测^[14]; John等以Yahoo! Answers为实验研究对象, 利用逻辑回归构建包含社会特征、文本特征以及内容评价特征为指标的质量分类框架^[15]; 李晨等通过提取百度知道中答案文本与非文本特征, 利用逻辑回归构建答案质量分类器^[16]。

国内外学者围绕问答社区答案质量评价问题已经展开了积极探索, 并取得了一定进展, 但是还存在一定拓展空间。

(1) 从答案质量评价因素来看, 人工方法主要利用答案质量评价因素, 语义模型方法主要关注答案特征维度指标, 分类模型方法中部分学者仅考虑回答者维度指标或答案维度指标, 还有部分学者综合利用回答者维度和答案维度的相关指标。考虑到用户利用问答社区获取知识是为了解决其现实问题, 所以在分析答案质量评价因素时应该以用户对于答案解决其现实问题的感知价值为核心。依据信息接受模型的基本结论^[17]: 影响用户感知价值的因素为信息质量和信息源可靠性。前者对应答案特征维度, 后者对应回答者特征维度。所以, 答案质量评价因素应该综合考虑答案和回答者两个角度。此外, 在分析评价因素时, 并没有充分考虑各种指标对于答案质量评价的重要程度, 从而影响排序方法的精确度。

(2) 从答案质量评价方法来看, 人工方法主观性较强, 效率较低; 语义模型方法比较适用于内容丰富的文本, 而问答社区中很多问答内容属于短文本; 分类模型方法将答案质量高低视为二分类问题, 从而影响了分类模型的适用性。

(3) 从实验研究对象选择来看, Yahoo! Answers等国外问答社区是实验研究数据的重要来源, 国内百度知道也有部分学者研究, 而国内较为知名的其他问答社区相对较少。显然, 不仅国内外问答社区之间存在明显差异, 而且国内不同问答社区也有各自的重要特性, 因此, 不同的问答社区会对答案质量评价有着特定的要求。

针对以上不足, 本研究选择国内知名大众性问答社区“知乎”为研究对象, 从答案特征和回答者特征两个维度提炼影响答案质量排序的初始指标体系, 并利用粗糙集理论客观分析初始指标的重要程度, 同时通过知识约简的方法剔除冗余属性以进一步修正指标体系, 最后利用加权灰色关联分析对答案质量进行排序。

3 答案质量排序方法

答案质量排序方法的基本流程如图1所示, 主要包括三个模块: 答案质量排序初始指标体系构建、基于粗糙集理论的指标约简与权重赋值、基于加权灰色关联度的答案质量排序。

图1 答案质量排序技术路线

3.1 答案质量排序初始指标体系构建

依据信息接受模型, 本研究从感知价值角度综合考虑答案特征、回答者特征, 选取14个指标形成答案质量排序初始指标体系, 具体如表1所示。

表1 答案质量排序指标与测度

指标特征	指标名称	英文缩写	指标含义	评价方法
答案特征	图片	image	答案是否包含图片	该指标为类别变量, 答案包含图片, 该变量为1; 答案不包含图片, 该变量为0
	外部链接	link	答案是否包含链接	该指标为类别变量, 答案包含外部链接, 该变量为1; 答案不包含外部链接, 该变量为0
	答案点赞数	vote up	答案所获的点赞数	答案所获点赞投票数
	答案评论数	comment	答案下方的评论数	答案下的评论数量
	答案时效性	time_length	答案发布时间距离问题提问时间长短	答案发布与提问的间隔时间(以“天”为单位)
	答案长度	content_length	答案内容包含的字数	文本中文字数和英文单词数之和
	答案信息熵	entropy	文本所含信息量的多少	以每个问题下对应的答案作为训练语料, 构建unigram一元语言模型, 提取每个答案的信息熵Entropy(r)^[18]
	答案中心度	centrality	答案处于所有答案中心的程度^[19]	以每个问题下对应的所有答案作为训练语料, 构建词语IDF值语料库, 提取每条答案的中心度Centrality(r)
	答案情感值	emotion	带有正面情感的信息有助于增强用户的认同^[20]	基于词的情感分析方法
回答者特征	回答问题数	a_answer_count	迄今为止, 回答者在社区回答的问题数量	回答者历来回答的问题数量
	回答者粉丝数	a_follower_count	回答者在社区的关注者数量	回答者被其他用户关注的数量
	回答者所获点赞数	a_voteup_count	回答者在社区所获得的总点赞数	回答者累积获得的点赞数
	回答者所获感谢数	a_thanked_count	回答者在社区所获得的总感谢数量	用户累积获得的感谢数量
	回答者被收藏数	a_favorited_count	回答者在社区所获得的总收藏数量	用户累积获得的收藏数量

3.2 基于粗糙集理论的指标约简与权重赋值

粗糙集理论的权重确定方法优点是可以在不需要任何先验信息的情况下完成权值计算, 且粗糙集理论提供的知识约简可以在保留关键信息的前提下对大量数据进行挖掘得到知识的最小表达^[21]。依据粗糙集理论, 在对指标赋权值之前, 需要对数据进行离散化处理。连续数据离散化应尽可能满足两点: 连续属性离散化后的空间维数应尽可能小, 连续属性值离散化处理丢失的信息应尽量少^[22]。

(1) 数据离散化

连续数据离散化算法很多, 如等宽区间法、等频区间法、聚类法、信息熵法等。结合“知乎”社区特点以及各种方法的优势, 本研究采用基于K-Medoids算法的数据离散方法^[23], 使用的聚类评价指标是DB指数(Davies-Bouldin Index)^[24]。需要指出的是, 本研究对连续属性是逐一进行离散化的, 而且对每个指标进行探索性聚类分析。通过计算每个指标不同k值下的聚类结果, 结合聚类评价指标DB确定该指标的聚类k值并以此进行离散化。

(2) 粗糙集定权

完成数据离散化处理之后, 根据波兰数学家Pawlak提出的粗糙集理论对指标进行约简和赋值^[25]。假设初始指标体系由m个指标$\left\{ {{c}_{1}},{{c}_{2}},\cdot \cdot \cdot ,{{c}_{m}} \right\}$所构成, 初始指标体系获得n组观测值${{u}_{i}}=$$({{c}_{i1}},{{c}_{i2}},\cdot \cdot \cdot $ ${{c}_{im}};{{d}_{i}})(i=1,2,\cdot \cdot \cdot n)$, 其中d_i是对第i个评价对象的综合评价值。记$U=\left\{ {{u}_{1}},{{u}_{2}},\cdot \cdot \cdot ,{{u}_{n}} \right\}$, $C=\left\{ {{c}_{1}},{{c}_{2}},\cdot \cdot \cdot ,{{c}_{m}} \right\}$, $D=\left\{ d \right\}$, 分别为粗糙集理论中的论域、条件属性集和决策属性集。由于未对n组观测值进行综合评价, 因此$D=\varnothing $。

根据粗糙集理论中属性重要性的概念, 定义指标r在初始指标体系中的重要性如公式(1)^[26]所示。

${{\omega }_{r}}=\frac{\left| po{{s}_{P}}(Q) \right|-\left| po{{s}_{P-\left\{ r \right\}}}(Q) \right|}{\left| U \right|}$ (1)

其中, U为评价对象集合, P、Q为指标的子集合。${{\omega }_{r}}$越大, 表明评价指标对评价结果贡献越大, 若${{\omega }_{r}}=0$, 表明指标r是多余的。

指标r的权重系数计算方法如公式(2)^[26]所示。

${{\lambda }_{r}}=\frac{{{\omega }_{r}}}{\mathop{\sum }_{i\in P}{{\omega }_{i}}}$ (2)

3.3 基于加权灰色关联度的答案质量排序

灰色关联分析法^[27]其原理是将各个答案的属性值与选定的理想值进行对比, 即利用加权的方法测量两个向量的相似度, 和理想答案相似度越高的答案将排序在前, 具体步骤如下:

(1) 对决策信息进行规范化处理。由于各个指标的量纲和数量级不同, 因此在数据分析之前, 需要对数据进行规范化处理。指标主要分为效益型、成本型以及固定型指标。其中, 效益型指标值越大越好, 成本型指标值越小越好, 固定型指标维持某一个数值最好。故对效益型、成本型以及固定型指标原始数据处理如公式(3)-公式(5)^[28]所示, 将决策的评价矩阵$A={{({{\alpha }_{ij}})}_{m\times n}}$标准化为属性值具有相同指向的决策信息矩阵$R={{({{r}_{ij}})}_{m\times n}}$。

对于效益型指标的属性值, 有:

${{r}_{ij}}=\frac{{{\alpha }_{ij}}-\underset{i}{\mathop{\min }}\,{{\alpha }_{ij}}}{\underset{i}{\mathop{\max }}\,{{\alpha }_{ij}}-\underset{i}{\mathop{\min }}\,{{\alpha }_{ij}}}$ (3)

对于成本型指标的属性值, 有:

${{r}_{ij}}=\frac{\underset{i}{\mathop{\max }}\,{{\alpha }_{ij}}-{{\alpha }_{ij}}}{\underset{i}{\mathop{\max }}\,{{\alpha }_{ij}}-\underset{i}{\mathop{\min }}\,{{\alpha }_{ij}}}$ (4)

对于固定型指标的属性值, 有:

${{r}_{ij}}=1-\frac{\left| {{r}_{ij}}-r \right|}{\underset{i}{\mathop{\max }}\,\underset{i}{\mathop{\max }}\,\left\{ \left| {{r}_{ij}}-r \right| \right\}}$ (5)

其中, r为固定型指标r_ij的最优值。

(2) 确定参考序列。确定理想方案数列的原则是在各个指标下选择最优的方案, 以此为参考标准, 其决策信息组合成为理想方案数列。具体而言, 选取答案质量排序指标的最优值作为参考序列${{R}_{o}}=\left\{ {{r}_{o1}},{{r}_{o2}},\cdot \cdot \cdot ,{{r}_{on}} \right\}$, 其中r_oj为第j个指标的最优值。

(3) 计算各个备选方案的决策信息数列与最优方案的数列距离${{\Delta }_{ij}}$, 如公式(6)^[27]所示。

${{\Delta }_{ij}}=d{{({{r}_{oj}},{{r}_{ij}})}_{{}}}i=1,2,\cdot \cdot \cdot ,m\mathrm{;}j=1,2,\cdot \cdot \cdot ,n$ (6)

(4) 计算两数列距离的最大值$({{\Delta }_{\max }})$和最小值$({{\Delta }_{\min }})$如公式(7)-公式(8)^[27]所示。

${{\Delta }_{\max }}=\underset{i,j}{\mathop{\max }}\,{{\Delta }_{ij}}$ (7)

${{\Delta }_{\min }}=\underset{i,j}{\mathop{\min }}\,{{\Delta }_{ij}}$ (8)

(5) 计算理想方案的决策信息数列与各个备选方案数列之间的关联系数, 如公式(9)^[27]所示, 即形成两数列的关联系数矩阵${{({{\xi }_{ij}})}_{m\times n}}$。

${{\xi }_{ij}}=\frac{{{\Delta }_{\min }}+\rho {{\Delta }_{\max }}}{{{\Delta }_{ij}}+\rho {{\Delta }_{\max }}}$ (9)

其中, $\rho \in \left[ 0,1 \right]$表示加权灰色关联分析的分辨系数, 通常$\rho =0.5$。

(6) 计算理想方案的决策信息数列与各个备选方案数列之间的关联程度r_i, 如公式(10)^[29]所示, 与各个指标的权重值相乘得到加权关联度值。

${{r}_{i}}=\underset{i=1}{\overset{n}{\mathop \sum }}\,{{\xi }_{ij}}{{\lambda }_{j}}$ (10)

(7) 根据加权灰色关联度大小进行排序, 从而实现答案质量排序。

4 实验分析

4.1 数据采集与预处理

选取“知乎”社区的法律、互联网、健康、教育、经济学、历史6个话题, 并在每个话题下随机选择1个问题, 共6个问题及其答案构成本文的研究数据。爬取这6个问题下的2 297条回答及其相关信息。每条记录包括答案内容、答案发布时间、回答者昵称、回答者所获点赞数、回答者所获感谢数、回答者被收藏数、回答者回答问题数、回答者粉丝数、回答所对应的题目、问题发布时间、答案在“知乎”问题下的排名等内容。由于有的用户账号被知乎社区停用, 因此无法获取其个人信息, 故删除此种无效数据。实验数据如表2所示。对数据进行清洗, 按照上文方法对指标分别进行量化。

表2 实验数据描述

问题类型	答案数量	实验数据
法律	78	76
互联网	462	451
健康	461	424
教育	1 008	996
经济学	64	61
历史	685	651

4.2 答案质量排序方法应用

考虑到“知乎”社区中问答页面每次只显示20条答案, 因此选取每个问题的前20条答案进行重排序。对某个问题下的所有答案进行离散化处理。以互联网问题为例, 根据K-Medoids聚类结果和评价指标确定指标的聚类k值。聚类详情如表3所示, 当k=2时, DB指标值最小, 为0.064。说明该聚类结果类内距离最小, 类间距离最大, 同时考虑簇类内数据样本量这一衡量标准, 综合考虑确定答案时效性指标离散化为两类。

表3 回答时效指标聚类详情

比较项	k=2	k=3	k=4
聚类类别	#0	#1	#0	#1	#2	#0	#1	#2	#3
数据量	171	280	23	169	259	38	23	259	131
聚类中心点	870	14	344	870	13	910	334	13	869
DB指标	0.064	0.232	0.396

对6个问题数据进行离散化处理, 不同问题下指标数据分布所需离散类别统计结果如表4所示。

表4 各问题离散化类别统计

问题类型	image	link	vote up	comment	time_ length	content_ length	entropy	centrality	emotion	a_answer_ count	a_follower_ count	a_voteup_ count	a_thanked_ count	a_favorited _count
法律	2	2	3	4	3	4	4	3	4	4	2	3	3	2
互联网	2	2	2	4	2	4	3	4	4	3	2	4	2	2
健康	2	2	2	2	4	4	2	3	3	3	2	2	2	2
教育	2	2	3	4	3	4	3	4	4	4	3	3	4	4
经济学	2	2	4	2	4	2	2	2	3	2	2	3	4	3
历史	2	2	2	4	4	3	3	3	4	4	3	2	4	4

根据公式(1)、公式(2)计算各项指标的权重, 6个问题下不同指标的权重值如表5所示。6个问题下的答案所获点赞数、回答者粉丝数、回答者所获点赞数、回答者所获感谢数以及回答者所获收藏数等5个指标的权重系数基本为0, 说明其为冗余指标, 可以删除。此外, 不同问题下的指标受其问题类型、问题答案量、回答者等因素影响, 相同指标的权重值有所不相同, 但在平均权重值上下小范围波动。由此, 可以判断不同“知乎”问题下答案质量排序指标的重要程度具有一定共性, 所以本研究以不同问题下指标权重均值表示所构建指标的一般权重。修正后的9个指标按照平均权重大小排序为: 答案情感值、答案时效性、回答者回答问题数、答案长度、答案信息熵、答案评论数、是否包含图片、答案中心度、是否包含外部链接。

表5 不同问题下指标权重值

问题类型	image	link	vote up	comment	time_ length	content_ length	entropy	centrality	emotion	a_answer _count	a_follower _count	a_voteup _count	a_thanked _count	a_favorited _count
法律	0.038	0.019	0.000	0.132	0.321	0.113	0.094	0.000	0.226	0.057	0.000	0.000	0.000	0.000
互联网	0.090	0.067	0.000	0.056	0.079	0.067	0.067	0.079	0.180	0.169	0.000	0.146	0.000	0.000
健康	0.072	0.072	0.000	0.000	0.186	0.124	0.041	0.093	0.196	0.216	0.000	0.000	0.000	0.000
教育	0.086	0.019	0.022	0.094	0.158	0.117	0.056	0.106	0.167	0.169	0.000	0.000	0.000	0.006
经济学	0.056	0.000	0.056	0.056	0.278	0.000	0.111	0.000	0.389	0.056	0.000	0.000	0.000	0.000
历史	0.037	0.010	0.000	0.058	0.225	0.099	0.079	0.073	0.194	0.183	0.010	0.000	0.021	0.010
平均权重	0.063	0.031	0	0.066	0.208	0.087	0.075	0.059	0.225	0.142	0	0	0	0

利用加权灰色关联分析依次计算同一问题下前20条答案中每个答案与参考序列的关联度。以互联网问题为例, 参考序列为$Y=\{1,1,1051,5,4715,9.07,$ $20.82,0.33,3783\}$, 第一条答案序列${{X}_{1}}=\{0,0,451,22,$, $403,6.85,10.33,0.09,19\}$利用公式(3)至公式(5)对比较序列X和参考序列Y进行规范化处理, 得到无量纲处理后的序列:

${{{X}'}_{1}}=\{0.0,0.0,0.427,0.020,0.080,0.617,0.429,0.273,0.001\}$

${Y}'=\{1.0,1.0,1.000,1.000,1.000,1.000,1.000,1.000,1.000\}$

利用公式(9)计算各个点之间的关联度:

${{\gamma }_{1}}=\{0.333,0.333,0.467,0.962,0.352,0.536,0.451,0.458,0.334\text{ }\!\!\}\!\!\text{ }$, 最后利用公式(10), 根据平均指标权重$\overline{\lambda }=\{0.063,$ $0.031,\text{ }0.066,\text{ }0.208,\text{ }0.087,$$0.075,\text{ }0.059,\text{ }0.225,\text{ }0.142\}$, 求得互联网问题下第一条答案与参考序列Y之间的关联度${{r}_{1}}=0.510$。

4.3 结果分析与对比

以QQ、微信、邮件等方式向具有“知乎”使用经验的用户发送调查问卷。调查问卷包括6个问题下本研究排序和知乎排序结果以及用户满意度评价表。评价表需要被调查者根据回答的相关性、回答的信息量、回答的说服力、回答的有用性等4个方面对排序结果分别给出分值(0-10)。分值越高表示用户的满意度越高。共发放问卷107份, 回收有效问卷73份。73名被调查者对“知乎”社区原始排序结果和本文排序结果的满意度评价均值如表6所示。统计结果表明, 本文排序结果在4个方面均优于“知乎”原有排序结果, 从而表明本文方法的优越性。

表6 用户满意度调查结果

问题类型	对比项目	用户满意度均值
问题类型	对比项目	回答的相关性	回答的信息量	回答的说服力	回答的有用性
法律问题	原始排序	7.11	6.90	7.15	7.05
法律问题	本文排序	7.30	7.16	7.51	7.44
互联网问题	原始排序	7.05	7.11	6.75	7.10
互联网问题	本文排序	7.36	7.42	7.16	7.41
健康问题	原始排序	6.86	7.03	7.00	6.96
健康问题	本文排序	7.29	7.67	7.62	7.47
教育问题	原始排序	7.15	7.16	7.10	6.99
教育问题	本文排序	7.16	7.27	7.27	7.21
经济学问题	原始排序	6.79	7.12	6.92	6.96
经济学问题	本文排序	7.10	7.37	7.01	7.21
历史问题	原始排序	6.95	6.86	7.07	7.05
历史问题	本文排序	7.36	7.36	7.47	7.44

5 结语

本研究以“知乎”为例, 从感知价值角度综合考虑答案特征和回答者特征构建答案质量排序初始指标体系, 利用粗糙集理论客观分析答案质量排序初始指标的重要程度, 同时通过知识约简剔除冗余属性以进一步修正指标体系, 最后利用加权灰色关联分析进行答案质量排序。实验结果表明, 在本研究中排序靠前的答案, 一般图文结合便于用户理解, 答案所含信息量高, 且回答者社区参与度较高, 更符合用户的信息需求。然而, 本文的研究也存在一定缺陷。相比于“知乎”海量的问答数据, 仅以6个话题下各随机选取了1个问题的2 297条相关数据进行实验分析, 数据规模略显不足, 需要在今后的研究中进一步扩大实验数据规模。此外, 排序方法评价主要依据用户的主观满意度调查, 缺少与不同排序模型(如SVMRank)的客观比较, 这将是今后研究的重点。

作者贡献声明

易明: 提出研究思路, 设计研究方案, 论文最终版本修订;

张婷婷: 数据采集与清洗, 进行实验, 起草论文。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: 708966821@qq.com。

[1] 张婷婷. Dataset.csv. 知乎问答数据.

[2] 张婷婷. Resut.csv. 评价结果数据.

参考文献

View Option

[1]	Hosseini M, Moore J, Almaliki M, et al.Wisdom of the Crowd Within Enterprises: Practices and Challenges[J]. Computer Networks, 2015, 90: 121-132. [本文引用:1]
[2]	Fichman P.A Comparative Assessment of Answer Quality on Four Question Answering Sites[J]. Journal of Information Science, 2011, 37(5): 476-486. [本文引用:1]
[3]	Zhu Z, Bernhard D, Gurevych I.A Multi-Dimensional Model for Assessing the Quality of Answers in Social Q&A Sites[C]// Proceedings of the 2009 International Conference on Information Quality.2009: 264-265. [本文引用:1]
[4]	Shah C, Pomerantz J.Evaluating and Predicting Answer Quality in Community QA[C]// Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval.2010: 411-418. [本文引用:1]
[5]	Yan Z, Zhou J.Optimal Answerer Ranking for New Questions in Community Question Answering[J].Information Processing and Management, 2015, 51(1): 163-178. [本文引用:1]
[6]	Yang L, Qiu M, Gottipati S, et al.CQArank: Jointly Model Topics and Expertise in Community Question Answering[C]// Proceedings of the 22nd ACM International Conference on Information & Knowledge Management. 2013: 99-108. [本文引用:1]
[7]	刘瑜, 袁健. 基于RTEM模型的问答社区候选答案排序方法[J]. 电子科技, 2016, 29(5): 130-134. [本文引用:1] (Liu Yu, Yuan Jian.Candidate Answer Sorting Method of Q&A Community Questions Based on RTEM Model[J]. Electronic Science and Technology, 2016, 29(5): 130-134.)
[8]	张成, 曲明成, 倪宁, 等. 基于概率潜在语义分析模型的自动答案选择[J]. 计算机工程, 2011, 37(14): 70-72. [本文引用:1] (Zhang Cheng, Qu Mingcheng, Ni Ning, et al.Automatic Answer Selection Based on Probabilistic Latent Semantic Analysis Model[J]. Computer Engineering, 2011, 37(14): 70-72.)
[9]	Guo L, Hu X.Identifying Authoritative and Reliable Contents in Community Question Answering with Domain Knowledge[C]//Proceedings of the 17th Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2013: 133-142. [本文引用:1]
[10]	来社安, 蔡中民. 基于相似度的问答社区问答质量评价方法[J]. 计算机应用与软件, 2013, 30(2): 266-269. [本文引用:1] (Lai Shean, Cai Zhongmin.Question Answering Quality Evaluation for Community Question Answering Based on Similarity[J]. Computer Applications and Software, 2013, 30(2): 266-269.)
[11]	王伟, 冀宇强, 王洪伟, 等. 中文问答社区答案质量的评价研究: 以知乎为例[J]. 图书情报工作, 2017, 61(22): 36-44. [本文引用:1] (Wang Wei, Ji Yuqiang, Wang Hongwei, et al.Evaluating Chinese Answers’ Quality in the Community QA System: A Case Study of Zhihu[J].Library and Information Service, 2017, 61(22): 36-44.)
[12]	Ginsca A L, Popescu A.User Profiling for Answer Quality Assessment in Q&A Communities[C]//Proceedings of the 2013 Workshop on Data-Driven User Behavioral Modelling and Mining from Social Media.2013: 25-28. [本文引用:1]
[13]	孔维泽, 刘奕群, 张敏, 等. 问答社区中回答质量的评价方法研究[J].中文信息学报, 2011, 25(1): 3-8. [本文引用:1] (Kong Weize, Liu Yiqun, Zhang Min, et al.Answer Quality Analysis on Community Question Answering[J]. Journal of Chinese Information Processing, 2011, 25(1): 3-8.)
[14]	姜雯, 许鑫, 武高峰. 附加情感特征的在线问答社区信息质量自动化评价[J]. 图书情报工作, 2015, 59(4): 100-105. [本文引用:1] (Jiang Wen, Xu Xin, Wu Gaofeng.Online Q&A Community Automatically Information Quality Evaluation with Sentiment Feature[J]. Library and Information Service, 2015, 59(4): 100-105.)
[15]	John B M, Chua A Y K, Goh D H L. What Makes a High-Quality User-Generated Answer?[J]. IEEE Internet Computing, 2011, 15(1): 66-71. [本文引用:1]
[16]	李晨, 巢文涵, 陈小明, 等.中文社区问答中问题答案质量评价和预测[J]. 计算机科学, 2011, 38(6): 230-236. [本文引用:1] (Li Chen, Chao Wenhan, Chen Xiaoming, et al.Quality Evaluation and Prediction for Question and Answer in Chinese Community Question Answering[J]. Computer Science, 2011, 38(6): 230-236.)
[17]	Sussman S W, Siegal W S.Informational Influence in Organizations: An Integrated Approach to Knowledge Adoption[J]. Information Systems Research, 2003, 14(1): 47-65. [本文引用:1]
[18]	王洪伟, 孟园. 在线评论质量有用特征识别: 基于GBDT特征贡献度方法[J]. 中文信息学报, 2017, 31(3): 109-117. [本文引用:1] (Wang Hongwei, Meng Yuan.Helpful Features Identification of Online Reviews Quality Based on GBDT Feature Contribution[J].Journal of Chinese Information Processing, 2017, 31(3): 109-117.)
[19]	Radev D R, Jing H, Styś M, et al.Centroid-Based Summarization of Multiple Documents[J]. Information Processing & Management, 2004, 40(6): 919-938. [本文引用:1]
[20]	Joyce E, Kraut R.Predicting Continued Participation in Newsgroups[J]. Journal of Computer-Mediated Communication, 2006, 11(3): 723-747. [本文引用:1]
[21]	周志远, 沈固朝. 粗糙集理论在情报分析指标权重确定中的应用[J]. 情报理论与实践, 2012, 35(9): 61-65. [本文引用:1] (Zhou Zhiyuan, Shen Guchao.Application of Rough Set Theory in Determining the Weight of Intelligence Analysis Index[J]. Information Studies: Theory&Application, 2012, 35(9): 61-65.)
[22]	张政超, 关欣, 何友, 等. 粗糙集理论数据处理方法及其研究[J]. 计算机技术与发展, 2010, 20(4): 12-16, 20. [本文引用:1] (Zhang Zhengchao, Guan Xin, He You, et al.Rough Sets Data Processing Method and Its Research[J]. Computer Technology and Development, 2010, 20(4): 12-16, 20.)
[23]	张雪萍, 龚康莉, 赵广才. 基于MapReduce的K-Medoids并行算法[J]. 计算机应用, 2013, 33(4): 1023-1025, 1035. [本文引用:1] (Zhang Xueping, Gong Kangli, Zhao Guangcai.Parallel K-Medoids Algorithm Based on MapReduce[J]. Journal of Computer Applications, 2013, 33(4): 1023-1025, 1035.)
[24]	Fahad A, Alshatri N, Tari Z, et al.A Survey of Clustering Algorithms for Big Data: Taxonomy and Empirical Analysis[J]. IEEE Transactions on Emerging Topics in Computing, 2014, 2(3): 267-279. [本文引用:1]
[25]	PawlakZ. Rough Set[J]. International Journal of Computer and Information Sciences, 1982, 11(5): 341-356. [本文引用:1]
[26]	孙晶晶. 基于粗糙集理论的决策表属性约简与规则约简算法研究及相关应用[D]. 郑州: 中国人民解放军信息工程大学, 2005. [本文引用:2] (Sun Jingjing.Research on Attribute Reduction and Rule Reduction Algorithm of Decision Table Based on Rough Set Theory[D]. Zhengzhou: Information Engineering University, 2005.)
[27]	邓聚龙. 灰色系统基本方法[M]. 武汉: 华中理工大学出版社, 1987. [本文引用:4] (Deng Julong.Basic Methods of Grey System[M]. Wuhan: Huazhong University of Science & Technology Press, 1987.)
[28]	于亮, 方志耕, 吴利丰, 等. 基于灰色类别差异特性的评价指标客观权重极大熵配置模型[J]. 系统工程理论与实践, 2014, 3(8): 2065-2070. [本文引用:1] (Yu Liang, Fang Zhigeng, Wu Lifeng, et al.Maximum Entropy Configuration Model of Objective Index Weight Based on Grey Category Characteristics Difference[J]. Systems Engineering- Theory&Practice, 2014, 3(8): 2065-2070.)
[29]	黄涛. 基于灰色关联度分析的模糊群决策方法研究[D].广州: 华南理工大学, 2016. [本文引用:1] (Huang Tao.Research of Fuzzy Multi-Attribute Decision Making Method Based on Grey Correlation Analysis[D]. Guangzhou: South China University of Technology, 2016.)

Wisdom of the Crowd Within Enterprises: Practices and Challenges

2015

... 大众性问答社区作为一种综合类的生产型知识源, 已经成为用户快速获取知识的重要来源之一.然而, 大众性问答社区的答案由用户创造生成, 而用户却并不一定是某个领域的专家, 因此答案质量参差不齐, 从而引发“知识泛滥”、“知识过载”等问题.科学的知识组织有利于用户快速获取优质答案、减轻认知负担, 从而增加用户黏性.由此, 作为大众性问答社区知识组织的重要方式之一, 答案质量排序便成为实践领域和研究领域共同关注的重要问题.例如, 作为国内知名的大众性问答社区, “知乎”引入“投票机制”, 通过答案的点赞数和反对数结合威尔逊得分算法对答案质量进行排序, 取得了一定效果^[1].但是, 大众性问答社区的社交属性会造成“投票机制”失灵.当用户回答了某个问题时, 其关注者很有可能为其回答点赞.回答者的关注人数越多, 答案所收到的点赞数越多.同时, 当用户遇到与自身观点相异的回答或许也不会吝惜自己手中的反对票.因此, 仅依据点赞数和反对数进行答案质量排序存在一定局限性.此外, 通过梳理国内外相关文献, 已有研究在答案质量评价因素、答案质量评价方法、实验研究对象选择等方面均存在一定优化空间.由此, 本文在“知乎”社区已有答案质量排序方法和国内外相关研究成果的基础上, 提出一种新的答案质量排序方法, 以期对大众性问答社区知识组织研究进行有益补充. ...

A Comparative Assessment of Answer Quality on Four Question Answering Sites

2011

... (1) 人工方法, 即依据答案质量评价因素, 通过人工方式进行评分.例如, Fichman从准确性、完整性、可证实性等三个方面采用人工打分的方式分析Askville、WikiAnswers、Wikipedia Reference Desk、Yahoo!Answers等4个问答社区的答案质量^[2]; Shah等雇佣了5个工作人员, 按照Zhu等提出的13维度质量评估模型(包括相关性、信息量、完整性等)^[3]对Yahoo! Answers的答案质量进行评估^[4]. ...

A Multi-Dimensional Model for Assessing the Quality of Answers in Social Q&A Sites

2009

Evaluating and Predicting Answer Quality in Community QA

2010

Optimal Answerer Ranking for New Questions in Community Question Answering

2015

... (2) 语义模型方法, 即通过构建主题模型、语言模型^[5], 挖掘问答内容中隐含的主题及其概率分布, 发现问题和答案之间的语义关系, 从而实现答案质量排序.例如, Yang等以Stack Overflow为实验研究对象, 利用TEM(Topic Expertise Model), 引入用户之间的链接关系, 得到用户的兴趣分布和专业程度, 进而通过答案主题相似性和用户权威度对候选答案进行排序^[6]; 刘瑜等在此基础上进一步提出RTEM (Related Topic Expertise Model)^[7]; 张成等利用概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)模型表达用户兴趣分别, 进而依据答案和问题之间的主题匹配度对Yahoo! Answers中的答案进行排序^[8]; Guo等利用LDA-DF主题模型发现问题和答案的主题分布、用户的潜在主题兴趣, 然后将这些结果融入到已有答案质量排序方法中以提高Yahoo! Answers的答案质量排序效果^[9]; 来社安等通过计算答案和问题中语言“单位”之间的相似度和对应的权值, 引入HITS算法模型对权值进行调整, 提出一种基于相似度的答案质量评价方法, 并以百度知道为例进行实验分析^[10]. ...

CQArank: Jointly Model Topics and Expertise in Community Question Answering

2013

基于RTEM模型的问答社区候选答案排序方法

2016

Candidate Answer Sorting Method of Q&A Community Questions Based on RTEM Model

2016

基于概率潜在语义分析模型的自动答案选择

2011

Automatic Answer Selection Based on Probabilistic Latent Semantic Analysis Model

2011

Identifying Authoritative and Reliable Contents in Community Question Answering with Domain Knowledge

2013

基于相似度的问答社区问答质量评价方法

2013

Question Answering Quality Evaluation for Community Question Answering Based on Similarity

2013

中文问答社区答案质量的评价研究: 以知乎为例

2017

... (3) 分类模型方法, 即利用支持向量机、决策树、逻辑回归、随机森林等方法对答案质量评价因素进行实验分析^[11], 以产生答案质量分类模型.例如, Ginsca等通过分析Stack Overflow中用户特征(如年龄、自我描述、个性肖像等), 利用支持向量机构建分类器筛选出高质量答案^[12]; 孔维泽等综合考虑基于时序的特征、基于问题粒度的特征、基于百度知道特性的用户特征和经典的文本、链接特征, 采用支持向量机构建答案质量分类模型^[13]; 姜雯等提取Yahoo! Answers中答案的文本特征、用户特征、时序特征等, 并提出附加情感标注的回答特征, 利用决策树实现了信息质量自动化分类预测^[14]; John等以Yahoo! Answers为实验研究对象, 利用逻辑回归构建包含社会特征、文本特征以及内容评价特征为指标的质量分类框架^[15]; 李晨等通过提取百度知道中答案文本与非文本特征, 利用逻辑回归构建答案质量分类器^[16]. ...

Evaluating Chinese Answers’ Quality in the Community QA System: A Case Study of Zhihu

2017

User Profiling for Answer Quality Assessment in Q&A Communities

2013

问答社区中回答质量的评价方法研究

2011

Answer Quality Analysis on Community Question Answering

2011

附加情感特征的在线问答社区信息质量自动化评价

2015

Online Q&A Community Automatically Information Quality Evaluation with Sentiment Feature

2015

What Makes a High-Quality User-Generated Answer?

2011

中文社区问答中问题答案质量评价和预测

2011

Quality Evaluation and Prediction for Question and Answer in Chinese Community Question Answering

2011

Informational Influence in Organizations: An Integrated Approach to Knowledge Adoption

2003

... (1) 从答案质量评价因素来看, 人工方法主要利用答案质量评价因素, 语义模型方法主要关注答案特征维度指标, 分类模型方法中部分学者仅考虑回答者维度指标或答案维度指标, 还有部分学者综合利用回答者维度和答案维度的相关指标.考虑到用户利用问答社区获取知识是为了解决其现实问题, 所以在分析答案质量评价因素时应该以用户对于答案解决其现实问题的感知价值为核心.依据信息接受模型的基本结论^[17]: 影响用户感知价值的因素为信息质量和信息源可靠性.前者对应答案特征维度, 后者对应回答者特征维度.所以, 答案质量评价因素应该综合考虑答案和回答者两个角度.此外, 在分析评价因素时, 并没有充分考虑各种指标对于答案质量评价的重要程度, 从而影响排序方法的精确度. ...

在线评论质量有用特征识别: 基于GBDT特征贡献度方法

2017

... 答案质量排序指标与测度

指标特征	指标名称	英文缩写	指标含义	评价方法
答案特征	图片	image	答案是否包含图片	该指标为类别变量, 答案包含图片, 该变量为1; 答案不包含图片, 该变量为0
	外部链接	link	答案是否包含链接	该指标为类别变量, 答案包含外部链接, 该变量为1; 答案不包含外部链接, 该变量为0
	答案点赞数	vote up	答案所获的点赞数	答案所获点赞投票数
	答案评论数	comment	答案下方的评论数	答案下的评论数量
	答案时效性	time_length	答案发布时间距离问题提问时间长短	答案发布与提问的间隔时间(以“天”为单位)
	答案长度	content_length	答案内容包含的字数	文本中文字数和英文单词数之和
	答案信息熵	entropy	文本所含信息量的多少	以每个问题下对应的答案作为训练语料, 构建unigram一元语言模型, 提取每个答案的信息熵Entropy(r)^[18]
	答案中心度	centrality	答案处于所有答案中心的程度^[19]	以每个问题下对应的所有答案作为训练语料, 构建词语IDF值语料库, 提取每条答案的中心度Centrality(r)
	答案情感值	emotion	带有正面情感的信息有助于增强用户的认同^[20]	基于词的情感分析方法
回答者特征	回答问题数	a_answer_count	迄今为止, 回答者在社区回答的问题数量	回答者历来回答的问题数量
	回答者粉丝数	a_follower_count	回答者在社区的关注者数量	回答者被其他用户关注的数量
	回答者所获点赞数	a_voteup_count	回答者在社区所获得的总点赞数	回答者累积获得的点赞数
	回答者所获感谢数	a_thanked_count	回答者在社区所获得的总感谢数量	用户累积获得的感谢数量
	回答者被收藏数	a_favorited_count	回答者在社区所获得的总收藏数量	用户累积获得的收藏数量

3.2 基于粗糙集理论的指标约简与权重赋值

粗糙集理论的权重确定方法优点是可以在不需要任何先验信息的情况下完成权值计算, 且粗糙集理论提供的知识约简可以在保留关键信息的前提下对大量数据进行挖掘得到知识的最小表达^[21].依据粗糙集理论, 在对指标赋权值之前, 需要对数据进行离散化处理.连续数据离散化应尽可能满足两点: 连续属性离散化后的空间维数应尽可能小, 连续属性值离散化处理丢失的信息应尽量少^[22]. ...

Helpful Features Identification of Online Reviews Quality Based on GBDT Feature Contribution

2017

... 答案质量排序指标与测度

指标特征	指标名称	英文缩写	指标含义	评价方法
答案特征	图片	image	答案是否包含图片	该指标为类别变量, 答案包含图片, 该变量为1; 答案不包含图片, 该变量为0
	外部链接	link	答案是否包含链接	该指标为类别变量, 答案包含外部链接, 该变量为1; 答案不包含外部链接, 该变量为0
	答案点赞数	vote up	答案所获的点赞数	答案所获点赞投票数
	答案评论数	comment	答案下方的评论数	答案下的评论数量
	答案时效性	time_length	答案发布时间距离问题提问时间长短	答案发布与提问的间隔时间(以“天”为单位)
	答案长度	content_length	答案内容包含的字数	文本中文字数和英文单词数之和
	答案信息熵	entropy	文本所含信息量的多少	以每个问题下对应的答案作为训练语料, 构建unigram一元语言模型, 提取每个答案的信息熵Entropy(r)^[18]
	答案中心度	centrality	答案处于所有答案中心的程度^[19]	以每个问题下对应的所有答案作为训练语料, 构建词语IDF值语料库, 提取每条答案的中心度Centrality(r)
	答案情感值	emotion	带有正面情感的信息有助于增强用户的认同^[20]	基于词的情感分析方法
回答者特征	回答问题数	a_answer_count	迄今为止, 回答者在社区回答的问题数量	回答者历来回答的问题数量
	回答者粉丝数	a_follower_count	回答者在社区的关注者数量	回答者被其他用户关注的数量
	回答者所获点赞数	a_voteup_count	回答者在社区所获得的总点赞数	回答者累积获得的点赞数
	回答者所获感谢数	a_thanked_count	回答者在社区所获得的总感谢数量	用户累积获得的感谢数量
	回答者被收藏数	a_favorited_count	回答者在社区所获得的总收藏数量	用户累积获得的收藏数量

3.2 基于粗糙集理论的指标约简与权重赋值

Centroid-Based Summarization of Multiple Documents

2004

... 答案质量排序指标与测度

指标特征	指标名称	英文缩写	指标含义	评价方法
答案特征	图片	image	答案是否包含图片	该指标为类别变量, 答案包含图片, 该变量为1; 答案不包含图片, 该变量为0
	外部链接	link	答案是否包含链接	该指标为类别变量, 答案包含外部链接, 该变量为1; 答案不包含外部链接, 该变量为0
	答案点赞数	vote up	答案所获的点赞数	答案所获点赞投票数
	答案评论数	comment	答案下方的评论数	答案下的评论数量
	答案时效性	time_length	答案发布时间距离问题提问时间长短	答案发布与提问的间隔时间(以“天”为单位)
	答案长度	content_length	答案内容包含的字数	文本中文字数和英文单词数之和
	答案信息熵	entropy	文本所含信息量的多少	以每个问题下对应的答案作为训练语料, 构建unigram一元语言模型, 提取每个答案的信息熵Entropy(r)^[18]
	答案中心度	centrality	答案处于所有答案中心的程度^[19]	以每个问题下对应的所有答案作为训练语料, 构建词语IDF值语料库, 提取每条答案的中心度Centrality(r)
	答案情感值	emotion	带有正面情感的信息有助于增强用户的认同^[20]	基于词的情感分析方法
回答者特征	回答问题数	a_answer_count	迄今为止, 回答者在社区回答的问题数量	回答者历来回答的问题数量
	回答者粉丝数	a_follower_count	回答者在社区的关注者数量	回答者被其他用户关注的数量
	回答者所获点赞数	a_voteup_count	回答者在社区所获得的总点赞数	回答者累积获得的点赞数
	回答者所获感谢数	a_thanked_count	回答者在社区所获得的总感谢数量	用户累积获得的感谢数量
	回答者被收藏数	a_favorited_count	回答者在社区所获得的总收藏数量	用户累积获得的收藏数量

3.2 基于粗糙集理论的指标约简与权重赋值

Predicting Continued Participation in Newsgroups

2006

... 答案质量排序指标与测度

指标特征	指标名称	英文缩写	指标含义	评价方法
答案特征	图片	image	答案是否包含图片	该指标为类别变量, 答案包含图片, 该变量为1; 答案不包含图片, 该变量为0
	外部链接	link	答案是否包含链接	该指标为类别变量, 答案包含外部链接, 该变量为1; 答案不包含外部链接, 该变量为0
	答案点赞数	vote up	答案所获的点赞数	答案所获点赞投票数
	答案评论数	comment	答案下方的评论数	答案下的评论数量
	答案时效性	time_length	答案发布时间距离问题提问时间长短	答案发布与提问的间隔时间(以“天”为单位)
	答案长度	content_length	答案内容包含的字数	文本中文字数和英文单词数之和
	答案信息熵	entropy	文本所含信息量的多少	以每个问题下对应的答案作为训练语料, 构建unigram一元语言模型, 提取每个答案的信息熵Entropy(r)^[18]
	答案中心度	centrality	答案处于所有答案中心的程度^[19]	以每个问题下对应的所有答案作为训练语料, 构建词语IDF值语料库, 提取每条答案的中心度Centrality(r)
	答案情感值	emotion	带有正面情感的信息有助于增强用户的认同^[20]	基于词的情感分析方法
回答者特征	回答问题数	a_answer_count	迄今为止, 回答者在社区回答的问题数量	回答者历来回答的问题数量
	回答者粉丝数	a_follower_count	回答者在社区的关注者数量	回答者被其他用户关注的数量
	回答者所获点赞数	a_voteup_count	回答者在社区所获得的总点赞数	回答者累积获得的点赞数
	回答者所获感谢数	a_thanked_count	回答者在社区所获得的总感谢数量	用户累积获得的感谢数量
	回答者被收藏数	a_favorited_count	回答者在社区所获得的总收藏数量	用户累积获得的收藏数量

3.2 基于粗糙集理论的指标约简与权重赋值

粗糙集理论在情报分析指标权重确定中的应用

2012

... 粗糙集理论的权重确定方法优点是可以在不需要任何先验信息的情况下完成权值计算, 且粗糙集理论提供的知识约简可以在保留关键信息的前提下对大量数据进行挖掘得到知识的最小表达^[21].依据粗糙集理论, 在对指标赋权值之前, 需要对数据进行离散化处理.连续数据离散化应尽可能满足两点: 连续属性离散化后的空间维数应尽可能小, 连续属性值离散化处理丢失的信息应尽量少^[22]. ...

Application of Rough Set Theory in Determining the Weight of Intelligence Analysis Index

2012

粗糙集理论数据处理方法及其研究

2010

Rough Sets Data Processing Method and Its Research

2010

基于MapReduce的K-Medoids并行算法

2013

... 连续数据离散化算法很多, 如等宽区间法、等频区间法、聚类法、信息熵法等.结合“知乎”社区特点以及各种方法的优势, 本研究采用基于K-Medoids算法的数据离散方法^[23], 使用的聚类评价指标是DB指数(Davies-Bouldin Index)^[24].需要指出的是, 本研究对连续属性是逐一进行离散化的, 而且对每个指标进行探索性聚类分析.通过计算每个指标不同k值下的聚类结果, 结合聚类评价指标DB确定该指标的聚类k值并以此进行离散化. ...

Parallel K-Medoids Algorithm Based on MapReduce

2013

A Survey of Clustering Algorithms for Big Data: Taxonomy and Empirical Analysis

2014

Rough Set

1982

... 完成数据离散化处理之后, 根据波兰数学家Pawlak提出的粗糙集理论对指标进行约简和赋值^[25].假设初始指标体系由m个指标$\left\{ {{c}_{1}},{{c}_{2}},\cdot \cdot \cdot ,{{c}_{m}} \right\}$所构成, 初始指标体系获得n组观测值${{u}_{i}}=$$({{c}_{i1}},{{c}_{i2}},\cdot \cdot \cdot $ ${{c}_{im}};{{d}_{i}})(i=1,2,\cdot \cdot \cdot n)$, 其中d_i是对第i个评价对象的综合评价值.记$U=\left\{ {{u}_{1}},{{u}_{2}},\cdot \cdot \cdot ,{{u}_{n}} \right\}$, $C=\left\{ {{c}_{1}},{{c}_{2}},\cdot \cdot \cdot ,{{c}_{m}} \right\}$, $D=\left\{ d \right\}$, 分别为粗糙集理论中的论域、条件属性集和决策属性集.由于未对n组观测值进行综合评价, 因此$D=\varnothing $. ...

基于粗糙集理论的决策表属性约简与规则约简算法研究及相关应用

2005

... 根据粗糙集理论中属性重要性的概念, 定义指标r在初始指标体系中的重要性如公式(1)^[26]所示. ...

... 指标r的权重系数计算方法如公式(2)^[26]所示. ...

Research on Attribute Reduction and Rule Reduction Algorithm of Decision Table Based on Rough Set Theory

2005

... 根据粗糙集理论中属性重要性的概念, 定义指标r在初始指标体系中的重要性如公式(1)^[26]所示. ...

... 指标r的权重系数计算方法如公式(2)^[26]所示. ...

1987

... 灰色关联分析法^[27]其原理是将各个答案的属性值与选定的理想值进行对比, 即利用加权的方法测量两个向量的相似度, 和理想答案相似度越高的答案将排序在前, 具体步骤如下: ...

... (3) 计算各个备选方案的决策信息数列与最优方案的数列距离${{\Delta }_{ij}}$, 如公式(6)^[27]所示. ...

... (4) 计算两数列距离的最大值$({{\Delta }_{\max }})$和最小值$({{\Delta }_{\min }})$如公式(7)-公式(8)^[27]所示. ...

... (5) 计算理想方案的决策信息数列与各个备选方案数列之间的关联系数, 如公式(9)^[27]所示, 即形成两数列的关联系数矩阵${{({{\xi }_{ij}})}_{m\times n}}$. ...

1987

... (3) 计算各个备选方案的决策信息数列与最优方案的数列距离${{\Delta }_{ij}}$, 如公式(6)^[27]所示. ...

... (4) 计算两数列距离的最大值$({{\Delta }_{\max }})$和最小值$({{\Delta }_{\min }})$如公式(7)-公式(8)^[27]所示. ...

... (5) 计算理想方案的决策信息数列与各个备选方案数列之间的关联系数, 如公式(9)^[27]所示, 即形成两数列的关联系数矩阵${{({{\xi }_{ij}})}_{m\times n}}$. ...

基于灰色类别差异特性的评价指标客观权重极大熵配置模型

2014

... (1) 对决策信息进行规范化处理.由于各个指标的量纲和数量级不同, 因此在数据分析之前, 需要对数据进行规范化处理.指标主要分为效益型、成本型以及固定型指标.其中, 效益型指标值越大越好, 成本型指标值越小越好, 固定型指标维持某一个数值最好.故对效益型、成本型以及固定型指标原始数据处理如公式(3)-公式(5)^[28]所示, 将决策的评价矩阵$A={{({{\alpha }_{ij}})}_{m\times n}}$标准化为属性值具有相同指向的决策信息矩阵$R={{({{r}_{ij}})}_{m\times n}}$. ...

Maximum Entropy Configuration Model of Objective Index Weight Based on Grey Category Characteristics Difference

2014

基于灰色关联度分析的模糊群决策方法研究

2016

... (6) 计算理想方案的决策信息数列与各个备选方案数列之间的关联程度r_i, 如公式(10)^[29]所示, 与各个指标的权重值相乘得到加权关联度值. ...

Research of Fuzzy Multi-Attribute Decision Making Method Based on Grey Correlation Analysis

2016

... (6) 计算理想方案的决策信息数列与各个备选方案数列之间的关联程度r_i, 如公式(10)^[29]所示, 与各个指标的权重值相乘得到加权关联度值. ...