基于语义关联规则的试题知识点标注及试题推荐*

doi:10.11925/infotech.2096-3467.2019.0620

基于语义关联规则的试题知识点标注及试题推荐^*

魏伟¹^,², 郭崇慧^,^,², 邢小宇²

¹郑州大学能源-环境-经济研究中心郑州 450001

²大连理工大学系统工程研究所大连 116024

Annotating Knowledge Points & Recommending Questions Based on Semantic Association Rules

Wei Wei¹^,², Guo Chonghui^,^,², Xing Xiaoyu²

¹Center for Energy, Environment & Economy Research, Zhengzhou University, Zhengzhou 450001, China

²Institution of Systems Engineering, Dalian University of Technology, Dalian 116024, China

通讯作者: 郭崇慧, ORCID: 0000-0002-5155-1297, E-mail:dlutguo@dlut.edu.cn。

收稿日期: 2019-06-6 修回日期: 2019-08-2 网络出版日期: 2020-02-25

基金资助:

*本文系国家自然科学基金项目“电子病历挖掘中的聚类模型与算法研究”. 71771034
揭阳市科技计划项目“大数据驱动的中药材产业决策支持系统”的研究成果之一. 2017xm041

Received: 2019-06-6 Revised: 2019-08-2 Online: 2020-02-25

摘要

【目的】 在线教育资源中存在大量未标注知识点的试题,探究对试题知识点进行自动标注。【方法】 通过引入文本语义概念,考虑待标注试题与学习规则之间的语义匹配程度,提出一种基于语义关联规则的试题知识点自动标注方法和基于知识点间关联特性的个性化试题推荐方法。【结果】 以部分初中数学和高中历史试题为实验语料,分别与朴素贝叶斯、K最近邻、随机森林以及支持向量机等经典分类方法进行实验对比,发现本文方法的标注准确度优于其他方法。【局限】 该方法对于试题的语义理解不够深入,使得整体的准确度仍然较低,与期望的标注准确度还有一定差距。【结论】 知识点自动标注方法和个性化试题推荐方法在现阶段以及未来的智能教学和自主学习方面具有一定的实际应用价值。

关键词： 知识点标注 ; 语义关联规则 ; 在线学习 ; 个性化推荐

Abstract

[Objective] This paper proposes a method automatically annotating the knowledge points of test questions from online education resources.[Methods] First, we introduced the concept of text semantics to establish new association rules. Then, considering the semantic matching degrees between the target questions and the rules, we proposed an automatic method for knowledge point annotation. Finally, we presented a personalized question recommendation mechanism.[Results] We examined the proposed method with test questions from middle school mathematics and high school history courses. We also compared our model’s labeling accuracy with naive Bayes, K nearest neighbor, random forest and support vector machine, and yielded better results.[Limitations] The understanding of the semantics of test questions and the labeling accuracy could be further improved.[Conclusions] The knowledge point annotation and the personalized question recommendation methods could improve smart teaching and online learning.

Keywords： Knowledge ; Point ; Annotation ; Semantic ; Association ; Rules ; Online ; LearningPersonalized ; Recommendation

PDF (1343KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

魏伟, 郭崇慧, 邢小宇. 基于语义关联规则的试题知识点标注及试题推荐^*. 数据分析与知识发现[J], 2020, 4(2/3): 182-191 doi:10.11925/infotech.2096-3467.2019.0620

Wei Wei. Annotating Knowledge Points & Recommending Questions Based on Semantic Association Rules. Data Analysis and Knowledge Discovery[J], 2020, 4(2/3): 182-191 doi:10.11925/infotech.2096-3467.2019.0620

1 引言

随着信息技术的快速发展,以互联网和信息技术为支撑的新兴在线学习模式已成为教学与学习的新选择。在线学习的发展能够克服地域差异,改善教育资源分布不均衡问题,提高教学和学习质量。目前的在线学习发展存在一些不足。网络中数据信息量急剧扩增,用户面临着如何从大量信息中找到适合的高质量资源的问题;大多自主学习平台对所有用户采用统一的试题模板,并没有考虑到不同用户的能力和需求差异;传统在线学习平台大多只是提供相关学习资源（如视频、音频、文档等资料）和在线测试等功能,并没有针对性地加入教师的指导、监督功能等,致使用户学习效率变低。

知识的组织可分为4个层次,从上到下依次为学科、知识领域、知识单元和知识点^[1]。在教育领域中,对于知识体系的掌握可以分解为对知识点和知识点之间逻辑关系的掌握^[2],并且以知识点为单位进行学习符合人类的认知规律^[3]。学习资源不断被创造和改变,而学习资源所在学科对应的知识点基本保持不变,因此,学习资源都应该紧紧围绕不同学科对应的全局知识点体系进行设计。现有的海量学习资源并没有明显的知识点标注,这给用户有效选择学习资源带来了极大阻碍。鉴于此,本文针对学习资源中的文本类型试题的知识点自动标注问题和个性化试题推荐问题进行研究。对学习资源对应的知识点进行自动化标注,一方面能够帮助学习者更有效地查漏补缺,减少无目的性的重复性学习,另一方面能够帮助教育工作者对教育资源进行高效的组织和管理。

2 相关研究

标注是为相关数据或者信息添加其他更多的有效信息。在图书情报学领域,标注得到了较好的发展和应用,通常所说的“标注”指标注的结果^[4]。所有标注的建立,都是在一定情境下的标注数据和被标注数据之间的关联^[5]。标注可以划分为传统网络标注、大众标注和语义标注三类^[5]。标注的任务包括词语词性标注^[6]、语义角色标注^[7,8]、文档类别标注^[9]、图像标注^[10]、用户特性标注^[11]、社会标注^[12]等。目前关于学习资源中的试题知识点标注的研究相对较少。

文献[13]通过分析领域本体知识的语义环境和资源文档结构两方面信息,利用领域本体所表达的语义环境信息,实现了对农业领域中各类文档资源的语义标注,并提出一种基于本体的文档语义标注改进方法。有学者针对语音数据标注问题,通过引入6元组模型,提出一种“兴趣+收获+报酬”的三位一体的标注方案,并建立一种标注质量控制机制,成功实现了大数据语音语料库的社会标注^[14]。也有学者提出一种基于增量层次分析法的学习资源多标签标注方法,根据标签-资源信息构建学习资源多标签标注模型,然后利用层次分析法进行关联程度值处理,选取与学习资源相关程度最大的若干个标签作为标注标签^[15]。上述研究在一定程度上实现了基于语义的资源标注,方便用户检索资源并提升学习效率。但在实现过程中涉及大量的专家知识和一些人为主观操作,并且模型对海量数据的适应性不够。如何根据已有的大量学习资源自动地学习并生成有效规则,对新的试题进行相应（多）知识点标注是智能教育领域中的关键问题。

在实际的在线学习活动中,一般的在线学习推荐平台只是根据用户在线的答题错误记录,基于协同过滤、认知诊断或者模糊树匹配方法^[16,17],提供或者推荐与错题极其相似的试题^[18,19,20]。这样的推荐结果很可能导致用户重复做相似或者相同的试题,而忽略了试题背后所考察的知识点以及知识点组合,降低了用户的学习效率。在题干和知识点对应的关系中,特定的题干对应特定的知识点,而对于同一知识点,题干的组织方式多种多样,所用语言也千变万化,并且题干相似的试题所考察的知识点可能不同,所以试题推荐可以优先结合考虑试题所考察的固定知识点的相似性并辅助结合试题题干的相似性进行推荐。

结合在线学习平台上的大量学习资源,即已完成人工知识点标注的试题数据和未标注的试题数据,本文提出一种基于语义关联规则的试题知识点自动标注方法（Knowledge Point Annotation based on Semantic Association Rules,KPA-SAR）,利用已标注的试题数据生成有效规则,然后利用生成的规则对待标注试题进行（多）知识点标注。此外,对于用户的错题记录,本文提出一套个性化试题推荐框架,能够对特定用户进行个性化试题推荐。

3 试题知识点标注模型

3.1 有效规则生成

为生成试题内容与知识点之间的关联关系,需要对已有标注试题的内容与对应知识点之间的关联关系进行挖掘,本文基于关联规则方法进行有效规则的挖掘。有效规则生成过程主要包括4个阶段,分别是试题文本预处理、多重知识点分割、频繁项集挖掘以及有效规则挖掘,如图1所示。每道试题内容最多包含三个部分,即试题文档（Document）、试题题干（Question）及其相应的试题选项（Options）,其中只有材料题这一题型的试题才有试题文档,如英文阅读理解、语文文言文阅读、政治案例分析、历史材料分析题等;试题题干是所有类型试题都包含的部分,即试题的问题部分;试题选项一般表示选择题对应的所有选项。每道试题后的 $KP$ 表示试题所对应的知识点, $w$ 表示每道试题分词后的词语特征, $supp$ 表示特定规则在整个语料库中的支持度, $conf$ 表示特定规则的置信度。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 有效规则生成流程

Fig.1 Generation Process of Effective Rules

（1）试题文本预处理阶段主要包含三个预处理任务,分别为分词、词性筛选以及去停用词,如图2所示。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 文本预处理流程

Fig.2 Schematic Illustration of Text Preprocessing

对于分词任务,在搜狗细胞词库中搜集相关专业词汇,构建专业领域词典,辅助ICTCLAS系统^[21]进行分词操作;分词结果中会出现许多原本属于同一个词而被错分为多个词的情况,如“一元一次方程”被分成“一元”、“一次”和“方程”三个粒度较小的词。为保证分词后语义的准确性,采用信息熵方法对分词后的结果进行词合并 ^[22]。将满足条件的两个词合并为新的组合词,人工筛选组合词后添加到专业领域词典中,再次对原试题集分词,重复多次。对于词性筛选任务,选取有明确语义概念的实词,如名词、具有名词功能的动词、具有名词功能的形容词、动词性惯用语以及相关数学符号作为研究对象。对于去停用词任务,选取领域内无实际价值的实词（如“问题”、“概念”、“运用”等）构建本领域停用词词典,然后处理后的试题集进行去停用词操作。最后,每道试题都通过一组词语特征集合表示出来。

（2）一道试题可能包含多个知识点,为挖掘试题内容与单个知识点间的关联关系,将一道试题的多个知识点进行分解,分解为一道试题对应单个知识点。如此,涵盖 $K$ 个知识点的一道试题被分解为 $K$ 个单知识点的试题,并且这 $K$ 个知识点对应同一个原始试题。

（3）基于上述处理好的所有试题以及对应的单一知识点,将每道试题对应的特征词集以及知识点看作一组由词项形成的事务集合,仿照关联规则方法,找到所有事务集合中满足最小支持度的所有频繁项集。显然这个过程会忽略那些出现次数较少但是又不可或缺的知识点。为保证在频繁项集中能够包含上述这些知识点,可以设定不同的知识点具有不同的最小支持度阈值。依据Agrawal等^[23]提出的关联规则挖掘方法中的定义, $TDB = {T_{1}, T_{2}, \dots, T_{n}}$ 表示一组事务集合,每一个事务 $T_{i} = {i_{1}, i_{2}, \dots, i_{m}}$ 包含的所有项来自于整个事务集合所有项组成的并集 $I = {i_{1}, i_{2}, \dots, i_{p}}$ ,其中 $p \geq m$ , $T_{i} \subseteq I$ 。项集 $X$ 包含 $k$ 个词项,称 $X$ 为 $k$ -项集。项集 $X$ 在事务集合 $T$ 中的支持度 $supp (X)$ 定义为： $TDB$ 中包含项集 $X$ 的所有事务个数占总事务个数的比例,如公式（1）所示。

(1)

supp (X) = | {T_{i} \in I; X \subseteq T_{i}} | / | TDB |

其中, $| {T_{i} \in I; X \subseteq T_{i}} |$ 表示包含项集 $X$ 的事务个数, $|TDB|$ 表示事务集合中事务的总数。如果一个项集的支持度大于规定阈值,则称为频繁项集。

（4）从频繁项集中挖掘出试题内容与知识点之间对应的有效规则是整个过程中最重要的环节。置信度是用来度量生成规则可信程度的重要指标。一个规则 $X \Rightarrow Y$ 的置信度表示在项集 $X$ 发生的情况下 $Y$ 可能发生的概率,如公式（2）所示。

(2)

conf (X \Rightarrow Y) = \frac{supp (X ⋃ Y)}{supp (X)}

其中,项集 $X$ 表示规则的前件,项 $Y$ 表示规则的后件。生成的规则中,必须保证规则前件是试题内容提取出来的特征项组成的集合,后件是知识点集合中的某一项,并且规则的置信度大于设定的阈值。最后,在满足上述筛选条件的候选规则集中,对于任意的两个候选规则 $rul e_{i}$ 和 $rul e_{j}$ ,其中 $rul e_{i}$ 为 $rul e_{i}_l h s \Rightarrow rul e_{i}_r h s, \sup p_{i}, con f_{i}$ ; $rul e_{j}$ 为 $rul e_{j}_l h s \Rightarrow$ $rul e_{j}_r h s, \sup p_{j}, con f_{j}$ 。 $rule_l h s$ 表示规则前件, $rule_r h s$ 表示规则后件, $supp$ 和 $conf$ 分别表示对应规则的支持度和置信度,如果 $rul e_{i}_r h s = rul e_{j}_r h s$ 且 $rul e_{i}_l h s \subseteq rul e_{j}_l h s$ ,则移除 $rul e_{i}$ 并保留 $rul e_{j}$ 。

经过上述4个阶段,可以从已标注试题集中挖掘出有效的规则集,利用这些有效的规则集,辅助后续阶段的知识点标注任务。

3.2 知识点标注模型

根据生成的有效规则集,可以对未标注的试题进行知识点标注。知识点标注主要包括三个步骤,分别是特征抽取、文本语义相似性计算以及运用标注模型进行标注,如图3所示。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 知识点标注流程

Fig.3 Knowledge Point Annotation Process

特征抽取过程中,同样用ICTCLAS对试题内容进行分词处理,分词过程中,除了有效规则生成阶段中已经生成的领域词典外,将生成的有效规则集中的前件词项也作为专业词加入到领域词典中辅助分词,这样可以使得分词更为准确。分词完成之后,借助哈尔滨工业大学社会计算与信息检索研究中心提供的“同义词词林”等外部资源^[24]进行语义相近词的匹配,并将语义相近的词替换为在有效规则集的前件中出现的特征词。最后,同样选取名词、具有名词功能的动词、具有名词功能的形容词、动词性惯用语以及相关数学符号作为抽取出来的特征。

文本语义相似性计算阶段,需要计算有效规则集中每条规则的前件与待标注试题内容语义相似度。对于任意一个待标注试题,计算试题内容的特征词词项集合 $dat a_{i} = {w_{i, 1}, w_{i, 2}, \dots, w_{i, ni}}, i = 1, \dots, n$ 与规则集中任一条规则的前件词项集合 $rul e_{j}_l h s = {w_{j, 1}, w_{j, 2}, \dots, w_{j, rj}}, j = 1, \dots, M$ 的语义相似性,如公式（3）所示。

(3)

\begin{array}{l} si m_{j} = sim (dat a_{i}, rul e_{j}_l h s) \\ = | d at a_{i} ⋂ rul e_{j}_l h s | / \max {| dat a_{i} |, | rul e_{j}_l h s |} \end{array}

其中, $| dat a_{i} |$ 和 $| rul e_{j}_l h s |$ 分别表示 $dat a_{i}$ 和 $rul e_{j}_l h s$ 中词项的个数, $| dat a_{i} ⋂ rul e_{j}_l h s |$ 表示两者交集中词项的个数。

依据上一任务得到的每一条规则对应的支持度和置信度,以及待标注试题 $dat a_{i}$ 与每条规则前件的语义相似性 $sim$ 这三个指标,本文提出一种知识点标注模型。

对有效规则集中的支持度和置信度分别进行归一化,如公式（4）所示。

(4)

\sup p_{j} = \frac{\sup p_{j}}{\max_{t = 1, \dots, M} \sup p_{t}}

con f_{j} = \frac{con f_{j}}{\max_{t = 1, \dots, M} con f_{t}}

j = 1, \dots, M

依据每条规则的两个归一化的指标,组合成一个新的规则指标,如公式（5）所示。

(5)

\begin{array}{l} pro p_{j} = f (\sup p_{j}, con f_{j}) = (\sup p_{j} + con f_{j}) / 2, \\ j = 1, \dots, M \end{array}

根据有效规则集中每条规则与待标注试题 $dat a_{i}$ 的语义相似性大小,得到规则集中与 $dat a_{i}$ 相似性最大的一条规则或者多条规则组成的索引集合 $index 1_{i}$ 。同样地,根据有效规则集中每条规则的规则指标 $pro p_{j}, j = 1, \dots, M$ ,得到规则集中 $prop$ 最大的一条规则或者多条规则组成的另一个索引集合 $index 2$ 。依据这两个不同的索引指标集合以及规则选择条件,如公式（6）所示。

(6)

rule_index = \{\begin{array}{l} index 2 if | index 1_{i} | = M \\ index 1_{i} if index 1_{i} ⋂ index 2 = \emptyset and | index 1_{i} | < M \\ index 1_{i} ⋂ index 2, if index 1_{i} ⋂ index 2 \neq \emptyset and | index 1_{i} | < M \end{array}

可以从中选择出最适合待标注试题 $dat a_{i}$ 对应的规则,并根据选择出的规则赋予该待标注试题相应的知识点。 $| index 1_{i} | = M$ 表示有效规则集中每条规则的前件与 $dat a_{i}$ 的语义相似性都相同,在这个特殊条件下,将具有最大规则指标 $prop$ 的有效规则对应的知识点作为待标注试题的知识点。换句话说,将有效规则集中最容易发生的知识点标注给 $dat a_{i}$ 。 $index 1_{i} ⋂ index 2 \neq \emptyset$ 表示存在一个或者多个同时具有最高语义相似性 $sim$ 和最高规则指标 $prop$ 的有效规则。这种情况下,将相应的有效规则对应的知识点标注给 $dat a_{i}$ 。在 $index 1_{i} ⋂ index 2 = \emptyset$ 的情况下,优先考虑将有效规则集中与待标注试题语义相似性最大的有效规则 $in d ex 1_{i}$ 对应的知识点赋予 $dat a_{i}$ 。

4 试题知识点标注实验

选取某在线教育机构提供的初中三年级数学和高中历史中已标注的试题作为实验数据集。数学类数据集总共包含2 248道已标注的试题,共167个不同的知识点,每道试题平均有1.61个知识点;历史类数据集总共包含3 483道已标注试题,对应366个不同的知识点,每道试题平均有1.09个知识点。暂时不考虑纯文本工具不能识别的数学试题中的图形和公式符号信息以及历史试题中的图片信息,单纯用试题中的文本数据及可识别的符号数据进行知识点标注实验。

将试题知识点标注看作一个多标签分类问题处理时,即每个知识点表示一个不同的类别,一个试题可能包含有多个知识点标签,则可以用数据挖掘中经典的4种分类方法：朴素贝叶斯（Naïve Bayes）、K最近邻（KNN）、随机森林（Random Forest）以及支持向量机（SVM）,进行知识点标注任务。处理过程中,采用10折交叉验证方法进行处理,并用10组数据实验的平均准确度衡量不同分类方法标注的准确度,如公式（7）所示。

（7）

Accuracy (met h o d_{i}) = | labeled ⋂ test | / | test |

其中,分子表示标注正确的样本数量,分母表示测试样本的总数量。4种对比方法在两类语料上的分类准确度以及本文所提方法（KPA-SAR）的分类准确度结果如图4所示,标注结果实例如表1所示。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 基于语义关联规则的知识点标注方法与分类方法的准确度对比

Fig.4 Accuracy Comparison of the KPA-SAR with Some Classification Methods

表1 试题标注实例

Table 1 Annotation Examples of Some Questions

实例	试题	标注结果	真实结果	评价
1	函数 $f$ (x)= $\sqrt[]{m x^{2} - 6 x + m + 8}$ 的定义域为R,则m的取值范围是（） A.m≥1或m≤-9 B.m≥1 C.-9≤m≤1 D.0<m≤1	函数定义域; 函数值域	函数定义域	正确
2	已知函数 $f (x) = x^{3} + a x^{2} + b$ 的图像在点P(1,0)处的切线与直线 $3 x + y = 0$ 平行．求函数 $f (x)$ 在区间[-2,4]上的最小值和最大值．	函数值域	导数的概念; 导数的几何意义	错误
3	中国古代的专制主义之“体”,始终存在着监察、谏议和封驳制度,并通过“微服私访”、“采诗观风”、公开巡视,设置“谏鼓谤木”等机制进行民间政治信息的收集,这些制度和机制 A.有利于决策的科学性和民主性 B.避免了专制主义的危害和弊端 C.杜绝了决策的主观性和随意性 D.有效保证了官僚机构的廉洁和效率	古代中国政治制度的特点	古代中国政治制度的特点;中国古代的中央集权制度	正确

新窗口打开| 下载CSV

实验结果表明,基于语义关联规则的试题知识点标注方法的标注准确度明显优于其他经典分类方法得到的分类标注结果。KPA-SAR的平均准确度（数学语料54.93%,历史语料72.50%）相比于其他4种方法的平均准确度：朴素贝叶斯（数学语料26.06%,历史语料57.83%）、KNN（数学语料18.73%,历史语料34.25%）、随机森林（数学语料7.96%,历史语料13.25%）和SVM（数学语料22.15%,历史语料36.99%）,有较大提升。分类方法下较差的实验结果说明学习资源中试题知识点标注问题不仅仅是一个简单的多标签分类问题,更是背后的语义关联问题。而数据挖掘中现有的分类方法并不能有效地挖掘试题题干与其对应知识点间的语义关联关系。基于语义的关联规则能够在挖掘有效规则的基础上,利用规则前件与待标注试题题干的文本语义相似性程度决定待标注试题中涵盖的知识点。

整体实验的标注准确度普遍偏低（特别是数学题语料）,这与知识点体系和已标注试题情况密切相关,最重要的特点是存在知识点交叉和包含关系。特征词匹配只是属于浅层的语义理解,而无法挖掘出试题和知识点间的深层语义关系,而关联规则虽能够挖掘出部分语义关联较强的特征词,但仍不能有效地挖掘出训练集中出现次数较少但语义密切相关的特征词。如表1中的实例2,模型根据题干中的“函数”、“最大值”和“最小值”等特征词推断出其知识点为“函数值域”,但该试题真正考察的是与“函数”和“切线”相关的“导数”知识点。

从已有知识点划分（教学大纲）看,不同章节的知识点间存在重叠或者包含关系,而不是通常认为的一个教学大纲就类似一个知识树,不同知识点间存在错综的关联关系。如指数函数和幂函数分布在不同的章节,而这两个概念都隶属于另外一个章节——函数。从已有试题标注情况看,部分试题所标注的知识点也存在包含关系,如一个试题,可以标注为“等差数列前n项和”,也可以标注为“等差数列”,也可标注为“数列”等。这种情况随着专家的严格校正后,标注准确度会有所改善。另外,相同方法下高中历史题的标注准确度均优于初中数学题的标注准确度,这与课程的特点密切相关。数学题中公式符号较多,并且相同符号的不同组合构成不同试题,所以导致分词后的数学题之间的差异性小。而历史题几乎是纯语言文字组成的,并且知识点大纲较为清晰,不会存在过多的知识点交叉或者包含关系。另外,数学试题的平均知识点个数相比历史试题的平均知识点个数多,数学试题在标注的时候相当于多标签标注问题,而历史试题在标注的时候相当于单标签标注问题,这也是数学试题标注准确度较低的一个原因。

5 试题推荐应用实例

与已有的针对多个用户的在线推荐系统^[25]类似,本文对单个用户的多个错误试题的组合进行挖掘,尝试从用户频繁出错试题中发现一些潜在的特点和规律,然后基于此对该用户推荐新的试题或者试题组合。首先基于语义关联规则的知识点标注方法,对用户错题集标注相应的知识点;然后从错题集标注的知识点中挖掘出用户频繁出错的知识点项集,即频繁出错的知识点组合;最后根据所有频繁知识点项集计算与试题库中每个试题对应知识点的相似性程度,依据优先级较高的知识点相似性和优先级相对较低的题干相似性进行单个试题或者多个试题组合的推荐,具体的个性化试题推荐流程如图5所示。试题库中,每道试题 $Q$ 对应的知识点与挖掘出来的频繁出错知识点项集的相似性计算方法如公式（8）所示。

(8)

weig h t (Q_KEs) = \frac{\overset{k}{\sum_{t = 1}} \overset{g (t_itemset)}{\sum_{i = 1}} sim (t_itemset (i), Q_KEs)}{\overset{k}{\sum_{t = 1}} g (t_itemset)}

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 基于知识点关联特性的个性化试题推荐流程

Fig.5 Personalized Question Recommendation Process Based on the Correlation Characteristics Between Knowledge Points

其中, $Q_KEs$ 表示试题库中每道试题对应的知识点, $weig h t (Q_KEs)$ 表示试题库中一道试题对应的知识点与挖掘出来的所有频繁出错的知识点项集的集成相似性程度, $t_itemset$ 表示包含有 $t$ 个词项的 $t$ -频繁项集, $k$ 表示挖掘出的所有频繁出错知识点项集中不同 $t$ 的个数, $g (t_itemset)$ 表示 $t_itemset$ 的个数, $sim$ 表示语义相似性度量方法,与公式（3）相同。

对部分数学错题记录进行实验,推荐结果样例如表2所示。第一个样例表示针对单个试题的个性化推荐,第二个样例表示针对多个试题组合的个性化推荐。从推荐结果可以看出,此种推荐方法不再单纯追求试题题干的相似性,而更关注试题所考察知识点的相似性。如第一个样例中的第二个推荐试题,试题中没有出现“四棱锥”一词,而其所考察的正是与“四棱锥”相关的知识点;第二个样例的推荐从原试题考察的多项式函数和余弦函数上的导数及切线的相关知识扩充到对数函数以及函数图像相关内容上的导数和切线等知识。

表2 基于知识点关联特性的相似试题推荐样例

Table 2 Examples of Similar Question Recommendations Based on the Correlation Characteristics Between Knowledge Points

知识点	错题（集）	推荐题（集）
垂直; 四棱锥; 二面角	1,如图,在四棱锥P–ABCD中,PA⊥底面ABCD,∠DAB为直角,AB//CD,AD=CD=2AB,E、F分别为PC、CD的中点, (I) 求证：CD⊥平面BEF; (II)设PA=k·AB,且锐二面角E–BD–C的大小大于30°,求k的取值范围。	1,如图,在四棱锥P–ABCD中,PA⊥底面ABCD,ABCD是直角梯形,AB⊥AD,CD⊥AD,AB=2AD,E是PB的中点, (I) 求证：平面EAC⊥平面PBC; (II)若二面角P-AC-E的余弦值为1/3,求直线PA与平面EAC所成的角的正弦值。 2,如图,在梯形中ABCD,AB//CD,AD=DC=CB=1,∠ABC=60°,四边形ACFE为矩形,平面ACFE⊥平面ABCD,CF=1, (I) 求证：BC⊥平面ACFE; (II) 点M在线段EF上运动,设平面MAB与平面FCB所成二面角的平面角为θ(θ≤90°),试求cosθ的取值范围。
导数的概念; 导数的几何意义	1,已知函数f(x)=0.3x³+x²+ax+1,且曲线y=f (x)在点(0,1)处的切线斜率为-3, (I) 求f(x)单调区间; (II) 求f(x)的极值。 2,已知函数f(x)=0.5x²+acosx,函数g(x)是函数y=f(x)的导函数, (I) 若f(x)在(π/2,f(π/2))处的切线方程为y=(π+2)x/2-(π²+4π)/8,求a的值; (II) 若a≥0,且f(x)在x=0时取得最小值,求实数a的取值范围; (III) 在(1)的条件下,求证：当x>0时,(g(x)/2)^1/2+0.375x²>e⁽^x^-1)/^x。	1,已知函数f(x)= 0.3x³+0.5ax²+bx+c(a,b,c∈R),且函数f(x)在区间(0,1)内取得极大值,在区间(1,2)内取得极小值,则Z=(a+3)²+b²的取值范围是()。 2,设曲线y=(ax-1)e^x（其中e是自然对数的底数）在点A(x₀,y₁)处的切线为l₁,曲线y=(1-x)e^-^x在点B(x₀,y₂)处的切线为l₂,若存在x₀∈(0,1)使得l₁⊥l₂,则实数a的取值范围是多少? 3,已知函数f(x)= x³+ax²+b的图象在点P(1,0)处的切线与直线3x+y=0平行。 (I) 求函数f(x)的解析式; (II)求函数f(x)在区间[-2,4]上的最小值和最大值。 4,已知函数f(x)=x²-2ax+2e^x, (I) 函数f(x)在x=0处的切线方程为2x+y+b,求a、b的值; (II) 当a>0时,若曲线y=f(x)上存在三条斜率为k的切线,求实数k的取值范围。

新窗口打开| 下载CSV

6 结语

在线学习资源的试题知识点自动标注和个性化试题推荐是智能教育领域中的重要问题。试题知识点自动标注可以帮助学习者有效地获取相关学习内容,提高学习效率,也能够帮助施教者快速总结试题所考察的知识点分布情况,方便考核过程中对知识点体系的平衡以及整体把控。通过对知识点标注问题的研究,本文得到以下结论和启示。

（1）若单纯地将试题知识点标注作为一个分类问题,用经典分类方法,如朴素贝叶斯、K最近邻、随机森林以及支持向量机,经实验验证,效果并不理想,平均准确率只有25%（数学）和36%（历史）左右。

（2）本文所提基于语义关联规则方法,能够充分挖掘试题题干和知识点间对应的有效关联规则,利用未标注试题题干与有效规则前件的语义相似关系,对未标注试题进行知识点标注的平均准确率可以达到54.93%（数学）和72.50%（历史）。

（3）虽然本文所提方法的标注准确度相比其他分类方法有较大提高,但是整体准确度仍然较低,与期望值还有很大差距。试题标注准确度相对较低,其原因有多方面：由于不同学科自身的特点以及学科知识点间的交叉和包含关系,致使训练所用的已标注数据的可靠性不足;本文方法存在一定的局限性,受计算机内存容量和运行速度限制,不能够充分挖掘出每个知识点下所有的有效规则,只能根据一定的筛选条件选择出部分有代表性的规则,这影响了后续的标注准确度。

（4）本文给出的试题推荐方法中,首先综合考虑单个学生错题集中隐藏的知识点,挖掘其中频繁出错的知识点,有针对性地推荐一些知识点相关联的、用户之前没有做过的试题,并且推荐方法中同样涵盖针对单一错题的推荐,所以本文推荐方法考虑的因素更多、应用更广泛。

（5）本文只在数学和历史两类不同类型数据上进行实验,未来可以尝试在所有学科数据上进行实验,并及时完善知识点标注模型。同时,可以尝试将深度学习应用在更大规模的教育数据中,挖掘出语义相近的教育用词,并辅助知识点的标注。

作者贡献声明

魏伟：算法实现,起草、修改论文;

郭崇慧：总体设计,论文修改及最终版本修订;

邢小宇：采集、清洗和分析数据。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: dlutguo@dlut.edu.cn。

[1] 魏伟,郭崇慧. 数据支撑.rar. 初三数学+高中历史试题数据.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Roberts

, Engel

, Chang

, et al.

Computing Curricula 2001: Computer Science

[J]. IEEE Computer Society, 2001,34(1):4-23.

检索词推荐：