Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (6): 92-101     https://doi.org/10.11925/infotech.2096-3467.2018.0066
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究*
庞贝贝, 苟娟琼(), 穆文歆
北京交通大学经济管理学院 北京 100044
Extracting Topics and Their Relationship from College Student Mentoring
Pang Beibei, Gou Juanqiong(), Mu Wenxin
School of Economics and Management, Beijing Jiaotong University, Beijing 100044, China
全文: PDF (6340 KB)   HTML ( 3
输出: BibTeX | EndNote (RIS)      
摘要 

目的】对高校学生深度辅导这一特定领域知识进行建模, 提出一个支持小规模知识获取和建模的框架。【方法】采用LDA模型识别出文档集合所包含的主题及标识主题的词组; 对“文档-主题”矩阵进行概念层次分析, 获取主题之间的上下位关系; 并将建模结果统一编码为本体的形式存入知识库, 以便进行知识检索。【结果】本研究面向深度辅导具体应用, 引入概念层次分析法, 在LDA建模基础上进一步细化主题知识的粒度, 改善了LDA主题建模结果难以表达主题之间关联关系的难题。【局限】未考虑新的深度辅导文档带来的知识库增量更新问题。【结论】本研究框架能够很好地支持深度辅导领域中诸如学生问题、交流方式、引导技巧等多粒度知识的建模与检索。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
庞贝贝
苟娟琼
穆文歆
关键词 LDA形式概念分析知识建模本体    
Abstract

[Objective] This paper proposes a framework for small-scale knowledge acquisition and modeling, aiming to more effectively manage the College Students’ deep mentoring work. [Methods] Firstly, we used the LDA to identify topics of collected documents, as well as the phrases describing the topics. Secondly, we used the concept hierarchy analysis to get the relations among these topics. Finally, we encoded ontology of the modeling results for knowledge retrieval. [Results] This study further refined the granularity of topic knowledge on the basis of LDA modeling, which reduced the difficulty of topic modeling and describe their relationship. [Limitations] We did not examine the expanded knowledge base generated by the new depth mentoring documents. [Conclusions] The proposed framework supports the modeling and retrieval of multi granularity knowledge from deep counseling, such as identifying problems, communication methods, and guiding skills.

Key wordsLDA    FCA    Knowledge Modeling    Ontology
收稿日期: 2018-01-18      出版日期: 2018-07-11
ZTFLH:  TP393  
基金资助:*本文系中央高校基本科研业务费专项资金资助项目“基于数据融合的高校学生行为建模及其应用研究”(项目编号: 2017YJS081)和国家自然科学青年基金项目“多维情景本体构建与协同研究”(项目编号: 61703032)的研究成果之一
引用本文:   
庞贝贝, 苟娟琼, 穆文歆. 面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究*[J]. 数据分析与知识发现, 2018, 2(6): 92-101.
Pang Beibei,Gou Juanqiong,Mu Wenxin. Extracting Topics and Their Relationship from College Student Mentoring. Data Analysis and Knowledge Discovery, 2018, 2(6): 92-101.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0066      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I6/92
  总体研究思路
  基于LDA模型的主题和标识词组识别算法
  主题建模原理
Topic
Document
心理
压力
科研
压力
心理
抑郁
交友
恋爱
生活
作息
宿舍
矛盾
D1 1 0 0 0 0 0
D2 1 1 0 0 0 0
D3 1 0 1 0 0 0
D4 0 0 0 1 0 0
D5 0 0 0 0 1 0
D6 0 0 0 0 0 1
D7 1 0 1 0 1 0
  高校深度辅导领域的“文档-主题”矩阵
  由表1的“文档-主题”矩阵生成的概念格
  基于OWL的知识表达示意图
主题分类 标识词组
心理压力 治疗, 情绪, 抑郁症, 顺利, 本科, 导师, 保研, 逃避, 实习, 校方, 入党, 困难生, 考验, 患有, 特殊, 生活, 科研任务, 成功, 希望, 可行, 永远, 想要, 康复, 急于, 负面, 愤怒, 研究生, 生气, 瓦伦达, 暗示, 紧张, 状态, 迷茫
面谈模式 谈话, 学生, 了解, 情况, 交流, 进行, 深入, 沟通, 感受, 主题, 方式, 班主任, 技巧, 融入, 善于, 状况, 及时, 注意, 良好, 面对面, 内容, 课堂, 真实, 平等, 面谈, 安抚, 鞭策, 兼顾
情感&
工作受挫
谈心, 分手, 异常, 情感, 面试, 考试, 条件, 力不从心, 走神, 一味, 关注, 措施, 未来, 事实, 单位, 状态, 参加, 信息, 女孩, 认知, 现状, 拒绝, 倾诉, 运动, 力争, 不足之处, 行为, 不愿, 恋爱, 灌输, 表白, 疗法
人际沟通 心理, 支持, 行为, 过程, 期望, 内心, 接受, 社会, 契约, 自我, 感受, 师生, 信任, 情感, 认同, 人际, 沟通, 经验, 程度, 个体, 防御, 谈心, 态度, 信息, 交往, 接纳, 判断, 性格
心理引导 学生, 辅导员, 问题, 信任, 启发, 朋友, 信息, 协助, 挖掘, 帮助, 关注, 解决, 依靠, 做好, 有效, 心理引导, 案例, 困扰, 及时, 积极, 时间, 解决问题, 方法, 角色, 给予, 班委, 逐一, 希望, 优秀
就业指导 就业, 就业指导, 毕业生, 职业, 过程, 指导, 个性化, 困难, 能力, 专业, 培训, 自我, 职业生涯, 社会, 咨询, 求职, 层面, 分析, 老师, 技术, 原则, 计划, 帮助, 培养, 水平, 探索, 择业, 提高, 实施, 生涯, 工作, 选择, 公务员, 环境, 社会, 备考, 实习
求职意向 求职, 了解, 专业, 行业, 事业单位, 找工作, 方向, 职位, 单位, 目标, 情况, 工作, 意识, 准备, 毕业后, 规划, 企业, 就业, 竞争, 进行, 知识, 方向, 发展, 岗位, 简历, 所学, 月薪, 软件, 决定, 下一步, 成功经验
宿舍情谊 寝室, 舍友, 文明, 作息时间, 告知, 作息, 共识, 文化, 感情, 荣誉感, 三年, 清晰, 一起, 时光, 参加, 心情, 邀请, 欢声笑语, 幸福, 可爱, 过节, 看望, 自豪, 努力奋斗
家庭关怀 孩子, 母亲, 父母, 尊重, 家庭, 家长, 信任, 父亲, 谈心, 得知, 一直, 电话, 女生, 事情, 突然, 相对, 不好, 希望, 照顾, 回去, 决定, 对待, 得到, 修养
打架斗殴 学生, 事件, 事情, 教育, 干部, 处理, 打架, 暗示, 双方, 批评, 沟通, 造成, 积极, 思考, 正确, 避免, 家长, 体谅, 学生会, 建议
学业警告 学业, 大学, 父母, 学习, 成绩, 学校, 一直, 警告, 时间, 课程, 发现, 专业, 退学, 学分, 家里, 挂科, 联系, 学期, 感觉, 比较, 以后, 表现
双困辅导 问题, 学习, 心理, 学生, 家庭, 困难, 经济, 生活, 情况, 帮助, 压力, 产生, 学业, 目标, 双困生, 教育, 学校, 引导, 同学, 建立, 适应, 社会, 导致, 出现, 自我, 能力
班委交流 工作, 班级, 老师, 干部, 鼓励, 交流, 班委, 能力, 时间, 成绩, 沟通, 优秀, 生活, 锻炼, 关系, 学习成绩, 努力, 精力, 负责, 培养, 学期, 其他同学, 学院, 监督, 寻找, 方式, 营造, 转变, 组织, 锻炼, 建议, 长期, 担任, 活动, 参加, 学习, 积极, 实践, 提高
  LDA主题抽取结果(部分)
  FCA层次分析结果(部分)
上位主题 下位主题
心理压力 比赛压力
辅导模式 面谈模式, 监督模式
心理迷茫 情感倾诉, 情绪焦虑
情绪焦虑 考前焦虑
就业指导 发展规划, 毕业去向, 求职意向
毕业去向 求职意向
求职意向 企事业单位备考
人际沟通 班委交流
环境氛围 宿舍关系, 宿舍情谊, 宿舍矛盾
宿舍关系 宿舍情谊, 宿舍矛盾
心理引导 自我认知, 人格魅力, 理想与价值
  主题上下位关系识别结果(部分)
  知识建模结果统一编码
  本体展示工具Protégé
  OntoGraf插件实现知识查询
[1] 刘云峰, 齐欢, Hu Xiang’en, 等. 基于潜在语义空间维度特性的多层文档聚类[J]. 清华大学学报: 自然科学版, 2005, 45(S1): 1783-1786.
doi: 10.3321/j.issn:1000-0054.2005.09.013
[1] (Liu Yunfeng, Qi Huan, Hu Xiang’en, et al.Multi-hierarchy Documents Clustering Based on LSA Space Dimensionality Character[J]. Journal of Tsinghua University: Science & Technology, 2005, 45(S1): 1783-1786.)
doi: 10.3321/j.issn:1000-0054.2005.09.013
[2] Lu Y, Mei Q, Zhai C.Investigating Task Performance of Probabilistic Topic Models: An Empirical Study of PLSA and LDA[J]. Information Retrieval, 2011, 14(2): 178-203.
doi: 10.1007/s10791-010-9141-9
[3] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022.
[4] 杨海霞, 高宝俊, 孙含林. 基于LDA挖掘计算机科学文献的研究主题[J]. 现代图书情报技术, 2016(11): 20-26.
[4] (Yang Haixia, Gao Baojun, Sun Hanlin.Extracting Topics of Computer Science Literature with LDA Model[J]. New Technology of Library and Information Service, 2016(11): 20-26.)
[5] 胡吉明, 陈果. 基于动态LDA主题模型的内容主题挖掘与演化[J]. 图书情报工作, 2014, 58(2): 138-142.
doi: 10.13266/j.issn.0252-3116.2014.02.023
[5] (Hu Jiming, Chen Guo.Mining and Evolution of Content Topics Based on Dynamic LDA[J]. Library and Information Service, 2014, 58(2): 138-142.)
doi: 10.13266/j.issn.0252-3116.2014.02.023
[6] 徐月梅, 李杨, 梁野, 等. 基于流形学习的新闻主题关系构建和演化研究[J]. 现代图书情报技术, 2016(10): 59-69.
[6] (Xu Yuemei, Li Yang, Liang Ye, et al.Analyzing Evolution of News Topics with Manifold Learning[J]. New Technology of Library and Information Service, 2016(10): 59-69.)
[7] 冯佳, 张云秋. 基于LDA和本体的科学前沿识别与分析方法研究[J]. 情报理论与实践, 2017, 40(8): 49-54.
[7] (Feng Jia, Zhang Yunqiu.Research on the Method of Detecting and Analyzing Scientific Fronts Based on LDA and Ontology[J]. Information Studies: Theory & Application, 2017, 40(8): 49-54.)
[8] Rocca P D, Senatore S, Loia V.A Semantic-grained Perspective of Latent Knowledge Modeling[J]. Information Fusion, 2016, 36: 52-67.
doi: 10.1016/j.inffus.2016.11.003
[9] 阮光册, 夏磊. 基于关联规则的文本主题深度挖掘应用研究[J]. 现代图书情报技术, 2016(12): 50-56.
[9] (Ruan Guangce, Xia Lei.Mining Document Topics Based on Association Rules[J]. New Technology of Library and Information Service, 2016(12): 50-56.)
[10] 王红, 张昊, 史金钏. 基于LDA的领域本体概念获取方法研究[J/OL]. 计算机工程与应用. [2017-07-21]. .
[10] (Wang Hong, Zhang Hao, Shi Jinchuan. Research on Domain Ontology Concept Acquisition Method Based on LDA and Application[J/OL]. Computer Engineering and Applications. [2017-07-21].
[11] 王昊, 朱惠, 邓三鸿. 基于形式概念分析的学科术语层次关系构建研究[J]. 情报学报, 2015,34(6):616-627.
doi: 10.3772/j.issn.1000-0135.2015.006.007
[11] (Wang Hao, Zhu Hui, Deng Sanhong.Study on Construction of Hierarchy Relationship of Subject Terms Based on Formal Concept Analysis[J]. Journal of the China Society for Scientific and Technical Information, 2015, 34(6): 616-627.)
doi: 10.3772/j.issn.1000-0135.2015.006.007
[12] Bloehdorn S, Cimiano P, Hotho A.Learning Ontologies to Improve Text Clustering and Classification[C]// Proceedings of the 29th Annual Conference of the Gesellschaft für Klassifikation e. V. University of Magdeburg. 2006: 334-341.
[13] 王骏, 王士同, 邓赵红. 聚类分析研究中的若干问题[J]. 控制与决策, 2012, 27(3): 321-328.
[13] (Wang Jun, Wang Shitong, Deng Zhaohong.Survey on Challenges in Clustering Analysis Research[J]. Control and Decision, 2012, 27(3): 321-328.)
[14] Hwang S H, Kim H G, Yang H S.A FCA-Based Ontology Construction for the Design of Class Hierarchy[C] //Proceedings of International Conference on Computational Science and Its Applications, Singapore. 2005: 827-835.
[15] Ponzetto S P, Strube M.Deriving a Large Scale Taxonomy from Wikipedia[C]// Proceedings of the 22nd National Conference on Artificial Intelligence. AAAI Press, 2007: 1440-1445.
[16] 黄承慧, 印鉴, 侯昉. 一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 计算机学报, 2011, 34(5): 856-864.
doi: 10.3724/SP.J.1016.2011.00856
[16] (Huang Chenghui, Yin Jian, Hou Fang.A Text Similarity Measurement Combining Word Semantic Information with TF-IDF Method[J]. Chinese Journal of Computers, 2011, 34(5): 856-864.)
doi: 10.3724/SP.J.1016.2011.00856
[17] 关鹏, 王曰芬. 科技情报分析中LDA主题模型最优主题数确定方法研究[J]. 现代图书情报技术, 2016(9): 42-50.
[17] (Guan Peng, Wang Yuefen.Identifying Optimal Topic Numbers from Sci-Tech Information with LDA Model[J]. New Technology of Library and Information Service, 2016(9): 42-50.)
[18] 滕广青, 毕强. 概念格构建工具ConExp与LatticeMiner的比较研究[J]. 现代图书情报技术, 2010(10): 17-22.
[18] (Teng Guangqing, Bi Qiang.Comparative Study on ConExp and LatticeMiner[J]. New Technology of Library and Information Service, 2010(10): 17-22.)
[19] Antoniou G, Harmelen F V.Web Ontology Language: OWL[A]// Handbook on Ontologies[M]. Springer Berlin Heidelberg, 2009: 67-92.
[20] Rani M, Dhar A K, Vyas O P.Semi-Automatic Terminology Ontology Learning Based on Topic Modeling[J]. Engineering Applications of Artificial Intelligence, 2017, 63: 108-125.
doi: 10.1016/j.engappai.2017.05.006
[1] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[2] 伊惠芳,刘细文. 一种专利技术主题分析的IPC语境增强Context-LDA模型研究[J]. 数据分析与知识发现, 2021, 5(4): 25-36.
[3] 盛姝, 黄奇, 杨洋, 解绮雯, 秦新国. HL7 FHIR框架下中国医疗领域信息交换研究与解决方案[J]. 数据分析与知识发现, 2021, 5(11): 13-28.
[4] 王伟, 高宁, 徐玉婷, 王洪伟. 基于LDA的众筹项目在线评论主题动态演化分析*[J]. 数据分析与知识发现, 2021, 5(10): 103-123.
[5] 曾桢,李纲,毛进,陈璟浩. 区域公共安全数据治理与业务领域本体研究*[J]. 数据分析与知识发现, 2020, 4(9): 41-55.
[6] 蔡永明,刘璐,王科唯. 网络虚拟学习社区重要用户与核心主题联合分析*[J]. 数据分析与知识发现, 2020, 4(6): 69-79.
[7] 刘萍,彭小芳. 基于形式概念分析的词汇相似度计算*[J]. 数据分析与知识发现, 2020, 4(5): 66-74.
[8] 叶光辉,曾杰妍,胡婧岚,毕崇武. 城市画像视角下的社会公众情感演化研究*[J]. 数据分析与知识发现, 2020, 4(4): 15-26.
[9] 潘有能,倪秀丽. 基于Labeled-LDA模型的在线医疗专家推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 34-43.
[10] 刘玉文,王凯. 面向地域的网络话题识别方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 173-181.
[11] 黄微,赵江元,闫璐. 网络热点事件话题漂移指数构建与实证研究*[J]. 数据分析与知识发现, 2020, 4(11): 92-101.
[12] 叶光辉,徐彤,毕崇武,李心悦. 基于多维度特征与LDA模型的城市旅游画像演化分析*[J]. 数据分析与知识发现, 2020, 4(11): 121-130.
[13] 王晰巍,张柳,黄博,韦雅楠. 基于LDA的微博用户主题图谱构建及实证研究*——以“埃航空难”为例[J]. 数据分析与知识发现, 2020, 4(10): 47-57.
[14] 马捷,葛岩,蒲泓宇. 属性约简方法研究综述*[J]. 数据分析与知识发现, 2020, 4(1): 40-50.
[15] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn