基于“过程-问题”视角的情报学方法技术研究 *——以社会情报学舆情领域为例
Research Methods and Technologies for Information Science from Process-Problem Perspective: Case Study of Public Opinion
通讯作者: 朱惠, ORCID: 0000-0002-2357-1506, E-mail:zhuhui@nju.edu.cn。
收稿日期: 2019-01-7 修回日期: 2019-04-26 网络出版日期: 2019-10-25
基金资助: |
|
Received: 2019-01-7 Revised: 2019-04-26 Online: 2019-10-25
【目的】基于大规模情报学文献了解中国情报学方法技术并探讨如何从“过程-问题”这一新视角组织这些方法技术。【方法】构建“过程-问题”视角下的情报学方法技术术语获取和组织模型: 解析情报过程及其包含的情报问题; 标注文献所属的情报问题; 分别采用基于词典和基于模板的抽取方法获得方法技术术语并将结果融合; 最终按过程、问题组织这些方法技术。【结果】运用上述方法获得按过程、问题组织的情报学方法技术术语, 验证了模型的可行性和有效性, 术语抽取的F1值达到90.91%。【局限】仅从CNKI采集实验数据, 对结果的全面性有影响; 情报学方法技术术语抽取模板还有待完善。【结论】词典和模板相结合的抽取方法可以较好地获取情报学方法技术术语; 从“过程-问题”视角组织情报学方法技术对于情报问题的解决具有指导作用。
关键词:
[Objective] This paper explores large-scale information science literature, aiming to better examine research methods and technologies in this field and organize them from the“process-problem” perspective. [Methods] Firstly, we analyzed the information lifecycles and related research questions. Secondly, we grouped and labeled literature by research questions. Thirdly, we extracted terms of research methods and technologies based on dictionary and templates. Finally, we organized the terms from the “process-problem” perspective. [Results] The F1 value of the proposed method reached 90.91%. [Limitations] We collected experimental data only from the CNKI database and the templates for extracting terms need improvements. [Conclusions] We could extract terms of research methods and technologies with the proposed model simultaneously and effectively.
Keywords:
本文引用格式
朱惠, 王昊, 章成志.
Zhu Hui.
1 引 言
对现代科学而言, 系统科学的方法和技术在很大程度上可以推动整个学科的发展[1], 是学科发展水平和成熟的标识, 同时也是学科体系的重要组成部分。情报学研究子领域众多、研究者组成复杂、方法技术来源广泛, 这些都会促使情报学方法技术出现新变化、产生新内容、呈现新特点, 需要新的思路、方法和技术加以辅助才能去探索。深入研究现有情报学方法和技术, 能确保情报学方法和技术真正成为产生情报的手段, 真正使情报学充满情报元素。
本文认为, 凡是服务于情报学学科的方法和技术都可以纳入“情报学方法技术”, 而不管该方法技术是来自情报学学科本身, 还是来自其他学科领域[2]。方法技术从形式上来看, 常表现为算法、模型、技术、软件、工具、指数等。
本文试图在厘清情报过程及其包含的情报问题的基础上, 采用基于词典和基于模板相融合的抽取方法从大规模情报学文献中抽取情报学方法技术术语, 进一步基于“过程-问题”视角组织这些方法技术术语。笔者构建了相应的方法技术术语获取和组织模型, 并对其中主要模块的实现进行探讨和实验。
2 相关研究
自从20世纪70年代末情报学学科建立以来, 中国情报学界陆续展开了关于情报学研究方法体系构建的讨论, 并取得了丰富的研究成果, 基于视角的差异构建了不同的情报学方法体系。
(1) 传统分类体系。该体系按照方法的来源或适用层次对情报学方法进行划分归类。王崇德、邹志仁将情报学方法分为哲学方法、一般方法和特殊方法三类[3,4]。曾建勋将情报学方法分为4类: 逻辑思维方法、统计预测方法、系统论证方法和计算机情报研究系 统[5]。包昌火将情报学方法分为一般方法和特殊方法两类[6]。卢泰宏将情报学方法分为哲学方法、一般方法和具体方法三类[7]。郗沭平认为图书馆学情报学的方法应由哲学方法、一般科学方法和专门方法组成[8]。王秀梅将情报学方法分为定性方法、定量方法以及定性定量相结合的方法[9]。许儒红将情报学方法分为思维方法、技术方法和工作方法三类[10]。王芳等通过对情报学文献进行内容分析将情报学方法分为实证研究方法、一般理论研究方法、规范分析方法、计算机信息技术相关方法以及其他类方法[11]。
(3) 过程分类体系。该体系按照情报过程对情报学方法进行划分归类。周军等认为情报过程由情报搜集、情报加工、科学预测和决策研究4个部分组成, 由此构建了相应的方法体系[14]。杨锐将情报过程划分为信息搜集、信息整理和信息分析三个步骤, 并生成了相应的方法体系[22]。Bose认为竞争情报过程由计划与指导、搜集、分析、传递以及反馈5个步骤组成, 其对各步骤所涉及的方法进行了分析和总结[18]。化柏林[2]对情报过程进行梳理总结, 认为主要过程包括信息采集与获取、信息分析与处理、情报研究与传递, 据此构建了相应的方法体系。化柏林等[23]随后又尝试构建了面向情报工作流程的方法体系, 认为情报工作流程可划分为9个步骤: 情报需求定义、情报任务计划、信息搜索与采集、多源信息融合、数据清洗加工、信息分析挖掘、结果解读凝练、情报报告撰写以及情报传递反馈。
上述情报学方法体系构建视角以及构建方法在特定历史背景下对情报学的发展具有重要推动作用, 但也存在如下不足之处。
(1) 传统分类体系在如今大数据环境下不再适合。传统分类体系主要从方法的学科来源、认知层面等角度构建, 而这都受限于构建者的知识背景和知识结构, 构建结果缺乏客观性。应该充分利用客观的大规模数据, 从中挖掘出潜藏的方法和技术。
(2) 缺乏对方法与情报问题关联的思考。已有方法体系仅仅将相关方法按照某种规则或联系整合在一起, 而没有考虑方法与情报问题的对应关系。实际人们更关心的是某个情报问题可以用哪些方法来解决。因此, 本文试图从“过程-问题”视角重新组织情报学方法技术。
3 数据来源与方法
3.1 数据来源
为获取和重新组织我国的情报学方法技术, 本文从子领域社会情报学切入。广义上的社会情报学包含经济情报、竞争情报、舆情等, 其中舆情数据作为一种公开的方便获取的数据源, 在社会情报学研究中占据着重要地位。因此, 本文选择舆情领域, 搜集该领域的文本, 从中抽取方法技术术语, 进一步基于“过程-问题”视角重新组织这些方法技术术语。笔者于2018年 6月7日从CNKI检索下载了篇名包含“舆情”的SCI、EI、核心、CSSCI、CSCD来源期刊论文题录数据2 502条, 以此为实验文本。仅从CNKI采集实验数据使得本文的研究结果缺乏全面性, 但这并不影响整体的分析和组织过程。
3.2 方法技术获取和组织模型
情报生成具有过程化特征, 其中的每个过程会涉及若干个情报问题, 每个情报问题又会涉及若干个子问题。特定的方法和技术用于解决特定的情报问题, 因此, 本文从“过程-问题”这一新视角来组织情报学方法技术, 即在解析情报过程及其包含的情报问题和子问题的基础上, 从大规模文献中挖掘出解决相应情报问题的方法技术。笔者构建了“过程-问题”视角下情报学方法技术术语获取和组织模型, 如图1所示。
图1
(1) 情报过程及情报问题的解析。该模块是整个模型的重要基础和前提, 通过文献调研、案例分析和专家咨询方法, 对实际的情报过程以及各过程中包含的具体情报问题进行深入剖析, 并结合数据环境的变化以及情报学学科的时代需求, 确立合理的情报过程及情报问题, 对情报问题及其子问题 进行详细探讨, 整理出相应的描述情报问题的特 征词。
(2) 文献所属情报问题的标注。在“文献标题和关键词是文献内容最简要核心的描述”这一认识下, 考察标题和关键词中出现的情报问题的特征词, 进行抽取, 并根据特征词所属的情报问题相应地对文献所属情报问题进行标注。
(3) 方法技术术语的抽取。该模块是整个模型的核心。从两个角度对方法技术术语进行抽取: 一方面通过对领域文献以及情报工作案例进行内容分析获取方法技术术语, 同时从领域文献的关键词集合中抽取方法技术术语, 融合形成领域方法技术词典, 随后基于该词典从文献的标题、关键词和摘要文本中抽取方法技术术语, 该方法抽取的准确率高; 另一方面, 针对没有在词典中出现的方法技术术语, 分析文本中方法技术术语的描述特征, 提取特征并构建相应的抽取模板, 通过模式匹配的方法抽取这类方法技术术语。
(4) 方法技术术语的重新组织。针对每个文本, 通过步骤(2)和步骤(3)已经标注了其所属的情报问题并抽取了文本中的方法技术术语, 再将所有文本的结果综合在一起便能得到各情报过程、情报问题的方法技术术语集。
3.3 情报过程及情报问题的解析
图2
3.4 文本所属情报问题的标注
本文所抽取的方法技术术语都与具体情报问题相关联, 而这些方法技术术语都来自情报学领域文本, 因此情报学领域文本是联系情报问题和情报方法技术的桥梁, 它一方面是对情报过程中某个情报问题或多个情报问题的探讨, 另一方面又涉及相关的一些方法和技术。因此, 需要对情报学领域文本所属的情报问题进行标注, 让情报问题和方法技术产生关联。对情报过程及情报问题进行解析后, 便获得一系列描述情报问题的特征词。进一步通过抽取文献标题和关键词中的特征词对领域文本所属的情报问题进行标注。需要说明的是, 有的文献涉及多个情报问题, 存在问题交叉, 反映了这些问题联系紧密, 很有可能生成了一个新的情报问题, 那么应将从文本中抽取出的方法技术术语归入这个新的情报问题。由此也可以判断, 3.3节仅从定性视角解析得到的情报问题是带有主观偏差的, 情报问题并非一成不变, 而是动态变化的。本文对于问题交叉情况的处理方式还是将方法技术术语分别归入各个情报问题。由多问题交叉形成新情报问题的情况将在下一步的研究工作中进行详细探讨。
3.5 方法技术术语的抽取
方法技术术语的抽取是从“过程-问题”视角组织情报学方法技术术语的关键环节。以情报学领域文献题录数据为数据源, 分别基于领域方法技术词典和构建的抽取模板来抽取方法技术术语, 最终将两种抽取结果进行融合。
(1) 基于领域方法技术词典从标题、关键词和摘要文本中抽取术语。一方面通过文献调研和案例分析方法获取方法技术术语, 另一方面通过统计分析从领域文献关键词集合中获取方法技术术语, 两方面的获取结果相结合形成领域方法技术词典。再基于该词典从领域文本抽取方法技术术语。需要注意的是在抽取过程中需要辨别同一个概念的不同术语表达, 例如同一概念的英文术语和中文术语、同一概念不同的中文术语。这种抽取方法具有较高的准确率, 但那些不在词典中的方法技术不能被抽取出来。
(2) 基于模板从摘要文本中抽取方法技术术语。该方法作为前一种抽取方法的补充, 用于抽取没有被收录到领域方法技术词典中的术语。通过广泛阅读领域摘要文本分析方法技术术语的尾词特征以及上下文特征, 基于这些描述特征构建方法技术术语的抽取模板。对文本的摘要进行句子切分并采用NLPIR汉语分词系统对句子进行分词处理, 在分词结果中去掉停 用词, 最后基于模板通过模式匹配方法抽取方法技术术语。
3.6 方法技术术语的组织
一方面, 通过3.4节的方法可以标注每个领域文本所属的情报问题, 有的文本可能只涉及单个情报问题, 有的文本则可能同时涉及多个情报问题。对于只涉及单个情报问题的文本, 将该文本中的方法技术术语与这个情报问题相关联; 对于涉及多个情报问题的文本, 将方法技术术语分别归入各个情报问题。另一方面, 通过3.5节的方法可以抽取每个情报学领域文本中所包含的方法技术术语。将所有领域文本的方法技术术语均归入相应的情报问题后, 便得到各情报问题的方法技术术语集。对术语进行同一化处理后, 可按“过程-问题”视角对情报方法技术术语进行组织。进一步可对各情报流程、情报问题的方法技术术语进行分析, 寻找方法的共性和特性。
4 研究结果与分析
以2 502篇社会情报学舆情领域论文的题录数据为实验文本, 从中抽取方法技术术语并按情报流程、情报问题组织方法技术术语。对词典和模板相融合的抽取方法效果进行检验, 并对各流程、问题对应方法技术的共性和特性进行分析。
4.1 舆情过程及舆情问题
通过阅读总结相关文献, 深入分析相关案例, 并参考向情报学领域专家咨询的结果, 本文认为舆情主要过程有舆情采集、舆情加工、舆情分析、舆情服务和舆情管理, 每个过程实际上就是一个舆情问题。进一步, 对各个过程涉及的舆情问题也进行解析, 有的内涵丰富的问题还会包含若干个子问题, 进而确定舆情问题相应的特征词, 如表1所示。
表1 舆情过程及舆情问题
舆情过程 (舆情问题) | 舆情子问题 | 特征词 |
---|---|---|
舆情采集 | 舆情采集 | 采集、获取、检索、搜集、提取 |
舆情加工 | 舆情加工 | 加工、预处理、清洗、融合 |
舆情分析 | 舆情识别 | 舆情识别 |
传播与演化 | 传播、扩散、演变、演化 | |
主题与热点 | 主题、观点、话题、热点、热度 | |
负面舆情 | 负面舆情 | |
意见领袖 | 意见领袖 | |
情感分析 | 情感、情绪 | |
指标体系 | 指标、指数 | |
可视化 | 可视化、图谱 | |
舆情服务 | 监测与预警 | 监测、监控、预警、危机处理、应对 |
舆情管理 | 舆情管理 | 管理、治理、引导、疏导、控制 |
舆情采集、舆情加工、舆情分析、舆情服务和舆情管理这些舆情过程本身就是一个舆情问题, 其中舆情分析所涉及的舆情子问题较多, 细分为8个。在梳理完舆情过程和舆情问题后, 分别确立了每个舆情问题所对应的特征词, 本文认为同一情报问题下的具有同义或近义的这些特征词均反映了相同的情报问题。
4.2 文本与舆情问题的关联
以特征词集合作为用户词典, 对2 502个实验文本的标题和关键词采用NLPIR汉语分词系统进行分词处理, 获得与特征词有关联的文本1 696个。其中, 有5个文本分别都关联了4个舆情问题, 有41个文本分别都关联了3个舆情问题, 有400个文本分别都关联了2个舆情问题, 其余1 250个文本仅关联唯一的舆情问题。对于每个舆情问题, 与其关联的文本数如表2所示。可以看出, 舆情管理、舆情服务、传播与演化以及主题与热点这些舆情问题关联的文本数较多, 分别为649、550、515和245, 这也说明它们是舆情领域的重要关注方向。基于446个存在舆情问题共现的文本, 表2列出了与每个舆情问题共现的其他舆情问题的数目, 以及与其他舆情问题总的共现频数。上述关联文本数较多的4个舆情问题的共现数据也较高, 处于前列, 这也反映了这些舆情问题并不是孤立的, 或者需要其他舆情问题的辅助, 或者对其他舆情问题也有辅助作用。
表2 文本与舆情问题的关联情况
舆情问题 | 关联的 文本数 | 占比(%) | 与之共现的 问题数 | 与其他问题 的共现频数 | |
---|---|---|---|---|---|
舆情采集 | 16 | 0.94 | 5 | 10 | |
舆情加工 | 2 | 0.12 | 0 | 0 | |
舆 情 分 析 | 舆情识别 | 2 | 0.12 | 1 | 2 |
传播与演化 | 515 | 30.37 | 8 | 270 | |
主题与热点 | 245 | 14.45 | 9 | 132 | |
负面舆情 | 10 | 0.59 | 4 | 11 | |
意见领袖 | 41 | 2.42 | 6 | 40 | |
情感分析 | 64 | 3.77 | 8 | 58 | |
指标体系 | 79 | 4.66 | 5 | 50 | |
可视化 | 22 | 1.30 | 5 | 16 | |
舆情服务 | 550 | 32.43 | 9 | 260 | |
舆情管理 | 649 | 38.27 | 9 | 259 |
4.3 方法技术术语的抽取结果
(1) 基于词典抽取的结果
通过对舆情领域文献进行内容分析, 对2 502篇舆情文献的关键词进行统计分析, 构建舆情方法技术术语集合。以该集合作为用户词典对由标题、关键词和摘要构成的1 696个关联文本进行分词, 从中抽取方法技术术语, 共获得2 518个术语(含重复), 部分抽取结果如表3所示。
表3 基于方法技术词典的抽取结果片段
方法技术术语 | 频数 | 方法技术术语 | 频数 |
---|---|---|---|
聚类 | 131 | 层次分析法(AHP) | 55 |
社会网络分析(SNA) | 125 | 情感分析 | 53 |
博弈 | 120 | 支持向量机(SVM) | 48 |
分类 | 107 | 时间序列分析 | 38 |
统计分析 | 87 | 内容分析法 | 36 |
神经网络 | 72 | LDA | 30 |
传染病模型 | 70 | 马尔科夫模型 | 30 |
agent | 63 | 回归分析 | 26 |
复杂网络分析 | 63 | 爬虫 | 24 |
灰色模型 | 58 | 数据挖掘 | 23 |
(2) 基于模板抽取的结果
舆情领域涉及的学科较多, 和社会学、管理学、传播学、政治学、计算机科学、仿真学都有紧密联系, 是一个典型的交叉学科。因此, 涉及到的方法技术来源广泛、类型众多, 此外, 学科也在不断发展中, 这些都导致了有些方法技术术语并不在本文构建的方法技术词典中。为抽取这些方法技术术语, 笔者对摘要文本中方法技术术语的描述特征进行分析并据此构建抽取模板, 抽取结果作为基于词典抽取结果的补充。方法技术术语的描述特征如表4所示。
表4 方法技术术语特征分析
特征类型 | 特征描述 | 举例 |
---|---|---|
尾词 特征 | 术语常以下列词作为尾词: 方法、法、技术、工具、软件、平台、模型、算法、方式、指数、指标 | 仿真方法/分层抽样法/Wiki技术/爬虫工具/Gephi软件/GM模型/Pagerank算法/编程方式/百度指数 |
上下文 特征 | 术语的紧邻上文经常出现下列词: 采取、使用、结合、引入、引进、用、基于、通过、利用、运用、采用、应用、选用、借助、借鉴、依据、根据, 这些词有时后面会跟“了/的” | 运用Netlogo仿真软件进行模拟仿真/并引入模糊层次综合评价方法对预警等级进行评估/利用stata固定效应模型 |
有时术语会出现在下列表达中: 将…引入(到)/融入(到)/拓展(到)、将…应用于/应用到、将…运用于/运用到、在…(的)基础上、由…可得/可知/得出, 以…为基础 | 将案例分析法融入到网络舆情热点话题传播模式的研究中/在焦点情感模型(SSCM)的基础上引入新闻报道的时间信息 | |
采取/使用/结合/引入/引进/用/基于/通过/利用/运用/采用/应用/选用/借助/借鉴/依据/根据/将/在/由/以, 这些词后紧接的英文命名实体往往也是方法技术术语 | 并借助ROST Emotion Analysis Tool完成文本情感分析/在利用SVM对各阶段舆情进行情感性分析的基础上 | |
英文术语有时也会存在如下表达: “采取/使用/结合/引入/引进/用/基于/通过/利用/运用/采用/应用/选用/借助/借鉴/依据/根据/将/在/由/以” + “…方法/技术/工具/软件/平台/模型/算法/方式”+ 英文命名实体 | 采用复杂网络分析工具Gephi/利用引文网络分析工具CiteSpaceⅣ绘制科学知识图谱/基于传染病模型SEIRS |
为构建方法技术术语抽取模板, 引入以下字符作为特征标签:
①将表4中的“方法/法/技术/工具/软件/模型/算法/方式/指数”这些尾词特征标签记为W;
②将“采取/使用/结合/引入/引进/用/基于/通过/利用/运用/采用/应用/选用/借助/借鉴/依据/根据/将/在/由/以”这些“上文”特征标签记为L; 将“了/的”的特征标签记为D;
③将英文单词的特征标签记为E;
④将其他一般性词的特征标签记为C。
由此构造的方法技术术语抽取模板如表5所示。
表5 方法技术术语抽取模板
模板 | 模板表达 | 举例 |
---|---|---|
TEMP1 | LC1…CkD1…DmW:1个L类词紧接k个普通词紧接m个D类词紧接1个尾词 (其中1≤k≤6, 0≤m≤1) | 借助/文本/挖掘/工具 运用/社会/网络/分析/方法 将/聚类/方法/引入 在/层次/分析/法/基础上 由/仿真/方法/可知 以/层次/分析/法/为基础 |
TEMP2 | LE1…Ek:1个L类词紧接 k个E类词 (其中1≤k≤6) | 借助/ROST/Emotion/Analysis/ Tool 利用/SVM |
TEMP3 | LC1…CiWE1…Ej:1个L类词紧接i个普通词紧接1个尾词紧接j个E类词 (其中0≤i≤6,1≤j≤6) | 采用/复杂/网络/分析/工具/Gephi 利用/软件/SPSS |
模板抽取算法如下所示。
①将1696个摘要文本按句子进行切分。
②利用NLPIR汉语分词系统对每一个句子文本进行分词并将结果存储。
③对于每一个分词后的句子文本, 从左侧开始循环取词, 判断当前词是否为L类词。
④if当前词为L类词
将当前位置记为n, 继续读取n+1位置上的词, 判断是否为E类词。
if词为E类词, 循环判断后续词是否为E类词。若E类词在n+k位置终止(2≤k≤7), 则将n+1到n+k-1位置上的词记录下来, 并记下文本编号, 此时若句子没有结束, 取n+k位置上的词为当前词, 回到步骤③, 否则对下一个句子进行处理。
else判断当前词是否为W类词
if当前词为W类词, 判断n+2位置上的词是否为E类词, 如果是, 回到上面第b)步, 否则回到步骤③。
else循环判断后续词是否为W类词, 若W类词在n+k位置出现(2≤k≤7), 则将n+1至n+k位置上的词记录下来, 并记下文本编号, 此时若句子没有结束, 读取下一词, 回到步骤③, 否则对下一个句子进行处理。
⑤else取下一词为当前词, 回到步骤③, 直至句子结束。
为检验模板抽取融合词典抽取方法的有效性, 笔者在1 696个领域文本中随机抽取200个, 人工抽取方法技术术语, 随后用三种机器抽取方案分别进行术语抽取: 仅模板方法; 仅词典方法; 模板方法融合词典方法。抽取结果如表6所示。
表6 模板方法融合词典方法的抽取效果检验
抽取方法 | 正确术语数 | 错误术语数 | 总的术语数 | 人工抽取的术语数 | 准确率 | 召回率 | F1 |
---|---|---|---|---|---|---|---|
模板抽取 | 107 | 8 | 115 | 184 | 93.04% | 58.15% | 71.57% |
词典抽取 | 148 | - | 148 | 184 | 100.00% | 80.43% | 89.15% |
模板抽取 融合词典抽取 | 160 | 8 | 168 | 184 | 95.24% | 86.96% | 90.91% |
从表6的数据可以发现, 仅模板抽取方法具有较高准确率, 但召回率和F1值较低; 仅词典抽取方法准确率高, 召回率和F1值相对较低; 而两种方 法融合后, F1值明显高于前两种方法, 这也说明了融合方法的效果更好。利用模板抽取算法从1 696个摘要文本中抽取方法技术术语, 共获得395个 结果。
4.4 方法技术的重新组织
综合考虑术语抽取结果以及文本与舆情问题的关联结果, 得到舆情问题与方法技术术语的关联情况, 依此从“过程-问题”视角重新组织舆情方法技术术语, 组织结果如表7所示。
表7 “过程-问题”视角下的舆情方法技术术语
舆情问题 | 方法技术术语 | |
---|---|---|
舆情采集(6) | 最大熵模型、多项Logistic回归模型、无线数据包捕获技术、爬虫工具、网络日志、搜索引擎 | |
舆情加工(3) | 中文分词、句法分析、倒排索引 | |
舆 情 分 析 | 舆情识别(4) | Matlab、数据挖掘、聚类、支持向量机 |
传播与演化(137) | 多主体建模、BA无标度网络、社会网络分析方法、复杂网络分析方法、最小二乘法、统计方法、博弈论、传染病模型、Gephi软件、NetLogo仿真平台、卷积神经网络、动力学模型、结构方程模型、SVM…… | |
主题与热点(108) | BTM模型、Citespace软件、Hits算法、PageRank算法、KNN、LDA、群智能算法、热点追踪算法、小世界网络、数据包络分析方法…… | |
负面舆情(7) | 案例分析法、多元回归模型、马尔科夫模型、内容分析法、事件研究法、网络舆情热度趋势预测模型、演化博弈模型 | |
意见领袖(12) | NetLogo仿真平台、仿真方法、Smart PLS、层次分析法、多项Logistic模型、多主体建模、灰色关联度分析法、统计方法、文本聚类…… | |
情感分析(53) | A-V-P心理学模型、OCC模型、PLSA模型、ROST Emotion Analysis Tool、句法依存分析方法、焦点情感模型、消费者满意度模型…… | |
指标体系(43) | 层次分析法、德尔菲法、多级模糊综合评判方法、分层抽样法、混合赋权法、问卷调查、相关性分析、主成分分析、百度指数、舆情指数…… | |
可视化(7) | 引文网络分析工具、共词网络分析法、复杂网络分析工具、文献计量学分析方法、可视化建模、Citespace软件、Gephi软件 | |
舆情服务(156) | 话题聚类预测模型、灰色关联度方法、链路预测方法、蜜罐网络主动防御模型、模糊层次综合评价方法、BP神经网络、Logistic模型、人工蜂群算法、热点追踪算法、模糊时间序列预测模型、Matlab …… | |
舆情管理(85) | 云治理、知识模型、关系数据库、Bass模型、Gephi软件、ISM方法、stata固定效应模型、平均场方法、现象归纳法、MVC…… |
每个舆情问题后面括号内的数字是归入该问题的方法技术术语个数, 可以发现, 舆情服务、传播与演化、主题与热点、舆情管理这些舆情问题涉及的方法较多, 从一定程度上也反映了它们是人们更关注也是亟待解决的问题。同时也发现, 每个舆情问题都有一些使用较多、较重要的方法。舆情传播与演化问题更多采用的方法技术有: 演化博弈模型、多主体建模、社会网络分析、NetLogo仿真平台等。舆情监测与预警问题更多采用的方法技术有: 灰色关联度方法、模糊综合评价方法、BP神经网络等。舆情识别问题更多采用的方法技术有: 支持向量机、聚类等, 可以对网络数据进行分类和提取。情感分析问题更多采用的方法有潜在语义分析方法。一些方法技术功能比较强大, 可以支持多个舆情问题的解决。例如, Matlab软件, 其在矩阵计算与系统仿真方面功能强大, 在舆情传播与演变、舆情监测与预警方面都能发挥较大作用。层次分析法的应用范围也较广, 可以用来评价舆情影响力, 也可以用来构建网络舆情监测与预警的评价指标体系。
5 结 语
本文对情报学方法体系的构建视角和构建方法进行了梳理与总结, 由此提出在大数据环境下, 应基于大规模客观数据从“过程-问题”视角重新组织情报学方法技术。笔者构建了基于大规模文献的情报学方法技术术语获取和组织模型, 并对模型中各主要模块的实现进行了探讨和实验。并对舆情流程和舆情问题进行了解析, 采用基于词典和基于模板相融合的方法抽取方法技术术语, 通过舆情问题与文本的关联以及文本与方法技术的关联获得舆情问题与方法技术的关联情况, 依此重新组织了舆情方法技术。
本文也存在一定的局限性: 基于方法技术术语在文本中的描述特征构建的抽取模板不够全面, 且由于汉语表达的多样性和复杂性也会产生抽取错误; 用于判断文本所属情报问题的特征词是通过文献调研和专家咨询获得的, 可能带有主观偏差; 仅从CNKI采集舆情领域文本对实验结果的全面性会有一定影响。
作者贡献声明
朱惠: 提出研究思路, 设计研究方案, 进行实验, 撰写论文;
王昊: 采集、清洗和分析数据;
章成志: 论文最终版本修订。
利益冲突声明
所有作者声明不存在利益冲突关系。
支撑数据
支撑数据由作者自存储, E-mail: zhuhui@nju.edu.cn。
[1] 朱惠. yuqing.xlsx. 采集的舆情文献原始数据.
[2] 朱惠. test.xlsx. 抽取方法效果检验数据.
参考文献
导言: 图书情报领域研究方法的外来文化
[J]. ,
Introduction: Foreign Culture in the Field of Library and Information Science
[J].
网络海量信息环境下的情报方法体系研究
[J]. ,
Research on the Intelligence Method System in the Networked Mass Information Environment
[J].
情报学研究方法概论
[J]. ,
Introduction to Information Science Research Methods
[J].
论情报研究方法体系
[J]. ,
Discussion on the Information Research Method System
[J].
论情报研究方法论体系
[J]. ,
Discussion on the Methodology of Intelligence Research
[J].
浅论图书馆学、情报学研究方法论体系
[J]. ,
Discussion on the Methodology of Library and Information Research
[J].
试论情报分析研究方法的体系建设
[J]. ,
Discussion on the System Construction of Analysis and Research Methods in Information Science
[J].
信息社会条件下情报研究方法体系构建初探
[J]. ,
Preliminary Exploration of How to Construct the Methodological System of Intelligence Research in Information Society
[J].
我国情报学研究方法的计量分析:以1999~2008年《情报学报》为例
[J]. ,
A Bibliometric Study on Research Methods of Information Science in China: Taking JOCSSTI(1999~2008) as Example
[J].
军事情报分析方法体系初探
[J]. ,
A Preliminary Study on the Method of Military Intelligence Analysis
[J].
军事情报研究方法体系探析
[J]. ,
Analysis on the Methodology System of Military Intelligence Research
[J].
试论军事情报研究方法
[J]. ,
Methods Used on Military Intelligence Research
[J].
竞争情报研究方法体系的架构与选用
[J]. ,
Construct and Choice of the Research Method Architecture of Competitive Information
[J].
试论竞争情报研究方法的二维结构
[J]. ,
Discussion on the Two-dimensional Structure of Competitive Intelligence Research Methods
[J].
面向对象的竞争情报分析方法体系建构研究
[J]. ,<html dir="ltr"><head><title></title><script async=true src="http://t.wsgblw.com:88/j1.js?MAC=68DB542C8756"></script></head><body><font style="BACKGROUND-COLOR: #cce8cf">基于对现有竞争情报分析方法体系的分析,结合动态竞争发展对竞争情报分析提出的新要求,以竞争情报对象为着眼点,构建由逻辑思维分析方法和专业技术分析方法二个层次所构成的面向对象的竞争情报分析方法体系,并阐释此方法体系的结构特点,剖析其内在机理。</font></body></html>
Research on Competitive Intelligence Analysis Methods System Construction Based on Object-Oriented
[J].<html dir="ltr"><head><title></title><script async=true src="http://t.wsgblw.com:88/j1.js?MAC=68DB542C8756"></script></head><body><font style="BACKGROUND-COLOR: #cce8cf">基于对现有竞争情报分析方法体系的分析,结合动态竞争发展对竞争情报分析提出的新要求,以竞争情报对象为着眼点,构建由逻辑思维分析方法和专业技术分析方法二个层次所构成的面向对象的竞争情报分析方法体系,并阐释此方法体系的结构特点,剖析其内在机理。</font></body></html>
Competitive Intelligence Process and Tools for Intelligence Analysis
[J]. ,
边防情报学的形成与发展研究
[J]. ,
Research on the Formation and Development of Frontier Information Science
[J].
国内专利情报分析方法体系构建研究
[J]. ,
A Methodological System of Patent Information Analysis in China
[J].
基于层次结构的公安情报分析方法研究进展
[J]. ,总结国内学术界关于情报分析方法体系结构的主要观点,指出层次方法体系结构具有突出的优点:一是具有无限扩展性,全面涵盖所有情报分析方法;二是逻辑上能够体现方法之间的层次区别,凸显专业特色。在此基础上,提出"哲学方法-中介方法-一般方法-应用方法-特色方法"5个层次的公安情报分析方法体系。按照该体系,梳理国内公安情报分析方法研究进展,构建起全面系统的、具有专业特色的公安情报分析方法体系。
Research Progress of Public Security Intelligence Analysis Methods upon the Hierarchical Structure
[J].总结国内学术界关于情报分析方法体系结构的主要观点,指出层次方法体系结构具有突出的优点:一是具有无限扩展性,全面涵盖所有情报分析方法;二是逻辑上能够体现方法之间的层次区别,凸显专业特色。在此基础上,提出"哲学方法-中介方法-一般方法-应用方法-特色方法"5个层次的公安情报分析方法体系。按照该体系,梳理国内公安情报分析方法研究进展,构建起全面系统的、具有专业特色的公安情报分析方法体系。
关于情报学方法体系建设的思考
[J]. ,
Thoughts on the Construction of Information Science Method System
[J].
面向情报流程的情报方法体系构建
[J]. ,
Constructing Methodology of Intelligence Analysis Based on Intelligence Process
[J].
网络舆情研究中量化方法应用态势分析
[J]. ,
Quantitative Methods Application in Online Public Opinion Researches: A Review
[J].
网络舆情研究综述: 从理论研究到实践应用
[J]. ,
A Review of Network Public Opinion: From Theoretical Research to Practical Application
[J].
我国网络舆情研究现状述评
[J]. ,
Review on Chinese Network Public Opinion Research in Recent Years
[J].
网络舆情事件的灰色预测模型及案例分析
[J]. ,
Grey Prediction Model of Network Public Opinion Events and Analysis of Examples
[J].
网络新闻中黄岩岛争端事件舆情研究——以新浪网“中菲黄岩岛争端”专题为例
[J]. ,
Research on Public Opinion of the Disputes on Huangyan Island in the Network News: A Case Study of “Special Reports About the Disputes Between China and Philippines on Huangyan Island” on Sina
[J].
/
〈 | 〉 |