Advanced Search

数据分析与知识发现, 2019, 3(10): 2-11 doi: 10.11925/infotech.2096-3467.2019.0028

专题

基于“过程-问题”视角的情报学方法技术研究 *——以社会情报学舆情领域为例

朱惠,,1,2, 王昊1,2, 章成志3

1南京大学信息管理学院 南京 210023

2江苏省数据工程与知识服务重点实验室 南京 210023

3南京理工大学经济管理学院 南京 210094

Research Methods and Technologies for Information Science from Process-Problem Perspective: Case Study of Public Opinion

Zhu Hui,,1,2, Wang Hao1,2, Zhang Chengzhi3

1School of Information Management, Nanjing University, Nanjing 210023, China

2Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China

3School of Economics & Management, Nanjing University of Science and Technology, Nanjing 210094, China

通讯作者: 朱惠, ORCID: 0000-0002-2357-1506, E-mail:zhuhui@nju.edu.cn

收稿日期: 2019-01-7   修回日期: 2019-04-26   网络出版日期: 2019-10-25

基金资助: *本文系国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究”.  17ZDA291
江苏省社会科学基金项目“领域术语语义关系自动获取研究”的研究成果之一.  15TQB009

Received: 2019-01-7   Revised: 2019-04-26   Online: 2019-10-25

摘要

【目的】基于大规模情报学文献了解中国情报学方法技术并探讨如何从“过程-问题”这一新视角组织这些方法技术。【方法】构建“过程-问题”视角下的情报学方法技术术语获取和组织模型: 解析情报过程及其包含的情报问题; 标注文献所属的情报问题; 分别采用基于词典和基于模板的抽取方法获得方法技术术语并将结果融合; 最终按过程、问题组织这些方法技术。【结果】运用上述方法获得按过程、问题组织的情报学方法技术术语, 验证了模型的可行性和有效性, 术语抽取的F1值达到90.91%。【局限】仅从CNKI采集实验数据, 对结果的全面性有影响; 情报学方法技术术语抽取模板还有待完善。【结论】词典和模板相结合的抽取方法可以较好地获取情报学方法技术术语; 从“过程-问题”视角组织情报学方法技术对于情报问题的解决具有指导作用。

关键词: 情报过程 ; 情报问题 ; 方法技术 ; 社会情报学 ; 舆情

Abstract

[Objective] This paper explores large-scale information science literature, aiming to better examine research methods and technologies in this field and organize them from the“process-problem” perspective. [Methods] Firstly, we analyzed the information lifecycles and related research questions. Secondly, we grouped and labeled literature by research questions. Thirdly, we extracted terms of research methods and technologies based on dictionary and templates. Finally, we organized the terms from the “process-problem” perspective. [Results] The F1 value of the proposed method reached 90.91%. [Limitations] We collected experimental data only from the CNKI database and the templates for extracting terms need improvements. [Conclusions] We could extract terms of research methods and technologies with the proposed model simultaneously and effectively.

Keywords: Information Process ; Information Problem ; Method and Technology ; Social Information Science ; Public Opinione

PDF (641KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

朱惠, 王昊, 章成志. 基于“过程-问题”视角的情报学方法技术研究 *——以社会情报学舆情领域为例 . 数据分析与知识发现[J], 2019, 3(10): 2-11 doi:10.11925/infotech.2096-3467.2019.0028

Zhu Hui. Research Methods and Technologies for Information Science from Process-Problem Perspective: Case Study of Public Opinion. Data Analysis and Knowledge Discovery[J], 2019, 3(10): 2-11 doi:10.11925/infotech.2096-3467.2019.0028

1 引 言

对现代科学而言, 系统科学的方法和技术在很大程度上可以推动整个学科的发展[1], 是学科发展水平和成熟的标识, 同时也是学科体系的重要组成部分。情报学研究子领域众多、研究者组成复杂、方法技术来源广泛, 这些都会促使情报学方法技术出现新变化、产生新内容、呈现新特点, 需要新的思路、方法和技术加以辅助才能去探索。深入研究现有情报学方法和技术, 能确保情报学方法和技术真正成为产生情报的手段, 真正使情报学充满情报元素。

本文认为, 凡是服务于情报学学科的方法和技术都可以纳入“情报学方法技术”, 而不管该方法技术是来自情报学学科本身, 还是来自其他学科领域[2]。方法技术从形式上来看, 常表现为算法、模型、技术、软件、工具、指数等。

本文试图在厘清情报过程及其包含的情报问题的基础上, 采用基于词典和基于模板相融合的抽取方法从大规模情报学文献中抽取情报学方法技术术语, 进一步基于“过程-问题”视角组织这些方法技术术语。笔者构建了相应的方法技术术语获取和组织模型, 并对其中主要模块的实现进行探讨和实验。

2 相关研究

自从20世纪70年代末情报学学科建立以来, 中国情报学界陆续展开了关于情报学研究方法体系构建的讨论, 并取得了丰富的研究成果, 基于视角的差异构建了不同的情报学方法体系。

(1) 传统分类体系。该体系按照方法的来源或适用层次对情报学方法进行划分归类。王崇德、邹志仁将情报学方法分为哲学方法、一般方法和特殊方法三类[3,4]。曾建勋将情报学方法分为4类: 逻辑思维方法、统计预测方法、系统论证方法和计算机情报研究系 统[5]。包昌火将情报学方法分为一般方法和特殊方法两类[6]。卢泰宏将情报学方法分为哲学方法、一般方法和具体方法三类[7]。郗沭平认为图书馆学情报学的方法应由哲学方法、一般科学方法和专门方法组成[8]。王秀梅将情报学方法分为定性方法、定量方法以及定性定量相结合的方法[9]。许儒红将情报学方法分为思维方法、技术方法和工作方法三类[10]。王芳等通过对情报学文献进行内容分析将情报学方法分为实证研究方法、一般理论研究方法、规范分析方法、计算机信息技术相关方法以及其他类方法[11]

(2) 领域分类体系。该体系针对不同的情报学子领域对子领域内部的方法进行体系构建。杨寿青、程立斌等、周军等针对军事情报领域尝试构建方法体系结构[12,13,14]。樊松林、王玉、刘冰、Bose对竞争情报领域的方法体系构建进行研究[15,16,17,18]。靳娟娟构建了边防情报领域的方法体系结构[19]。刘桂锋构建了专利情报领域的方法体系结构[20]。谢晓专等则构建了公安情报领域的方法体系[21]

(3) 过程分类体系。该体系按照情报过程对情报学方法进行划分归类。周军等认为情报过程由情报搜集、情报加工、科学预测和决策研究4个部分组成, 由此构建了相应的方法体系[14]。杨锐将情报过程划分为信息搜集、信息整理和信息分析三个步骤, 并生成了相应的方法体系[22]。Bose认为竞争情报过程由计划与指导、搜集、分析、传递以及反馈5个步骤组成, 其对各步骤所涉及的方法进行了分析和总结[18]。化柏林[2]对情报过程进行梳理总结, 认为主要过程包括信息采集与获取、信息分析与处理、情报研究与传递, 据此构建了相应的方法体系。化柏林等[23]随后又尝试构建了面向情报工作流程的方法体系, 认为情报工作流程可划分为9个步骤: 情报需求定义、情报任务计划、信息搜索与采集、多源信息融合、数据清洗加工、信息分析挖掘、结果解读凝练、情报报告撰写以及情报传递反馈。

上述情报学方法体系构建视角以及构建方法在特定历史背景下对情报学的发展具有重要推动作用, 但也存在如下不足之处。

(1) 传统分类体系在如今大数据环境下不再适合。传统分类体系主要从方法的学科来源、认知层面等角度构建, 而这都受限于构建者的知识背景和知识结构, 构建结果缺乏客观性。应该充分利用客观的大规模数据, 从中挖掘出潜藏的方法和技术。

(2) 缺乏对方法与情报问题关联的思考。已有方法体系仅仅将相关方法按照某种规则或联系整合在一起, 而没有考虑方法与情报问题的对应关系。实际人们更关心的是某个情报问题可以用哪些方法来解决。因此, 本文试图从“过程-问题”视角重新组织情报学方法技术。

3 数据来源与方法

3.1 数据来源

为获取和重新组织我国的情报学方法技术, 本文从子领域社会情报学切入。广义上的社会情报学包含经济情报、竞争情报、舆情等, 其中舆情数据作为一种公开的方便获取的数据源, 在社会情报学研究中占据着重要地位。因此, 本文选择舆情领域, 搜集该领域的文本, 从中抽取方法技术术语, 进一步基于“过程-问题”视角重新组织这些方法技术术语。笔者于2018年 6月7日从CNKI检索下载了篇名包含“舆情”的SCI、EI、核心、CSSCI、CSCD来源期刊论文题录数据2 502条, 以此为实验文本。仅从CNKI采集实验数据使得本文的研究结果缺乏全面性, 但这并不影响整体的分析和组织过程。

3.2 方法技术获取和组织模型

情报生成具有过程化特征, 其中的每个过程会涉及若干个情报问题, 每个情报问题又会涉及若干个子问题。特定的方法和技术用于解决特定的情报问题, 因此, 本文从“过程-问题”这一新视角来组织情报学方法技术, 即在解析情报过程及其包含的情报问题和子问题的基础上, 从大规模文献中挖掘出解决相应情报问题的方法技术。笔者构建了“过程-问题”视角下情报学方法技术术语获取和组织模型, 如图1所示。

图1

图1   “过程-问题”视角下情报学方法技术术语获取和组织模型


(1) 情报过程及情报问题的解析。该模块是整个模型的重要基础和前提, 通过文献调研、案例分析和专家咨询方法, 对实际的情报过程以及各过程中包含的具体情报问题进行深入剖析, 并结合数据环境的变化以及情报学学科的时代需求, 确立合理的情报过程及情报问题, 对情报问题及其子问题 进行详细探讨, 整理出相应的描述情报问题的特 征词。

(2) 文献所属情报问题的标注。在“文献标题和关键词是文献内容最简要核心的描述”这一认识下, 考察标题和关键词中出现的情报问题的特征词, 进行抽取, 并根据特征词所属的情报问题相应地对文献所属情报问题进行标注。

(3) 方法技术术语的抽取。该模块是整个模型的核心。从两个角度对方法技术术语进行抽取: 一方面通过对领域文献以及情报工作案例进行内容分析获取方法技术术语, 同时从领域文献的关键词集合中抽取方法技术术语, 融合形成领域方法技术词典, 随后基于该词典从文献的标题、关键词和摘要文本中抽取方法技术术语, 该方法抽取的准确率高; 另一方面, 针对没有在词典中出现的方法技术术语, 分析文本中方法技术术语的描述特征, 提取特征并构建相应的抽取模板, 通过模式匹配的方法抽取这类方法技术术语。

(4) 方法技术术语的重新组织。针对每个文本, 通过步骤(2)和步骤(3)已经标注了其所属的情报问题并抽取了文本中的方法技术术语, 再将所有文本的结果综合在一起便能得到各情报过程、情报问题的方法技术术语集。

3.3 情报过程及情报问题的解析

为促进情报工作, 同时也为解决情报学理论与实践脱节的问题, 笔者认为考察和研究情报过程中各情报问题所使用的方法和技术更有意义, 更能指导情报工作实践。为此, 需要结合原有的情报过程、当前的大数据环境以及不断更新变化的情报需求对实际的情报过程及其包含的具体情报问题进行探讨。本文通过文献调研[24,25,26]、案例分析[27,28,29]以及专家咨询方法对情报问题及子问题进行解析, 确定了用于描述具体情报问题的特征词, 形成最终的情报过程及情报问题解析图, 如图2所示。

图2

图2   情报过程及情报问题解析


3.4 文本所属情报问题的标注

本文所抽取的方法技术术语都与具体情报问题相关联, 而这些方法技术术语都来自情报学领域文本, 因此情报学领域文本是联系情报问题和情报方法技术的桥梁, 它一方面是对情报过程中某个情报问题或多个情报问题的探讨, 另一方面又涉及相关的一些方法和技术。因此, 需要对情报学领域文本所属的情报问题进行标注, 让情报问题和方法技术产生关联。对情报过程及情报问题进行解析后, 便获得一系列描述情报问题的特征词。进一步通过抽取文献标题和关键词中的特征词对领域文本所属的情报问题进行标注。需要说明的是, 有的文献涉及多个情报问题, 存在问题交叉, 反映了这些问题联系紧密, 很有可能生成了一个新的情报问题, 那么应将从文本中抽取出的方法技术术语归入这个新的情报问题。由此也可以判断, 3.3节仅从定性视角解析得到的情报问题是带有主观偏差的, 情报问题并非一成不变, 而是动态变化的。本文对于问题交叉情况的处理方式还是将方法技术术语分别归入各个情报问题。由多问题交叉形成新情报问题的情况将在下一步的研究工作中进行详细探讨。

3.5 方法技术术语的抽取

方法技术术语的抽取是从“过程-问题”视角组织情报学方法技术术语的关键环节。以情报学领域文献题录数据为数据源, 分别基于领域方法技术词典和构建的抽取模板来抽取方法技术术语, 最终将两种抽取结果进行融合。

(1) 基于领域方法技术词典从标题、关键词和摘要文本中抽取术语。一方面通过文献调研和案例分析方法获取方法技术术语, 另一方面通过统计分析从领域文献关键词集合中获取方法技术术语, 两方面的获取结果相结合形成领域方法技术词典。再基于该词典从领域文本抽取方法技术术语。需要注意的是在抽取过程中需要辨别同一个概念的不同术语表达, 例如同一概念的英文术语和中文术语、同一概念不同的中文术语。这种抽取方法具有较高的准确率, 但那些不在词典中的方法技术不能被抽取出来。

(2) 基于模板从摘要文本中抽取方法技术术语。该方法作为前一种抽取方法的补充, 用于抽取没有被收录到领域方法技术词典中的术语。通过广泛阅读领域摘要文本分析方法技术术语的尾词特征以及上下文特征, 基于这些描述特征构建方法技术术语的抽取模板。对文本的摘要进行句子切分并采用NLPIR汉语分词系统对句子进行分词处理, 在分词结果中去掉停 用词, 最后基于模板通过模式匹配方法抽取方法技术术语。

3.6 方法技术术语的组织

一方面, 通过3.4节的方法可以标注每个领域文本所属的情报问题, 有的文本可能只涉及单个情报问题, 有的文本则可能同时涉及多个情报问题。对于只涉及单个情报问题的文本, 将该文本中的方法技术术语与这个情报问题相关联; 对于涉及多个情报问题的文本, 将方法技术术语分别归入各个情报问题。另一方面, 通过3.5节的方法可以抽取每个情报学领域文本中所包含的方法技术术语。将所有领域文本的方法技术术语均归入相应的情报问题后, 便得到各情报问题的方法技术术语集。对术语进行同一化处理后, 可按“过程-问题”视角对情报方法技术术语进行组织。进一步可对各情报流程、情报问题的方法技术术语进行分析, 寻找方法的共性和特性。

4 研究结果与分析

以2 502篇社会情报学舆情领域论文的题录数据为实验文本, 从中抽取方法技术术语并按情报流程、情报问题组织方法技术术语。对词典和模板相融合的抽取方法效果进行检验, 并对各流程、问题对应方法技术的共性和特性进行分析。

4.1 舆情过程及舆情问题

通过阅读总结相关文献, 深入分析相关案例, 并参考向情报学领域专家咨询的结果, 本文认为舆情主要过程有舆情采集、舆情加工、舆情分析、舆情服务和舆情管理, 每个过程实际上就是一个舆情问题。进一步, 对各个过程涉及的舆情问题也进行解析, 有的内涵丰富的问题还会包含若干个子问题, 进而确定舆情问题相应的特征词, 如表1所示。

表1   舆情过程及舆情问题

舆情过程
(舆情问题)
舆情子问题特征词
舆情采集舆情采集采集、获取、检索、搜集、提取
舆情加工舆情加工加工、预处理、清洗、融合
舆情分析舆情识别舆情识别
传播与演化传播、扩散、演变、演化
主题与热点主题、观点、话题、热点、热度
负面舆情负面舆情
意见领袖意见领袖
情感分析情感、情绪
指标体系指标、指数
可视化可视化、图谱
舆情服务监测与预警监测、监控、预警、危机处理、应对
舆情管理舆情管理管理、治理、引导、疏导、控制

新窗口打开| 下载CSV


舆情采集、舆情加工、舆情分析、舆情服务和舆情管理这些舆情过程本身就是一个舆情问题, 其中舆情分析所涉及的舆情子问题较多, 细分为8个。在梳理完舆情过程和舆情问题后, 分别确立了每个舆情问题所对应的特征词, 本文认为同一情报问题下的具有同义或近义的这些特征词均反映了相同的情报问题。

4.2 文本与舆情问题的关联

以特征词集合作为用户词典, 对2 502个实验文本的标题和关键词采用NLPIR汉语分词系统进行分词处理, 获得与特征词有关联的文本1 696个。其中, 有5个文本分别都关联了4个舆情问题, 有41个文本分别都关联了3个舆情问题, 有400个文本分别都关联了2个舆情问题, 其余1 250个文本仅关联唯一的舆情问题。对于每个舆情问题, 与其关联的文本数如表2所示。可以看出, 舆情管理、舆情服务、传播与演化以及主题与热点这些舆情问题关联的文本数较多, 分别为649、550、515和245, 这也说明它们是舆情领域的重要关注方向。基于446个存在舆情问题共现的文本, 表2列出了与每个舆情问题共现的其他舆情问题的数目, 以及与其他舆情问题总的共现频数。上述关联文本数较多的4个舆情问题的共现数据也较高, 处于前列, 这也反映了这些舆情问题并不是孤立的, 或者需要其他舆情问题的辅助, 或者对其他舆情问题也有辅助作用。

表2   文本与舆情问题的关联情况

舆情问题关联的
文本数
占比(%)与之共现的
问题数
与其他问题
的共现频数
舆情采集160.94510
舆情加工20.1200



舆情识别20.1212
传播与演化51530.378270
主题与热点24514.459132
负面舆情100.59411
意见领袖412.42640
情感分析643.77858
指标体系794.66550
可视化221.30516
舆情服务55032.439260
舆情管理64938.279259

新窗口打开| 下载CSV


4.3 方法技术术语的抽取结果

(1) 基于词典抽取的结果

通过对舆情领域文献进行内容分析, 对2 502篇舆情文献的关键词进行统计分析, 构建舆情方法技术术语集合。以该集合作为用户词典对由标题、关键词和摘要构成的1 696个关联文本进行分词, 从中抽取方法技术术语, 共获得2 518个术语(含重复), 部分抽取结果如表3所示。

表3   基于方法技术词典的抽取结果片段

方法技术术语频数方法技术术语频数
聚类131层次分析法(AHP)55
社会网络分析(SNA)125情感分析53
博弈120支持向量机(SVM)48
分类107时间序列分析38
统计分析87内容分析法36
神经网络72LDA30
传染病模型70马尔科夫模型30
agent63回归分析26
复杂网络分析63爬虫24
灰色模型58数据挖掘23

新窗口打开| 下载CSV


(2) 基于模板抽取的结果

舆情领域涉及的学科较多, 和社会学、管理学、传播学、政治学、计算机科学、仿真学都有紧密联系, 是一个典型的交叉学科。因此, 涉及到的方法技术来源广泛、类型众多, 此外, 学科也在不断发展中, 这些都导致了有些方法技术术语并不在本文构建的方法技术词典中。为抽取这些方法技术术语, 笔者对摘要文本中方法技术术语的描述特征进行分析并据此构建抽取模板, 抽取结果作为基于词典抽取结果的补充。方法技术术语的描述特征如表4所示。

表4   方法技术术语特征分析

特征类型特征描述举例
尾词
特征
术语常以下列词作为尾词: 方法、法、技术、工具、软件、平台、模型、算法、方式、指数、指标仿真方法/分层抽样法/Wiki技术/爬虫工具/Gephi软件/GM模型/Pagerank算法/编程方式/百度指数
上下文
特征
术语的紧邻上文经常出现下列词: 采取、使用、结合、引入、引进、用、基于、通过、利用、运用、采用、应用、选用、借助、借鉴、依据、根据, 这些词有时后面会跟“了/的”运用Netlogo仿真软件进行模拟仿真/并引入模糊层次综合评价方法对预警等级进行评估/利用stata固定效应模型
有时术语会出现在下列表达中: 将…引入(到)/融入(到)/拓展(到)、将…应用于/应用到、将…运用于/运用到、在…(的)基础上、由…可得/可知/得出, 以…为基础将案例分析法融入到网络舆情热点话题传播模式的研究中/在焦点情感模型(SSCM)的基础上引入新闻报道的时间信息
采取/使用/结合/引入/引进/用/基于/通过/利用/运用/采用/应用/选用/借助/借鉴/依据/根据/将/在/由/以, 这些词后紧接的英文命名实体往往也是方法技术术语并借助ROST Emotion Analysis Tool完成文本情感分析/在利用SVM对各阶段舆情进行情感性分析的基础上
英文术语有时也会存在如下表达: “采取/使用/结合/引入/引进/用/基于/通过/利用/运用/采用/应用/选用/借助/借鉴/依据/根据/将/在/由/以” + “…方法/技术/工具/软件/平台/模型/算法/方式”+ 英文命名实体采用复杂网络分析工具Gephi/利用引文网络分析工具CiteSpaceⅣ绘制科学知识图谱/基于传染病模型SEIRS

新窗口打开| 下载CSV


为构建方法技术术语抽取模板, 引入以下字符作为特征标签:

①将表4中的“方法/法/技术/工具/软件/模型/算法/方式/指数”这些尾词特征标签记为W;

②将“采取/使用/结合/引入/引进/用/基于/通过/利用/运用/采用/应用/选用/借助/借鉴/依据/根据/将/在/由/以”这些“上文”特征标签记为L; 将“了/的”的特征标签记为D;

③将英文单词的特征标签记为E;

④将其他一般性词的特征标签记为C。

由此构造的方法技术术语抽取模板如表5所示。

表5   方法技术术语抽取模板

模板模板表达举例
TEMP1LC1…CkD1…DmW:1个L类词紧接k个普通词紧接m个D类词紧接1个尾词
(其中1≤k≤6, 0≤m≤1)
借助/文本/挖掘/工具
运用/社会/网络/分析/方法
将/聚类/方法/引入
在/层次/分析/法/基础上
由/仿真/方法/可知
以/层次/分析/法/为基础
TEMP2LE1…Ek:1个L类词紧接
k个E类词
(其中1≤k≤6)
借助/ROST/Emotion/Analysis/ Tool
利用/SVM
TEMP3LC1…CiWE1…Ej:1个L类词紧接i个普通词紧接1个尾词紧接j个E类词
(其中0≤i≤6,1≤j≤6)
采用/复杂/网络/分析/工具/Gephi
利用/软件/SPSS

新窗口打开| 下载CSV


模板抽取算法如下所示。

①将1696个摘要文本按句子进行切分。

②利用NLPIR汉语分词系统对每一个句子文本进行分词并将结果存储。

③对于每一个分词后的句子文本, 从左侧开始循环取词, 判断当前词是否为L类词。

④if当前词为L类词

将当前位置记为n, 继续读取n+1位置上的词, 判断是否为E类词。

if词为E类词, 循环判断后续词是否为E类词。若E类词在n+k位置终止(2≤k≤7), 则将n+1到n+k-1位置上的词记录下来, 并记下文本编号, 此时若句子没有结束, 取n+k位置上的词为当前词, 回到步骤③, 否则对下一个句子进行处理。

else判断当前词是否为W类词

if当前词为W类词, 判断n+2位置上的词是否为E类词, 如果是, 回到上面第b)步, 否则回到步骤③。

else循环判断后续词是否为W类词, 若W类词在n+k位置出现(2≤k≤7), 则将n+1至n+k位置上的词记录下来, 并记下文本编号, 此时若句子没有结束, 读取下一词, 回到步骤③, 否则对下一个句子进行处理。

⑤else取下一词为当前词, 回到步骤③, 直至句子结束。

为检验模板抽取融合词典抽取方法的有效性, 笔者在1 696个领域文本中随机抽取200个, 人工抽取方法技术术语, 随后用三种机器抽取方案分别进行术语抽取: 仅模板方法; 仅词典方法; 模板方法融合词典方法。抽取结果如表6所示。

表6   模板方法融合词典方法的抽取效果检验

抽取方法正确术语数错误术语数总的术语数人工抽取的术语数准确率召回率F1
模板抽取107811518493.04%58.15%71.57%
词典抽取148-148184100.00%80.43%89.15%
模板抽取
融合词典抽取
160816818495.24%86.96%90.91%

新窗口打开| 下载CSV


表6的数据可以发现, 仅模板抽取方法具有较高准确率, 但召回率和F1值较低; 仅词典抽取方法准确率高, 召回率和F1值相对较低; 而两种方 法融合后, F1值明显高于前两种方法, 这也说明了融合方法的效果更好。利用模板抽取算法从1 696个摘要文本中抽取方法技术术语, 共获得395个 结果。

4.4 方法技术的重新组织

综合考虑术语抽取结果以及文本与舆情问题的关联结果, 得到舆情问题与方法技术术语的关联情况, 依此从“过程-问题”视角重新组织舆情方法技术术语, 组织结果如表7所示。

表7   “过程-问题”视角下的舆情方法技术术语

舆情问题方法技术术语
舆情采集(6)最大熵模型、多项Logistic回归模型、无线数据包捕获技术、爬虫工具、网络日志、搜索引擎
舆情加工(3)中文分词、句法分析、倒排索引



舆情识别(4)Matlab、数据挖掘、聚类、支持向量机
传播与演化(137)多主体建模、BA无标度网络、社会网络分析方法、复杂网络分析方法、最小二乘法、统计方法、博弈论、传染病模型、Gephi软件、NetLogo仿真平台、卷积神经网络、动力学模型、结构方程模型、SVM……
主题与热点(108)BTM模型、Citespace软件、Hits算法、PageRank算法、KNN、LDA、群智能算法、热点追踪算法、小世界网络、数据包络分析方法……
负面舆情(7)案例分析法、多元回归模型、马尔科夫模型、内容分析法、事件研究法、网络舆情热度趋势预测模型、演化博弈模型
意见领袖(12)NetLogo仿真平台、仿真方法、Smart PLS、层次分析法、多项Logistic模型、多主体建模、灰色关联度分析法、统计方法、文本聚类……
情感分析(53)A-V-P心理学模型、OCC模型、PLSA模型、ROST Emotion Analysis Tool、句法依存分析方法、焦点情感模型、消费者满意度模型……
指标体系(43)层次分析法、德尔菲法、多级模糊综合评判方法、分层抽样法、混合赋权法、问卷调查、相关性分析、主成分分析、百度指数、舆情指数……
可视化(7)引文网络分析工具、共词网络分析法、复杂网络分析工具、文献计量学分析方法、可视化建模、Citespace软件、Gephi软件
舆情服务(156)话题聚类预测模型、灰色关联度方法、链路预测方法、蜜罐网络主动防御模型、模糊层次综合评价方法、BP神经网络、Logistic模型、人工蜂群算法、热点追踪算法、模糊时间序列预测模型、Matlab ……
舆情管理(85)云治理、知识模型、关系数据库、Bass模型、Gephi软件、ISM方法、stata固定效应模型、平均场方法、现象归纳法、MVC……

新窗口打开| 下载CSV


每个舆情问题后面括号内的数字是归入该问题的方法技术术语个数, 可以发现, 舆情服务、传播与演化、主题与热点、舆情管理这些舆情问题涉及的方法较多, 从一定程度上也反映了它们是人们更关注也是亟待解决的问题。同时也发现, 每个舆情问题都有一些使用较多、较重要的方法。舆情传播与演化问题更多采用的方法技术有: 演化博弈模型、多主体建模、社会网络分析、NetLogo仿真平台等。舆情监测与预警问题更多采用的方法技术有: 灰色关联度方法、模糊综合评价方法、BP神经网络等。舆情识别问题更多采用的方法技术有: 支持向量机、聚类等, 可以对网络数据进行分类和提取。情感分析问题更多采用的方法有潜在语义分析方法。一些方法技术功能比较强大, 可以支持多个舆情问题的解决。例如, Matlab软件, 其在矩阵计算与系统仿真方面功能强大, 在舆情传播与演变、舆情监测与预警方面都能发挥较大作用。层次分析法的应用范围也较广, 可以用来评价舆情影响力, 也可以用来构建网络舆情监测与预警的评价指标体系。

5 结 语

本文对情报学方法体系的构建视角和构建方法进行了梳理与总结, 由此提出在大数据环境下, 应基于大规模客观数据从“过程-问题”视角重新组织情报学方法技术。笔者构建了基于大规模文献的情报学方法技术术语获取和组织模型, 并对模型中各主要模块的实现进行了探讨和实验。并对舆情流程和舆情问题进行了解析, 采用基于词典和基于模板相融合的方法抽取方法技术术语, 通过舆情问题与文本的关联以及文本与方法技术的关联获得舆情问题与方法技术的关联情况, 依此重新组织了舆情方法技术。

本文也存在一定的局限性: 基于方法技术术语在文本中的描述特征构建的抽取模板不够全面, 且由于汉语表达的多样性和复杂性也会产生抽取错误; 用于判断文本所属情报问题的特征词是通过文献调研和专家咨询获得的, 可能带有主观偏差; 仅从CNKI采集舆情领域文本对实验结果的全面性会有一定影响。

作者贡献声明

朱惠: 提出研究思路, 设计研究方案, 进行实验, 撰写论文;

王昊: 采集、清洗和分析数据;

章成志: 论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: zhuhui@nju.edu.cn。

[1] 朱惠. yuqing.xlsx. 采集的舆情文献原始数据.

[2] 朱惠. test.xlsx. 抽取方法效果检验数据.

参考文献

马费成, 望俊成 .

导言: 图书情报领域研究方法的外来文化

[J]. 图书情报知识, 2010(1):12-14.

[本文引用: 1]

( Ma Feicheng, Wang Juncheng .

Introduction: Foreign Culture in the Field of Library and Information Science

[J]. Documentation, Information & Knowledge, 2010(1):12-14.)

[本文引用: 1]

化柏林 .

网络海量信息环境下的情报方法体系研究

[J]. 情报理论与实践, 2012,35(11):1-5.

[本文引用: 2]

( Hua Bolin .

Research on the Intelligence Method System in the Networked Mass Information Environment

[J]. Information Studies: Theory & Application, 2012,35(11):1-5.)

[本文引用: 2]

王崇德 .

情报学研究方法概论

[J]. 情报科学, 1985,6(6):1-7.

[本文引用: 1]

( Wang Chongde .

Introduction to Information Science Research Methods

[J]. Information Science, 1985,6(6):1-7.)

[本文引用: 1]

邹志仁 .

论情报研究方法体系

[J]. 江苏图书馆学报, 1990(2):18-23.

[本文引用: 1]

( Zou Zhiren .

Discussion on the Information Research Method System

[J]. Journal of Jiangsu Library, 1990(2):18-23.)

[本文引用: 1]

曾建勋 .

论情报研究方法论体系

[J]. 情报业务研究, 1989,6(2):117-119.

[本文引用: 1]

( Zeng Jianxun .

Discussion on the Methodology of Intelligence Research

[J]. Information Professional Research, 1989,6(2):117-119.)

[本文引用: 1]

包昌火 . 情报研究方法论[M]. 北京: 科学技术出版社, 1990.

[本文引用: 1]

( Bao Changhuo. Intelligence Research Methodology[M]. Beijing: China Science and Technology Press, 1990.)

[本文引用: 1]

卢泰宏 . 信息分析[M]. 广州: 中山大学出版社, 1998.

[本文引用: 1]

( Lu Taihong. Information Analysis[M]. Guangzhou: Sun Yat-Sen University Press, 1998.)

[本文引用: 1]

郗沭平 .

浅论图书馆学、情报学研究方法论体系

[J]. 津图学刊, 1997(2):19-23.

[本文引用: 1]

( Xi Shuping .

Discussion on the Methodology of Library and Information Research

[J]. Tianjin Library Journal, 1997(2):19-23.)

[本文引用: 1]

王秀梅 .

试论情报分析研究方法的体系建设

[J]. 情报理论与实践, 1998,21(5):259-260.

[本文引用: 1]

( Wang Xiumei .

Discussion on the System Construction of Analysis and Research Methods in Information Science

[J]. Information Studies: Theory & Application, 1998,21(5):259-260.)

[本文引用: 1]

许儒红 .

信息社会条件下情报研究方法体系构建初探

[J]. 情报理论与实践, 2012,35(3):119-122.

[本文引用: 1]

( Xu Ruhong .

Preliminary Exploration of How to Construct the Methodological System of Intelligence Research in Information Society

[J]. Information Studies: Theory & Application, 2012,35(3):119-122.)

[本文引用: 1]

王芳, 王向女 .

我国情报学研究方法的计量分析:以1999~2008年《情报学报》为例

[J]. 情报学报, 2010,29(4):652-662.

[本文引用: 1]

( Wang Fang, Wang Xiangnv .

A Bibliometric Study on Research Methods of Information Science in China: Taking JOCSSTI(1999~2008) as Example

[J]. Journal of the China Society for Scientific and Technical Information, 2010,29(4):652-662.)

[本文引用: 1]

杨寿青 .

军事情报分析方法体系初探

[J]. 情报杂志, 1997,16(2):52-53.

[本文引用: 1]

( Yang Shouqing .

A Preliminary Study on the Method of Military Intelligence Analysis

[J]. Journal of Information, 1997,16(2):52-53.)

[本文引用: 1]

程立斌, 林春应 .

军事情报研究方法体系探析

[J]. 情报杂志, 2007,26(2):87-89.

[本文引用: 1]

( Cheng Libin, Lin Chunying .

Analysis on the Methodology System of Military Intelligence Research

[J]. Journal of Information, 2007,26(2):87-89.)

[本文引用: 1]

周军, 韩建新 .

试论军事情报研究方法

[J]. 图书情报工作, 2005,49(5):64-66.

[本文引用: 2]

( Zhou Jun, Han Jianxin .

Methods Used on Military Intelligence Research

[J]. Library and Information Service, 2005,49(5):64-66.)

[本文引用: 2]

樊松林 .

竞争情报研究方法体系的架构与选用

[J]. 情报科学, 2000,18(10):871-876.

[本文引用: 1]

( Fan Songlin .

Construct and Choice of the Research Method Architecture of Competitive Information

[J]. Information Science, 2000,18(10):871-876.)

[本文引用: 1]

王玉 .

试论竞争情报研究方法的二维结构

[J]. 现代情报, 2004( 7): 12, 15.

[本文引用: 1]

( Wang Yu .

Discussion on the Two-dimensional Structure of Competitive Intelligence Research Methods

[J]. Modern Information, 2004( 7): 12, 15.)

[本文引用: 1]

刘冰 .

面向对象的竞争情报分析方法体系建构研究

[J]. 图书情报工作, 2010,54(12):100-103.

Magsci     [本文引用: 1]

<html dir="ltr"><head><title></title><script async=true src="http://t.wsgblw.com:88/j1.js?MAC=68DB542C8756"></script></head><body><font style="BACKGROUND-COLOR: #cce8cf">基于对现有竞争情报分析方法体系的分析,结合动态竞争发展对竞争情报分析提出的新要求,以竞争情报对象为着眼点,构建由逻辑思维分析方法和专业技术分析方法二个层次所构成的面向对象的竞争情报分析方法体系,并阐释此方法体系的结构特点,剖析其内在机理。</font></body></html>

( Liu Bing .

Research on Competitive Intelligence Analysis Methods System Construction Based on Object-Oriented

[J]. Library and Information Service, 2010,54(12):100-103.)

Magsci     [本文引用: 1]

<html dir="ltr"><head><title></title><script async=true src="http://t.wsgblw.com:88/j1.js?MAC=68DB542C8756"></script></head><body><font style="BACKGROUND-COLOR: #cce8cf">基于对现有竞争情报分析方法体系的分析,结合动态竞争发展对竞争情报分析提出的新要求,以竞争情报对象为着眼点,构建由逻辑思维分析方法和专业技术分析方法二个层次所构成的面向对象的竞争情报分析方法体系,并阐释此方法体系的结构特点,剖析其内在机理。</font></body></html>

Bose R .

Competitive Intelligence Process and Tools for Intelligence Analysis

[J]. Industrial Management & Data Systems, 2008,108(4):510-528.

[本文引用: 2]

靳娟娟 .

边防情报学的形成与发展研究

[J]. 情报杂志, 2001,20(11):38-40.

[本文引用: 1]

( Jin Juanjuan .

Research on the Formation and Development of Frontier Information Science

[J]. Journal of Information, 2001,20(11):38-40.)

[本文引用: 1]

刘桂锋 .

国内专利情报分析方法体系构建研究

[J]. 情报杂志, 2014,33(3):16-21.

[本文引用: 1]

( Liu Guifeng .

A Methodological System of Patent Information Analysis in China

[J]. Journal of Intelligence, 2014,33(3):16-21.)

[本文引用: 1]

谢晓专, 周西平 .

基于层次结构的公安情报分析方法研究进展

[J]. 图书情报工作, 2012,56(20):103-109.

Magsci     [本文引用: 1]

总结国内学术界关于情报分析方法体系结构的主要观点,指出层次方法体系结构具有突出的优点:一是具有无限扩展性,全面涵盖所有情报分析方法;二是逻辑上能够体现方法之间的层次区别,凸显专业特色。在此基础上,提出"哲学方法-中介方法-一般方法-应用方法-特色方法"5个层次的公安情报分析方法体系。按照该体系,梳理国内公安情报分析方法研究进展,构建起全面系统的、具有专业特色的公安情报分析方法体系。

( Xie Xiaozhuan, Zhou Xiping .

Research Progress of Public Security Intelligence Analysis Methods upon the Hierarchical Structure

[J]. Library and Information Service, 2010,56(20):103-109.)

Magsci     [本文引用: 1]

总结国内学术界关于情报分析方法体系结构的主要观点,指出层次方法体系结构具有突出的优点:一是具有无限扩展性,全面涵盖所有情报分析方法;二是逻辑上能够体现方法之间的层次区别,凸显专业特色。在此基础上,提出"哲学方法-中介方法-一般方法-应用方法-特色方法"5个层次的公安情报分析方法体系。按照该体系,梳理国内公安情报分析方法研究进展,构建起全面系统的、具有专业特色的公安情报分析方法体系。

杨锐 .

关于情报学方法体系建设的思考

[J]. 情报探索, 2008(5):126-128.

[本文引用: 1]

( Yang Rui .

Thoughts on the Construction of Information Science Method System

[J]. Information Research, 2008(5):126-128.)

[本文引用: 1]

化柏林, 李广建 .

面向情报流程的情报方法体系构建

[J]. 情报学报, 2016,35(2):177-188.

[本文引用: 1]

( Hua Bolin, Li Guangjian .

Constructing Methodology of Intelligence Analysis Based on Intelligence Process

[J]. Journal of the China Society for Scientific and Technical Information, 2016,35(2):177-188.)

[本文引用: 1]

方付建 .

网络舆情研究中量化方法应用态势分析

[J]. 情报杂志, 2014,33(10):47-51.

[本文引用: 1]

( Fang Fujian .

Quantitative Methods Application in Online Public Opinion Researches: A Review

[J]. Journal of Intelligence, 2014,33(10):47-51.)

[本文引用: 1]

左蒙, 李昌祖 .

网络舆情研究综述: 从理论研究到实践应用

[J]. 情报杂志, 2017,36(10):75-82, 144.

[本文引用: 1]

( Zuo Meng, Li Changzu .

A Review of Network Public Opinion: From Theoretical Research to Practical Application

[J]. Journal of Intelligence, 2017,36(10):75-82, 144.)

[本文引用: 1]

刘亚男 .

我国网络舆情研究现状述评

[J]. 情报杂志, 2017,36(5):99-104.

[本文引用: 1]

( Liu Ya’nan .

Review on Chinese Network Public Opinion Research in Recent Years

[J]. Journal of Intelligence, 2017,36(5):99-104.)

[本文引用: 1]

李文杰, 化存才, 何伟全 , .

网络舆情事件的灰色预测模型及案例分析

[J]. 情报科学, 2013,31(12):51-56.

[本文引用: 1]

( Li Wenjie, Hua Cuncai, He Weiquan , et al.

Grey Prediction Model of Network Public Opinion Events and Analysis of Examples

[J]. Information Science, 2013,31(12):51-56.)

[本文引用: 1]

邹伟, 刘永学, 李满春 , .

网络新闻中黄岩岛争端事件舆情研究——以新浪网“中菲黄岩岛争端”专题为例

[J]. 现代图书情报技术, 2014(2):72-78.

[本文引用: 1]

( Zou Wei, Liu Yongxue, Li Manchun , et al.

Research on Public Opinion of the Disputes on Huangyan Island in the Network News: A Case Study of “Special Reports About the Disputes Between China and Philippines on Huangyan Island” on Sina

[J]. New Technology of Library and Information Service, 2014(2):72-78.)

[本文引用: 1]

廖海涵, 王曰芬 .

社交媒体舆情信息传播效果影响因素研究——以新浪微博“8.12天津爆炸”事件为例

[J]. 现代图书情报技术, 2016(12):89-97.

[本文引用: 1]

( Liao Haihan, Wang Yuefen .

Public Opinion Dissemination over Social Media: Case Study of Sina Weibo and “8.12 Tianjing Explosion”

[J]. New Technology of Library and Information Service, 2016(12):89-97.)

[本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn