数据分析与知识发现

Select

“数据要素市场建设共性技术体系框架研究”专题序

王建冬

数据分析与知识发现. 2022, 6(1): 1-1.

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

Select

打造面向全国统一数据要素市场体系的国家数据要素流通共性基础设施平台——构建国家“数联网”根服务体系的技术路径与若干思考

窦悦, 易成岐, 黄倩倩, 莫心瑶, 王建冬, 于施洋

数据分析与知识发现. 2022, 6(1): 2-12. https://doi.org/10.11925/infotech.2096-3467.2021.1411

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 打造面向全国统一数据要素市场体系的国家数据要素流通共性基础设施平台,围绕人、企、车、物、地等基础对象建立数据资源标识统一编码解析体系,引导各方加强数据要素流通全流程中的分类分级标识标定管理,支持提供数据登记备案、供需撮合、信用评估、合规公证、资产评估等共性公共服务,促进全国范围内跨地区、跨行业的数据要素流通交易平台互联互通和融合发展,为参与数据交易各类市场主体提供安全可信流通环境和共性公共服务。【方法】 梳理近几年国内外数据流通交易相关技术研究及应用现状,结合当前国内数据要素市场建设面临的共性问题,提出国家“数联网”根服务体系总体架构。【结果】 明确以数据标识融合、跨区块链及跨隐私计算平台基础支撑体系为依托,以数据流通交易公共服务体系为载体的国家“数联网”根服务体系总体建设思路。【局限】 需进一步研究论证目前提出技术路径的完备性、可扩展性。【结论】 提出的国家“数联网”根服务体系对打造国家数据要素流通共性基础设施,面向社会提供安全可信的共性公共服务和培育数据要素市场与产业生态具有重要作用。

Select

TID-MOP:面向数据交易所场景下的安全管控综合框架

杜自然, 窦悦, 易成岐, 洪博然, 谷明泽, 李琳

数据分析与知识发现. 2022, 6(1): 13-21. https://doi.org/10.11925/infotech.2096-3467.2021.1412

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 为促进数据交易所安全合规发展,本文针对数据交易所场景下的数据交易风险、数据安全风险与基础安全风险,提出兼顾技术路径与机制保障的数据交易安全管控综合框架。【方法】 运用文献调研法,梳理近几年国内外数据交易安全领域的技术与管理研究现状,结合数据交易所实践,提出技术与机制相结合的“TID-MOP”数据交易安全管控体系。【结果】 “TID-MOP”综合框架设计了实现交易安全的“三分三合”核心技术架构,即“业务流、计算流、资金流相分离,通过区块链汇合流通环境”;“撮合实验环境与生产计算环境相分离,通过模型管理、数据管理联动计算环境”;“数据计算与安全监管相分离,通过控制管理中心统一管理监管环境”,提升了数据流通和交易安全性,实现了全流程的安全控制和统一监管。【局限】 需进一步研究验证安全管控综合框架的实际运行效率。【结论】 “TID-MOP”数据交易安全管控综合框架以数据交易过程为核心,为数据交易业务的发展与创新提供重要参考。

Select

数据流通交易场景下数据质量综合管理体系与技术框架研究

黄倩倩,赵正,刘钊因

数据分析与知识发现. 2022, 6(1): 22-34. https://doi.org/10.11925/infotech.2096-3467.2021.1422

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 在数据交易特定场景下,为加强数据流通管理,完善数据流通交易规则,针对数据产品质量评估及管理关注的侧重点,构建一套数据流通交易场景下数据质量综合管理体系与技术框架。【方法】 运用文献调研法梳理国内外数据质量评估现状与数据质量检核常用手段,结合业界经验与数据交易的具体场景,从原始数据集、脱敏数据集、模型化数据和AI化数据4类数据产品出发,提出数据交易流通中场景的质量评估模型,并提出针对场景及业务需求提升数据交易前、交易中和交易后各环节数据质量的管理体系。【结果】 明确以“6543”即六大指标、五类主体、四类产品及三大评估方法为架构的数据交易流通质量评估模型,并为交易前、交易中和交易后对数据产品的规范性、完整性、准确性、一致性、时效性和可访问性的检测和优化提供支撑。【局限】 尚未在真实交易场景中对数据质量模型与管理体系进行系统性使用,框架设计缺乏实践检验。【结论】 提出的质量评估模型与质量管理体系为实现数据交易全过程中数据产品的质量评估与提升具有重要作用。

Select

数据流通场景下的统一隐私计算框架研究——基于深圳数据交易所的实践

曾坚朋, 赵正, 杜自然, 洪博然

数据分析与知识发现. 2022, 6(1): 35-42. https://doi.org/10.11925/infotech.2096-3467.2021.1420

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 为保障数据安全流通,促进数据流通交易市场发展,针对隐私计算平台在数据流通场景的互联互通问题,构建标准化的统一隐私计算框架。【方法】 梳理隐私计算技术与平台发展现状,结合当前数据流通问题与数据交易所实践,提出基于数据流通场景的统一隐私计算框架。【结果】 提出三层架构实现与数据交易平台的业务联动、流通过程中的统一监管、互联互通的标准规范管理;两类互通实现数据流通交易平台与隐私计算平台的互联互通及不同隐私计算平台间互联互通;一个生态实现数据要素流通交易生态。【局限】 隐私计算技术尚未得到大规模商业应用的检验;隐私计算技术在计算安全性与计算效率方面尚未达到平衡。【结论】 基于数据流通交易场景的统一隐私计算框架有利于将隐私计算技术与数据流通紧密结合,促使数据价值最大化,并为实现隐私计算互联互通提供落地参考路径。

Select

基于数据要素流通视角的数据溯源研究进展

王晓庆, 孙战伟, 吴军红, 杜自然, 钱城江

数据分析与知识发现. 2022, 6(1): 43-54. https://doi.org/10.11925/infotech.2096-3467.2022.0017

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 通过文献梳理分析数据溯源研究进展及应用场景,以期为数据交易平台搭建、行业数据治理建设和数字政府治理建设提供参考。【方法】 从数据溯源模型、数据溯源方法和数据溯源应用分别进行归纳和分析,并在此基础上探讨研究现状和不足之处。【结果】 无论是在内容描述、模型构建,还是场景应用方面,数据溯源研究均取得了丰富成果,表现为数据溯源质量得以提高、数据溯源安全得以保障、数据溯源效率得以提升。【局限】 基于要素流通视角对数据溯源的研究起步相对较晚、研究成果不够丰富、研究体系尚未形成、研究重点偏向实证。【结论】 可从与数据要素市场相结合,积极推进数据交付使用常态化;加快推进数据溯源标准工作,积极推进数据使用工作制度化;不断提升数据溯源信息质量,积极推进数据服务优质化;高度重视数据溯源信息安全,积极推进数据信息使用规范化;高标准搭建数据溯源平台,积极推动数据要素市场健康化发展等方面进行深入研究。

Select

突发公共卫生事件情境下网民对政务微博信任度的测度

安璐, 徐曼婷

数据分析与知识发现. 2022, 6(1): 55-68. https://doi.org/10.11925/infotech.2096-3467.2021.0631

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 在突发公共卫生事件情境下,计算网民对政务微博的信任度,探究信任度变化的原因。【方法】 根据评论对象、评论与微博的主题相似度、情感倾向三部分的匹配结果计算政务微博的评论区信任值,将点赞和转发作为政务微博的点赞信任值和转发信任值,计算网民对政务微博的综合信任度。【结果】 使用新冠疫情的微博数据进行实证分析,发现行业战疫相关的话题可以提升政务微博的信任度,境内疫情对网民信任度的作用会受到行业战疫和政府行动的影响;不同行业的政务微博信任度的变化趋势及原因有较大差异。【局限】 微博评论的对象只考虑了事件和博主两种可能性。【结论】 研究结果揭示了疫情期间网民对不同行业的政务微博信任度的变化趋势和变化原因,为政府部门在突发公共卫生事件期间的决策制定、信任修复和提升、舆情引导提供数据与方法支持。

Select

基于网络分析和文本挖掘的意见领袖影响力研究

孙羽, 裘江南

数据分析与知识发现. 2022, 6(1): 69-79. https://doi.org/10.11925/infotech.2096-3467.2021.0407

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 研究意见领袖类别划分方法,从多角度对不同类别意见领袖特点做出评价。【方法】 提出利用社团划分识别意见领袖类别的方法,并利用二维分析框架模型从网络扩散能力和文本情绪支配度两维度综合分析意见领袖影响力。实证分析选取推特数据,通过网络分析和文本挖掘对不同类别意见领袖进行对比。【结果】 意见领袖被识别为三类社团,在网络扩散能力和情绪支配度两维度呈现不同排名,且两维度相关系数的绝对值小于0.3,不具备相关性,二维矩阵分析相较传统加权求和的方法能更全面地反映影响力特点。【局限】 在文本情绪影响力评价中,只对原文的文本进行分析,后续研究可结合评论内容对意见领袖做出进一步评价。【结论】 本文方法有助于分析不同类别意见领袖影响公众的程度和特点,帮助管理者有针对性地挖掘各类意见领袖的舆论引导价值,引导风险事件中的舆论导向。

Select

基于SEIR模型的网络医疗众筹传播建模与仿真分析

曹广, 沈丽宁

数据分析与知识发现. 2022, 6(1): 80-90. https://doi.org/10.11925/infotech.2096-3467.2021.0812

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 探究网络医疗众筹传播机理和筹资的公平性。【方法】 分析医疗众筹项目的传播过程,结合SEIR模型考虑个体特征和决策行为,基于NetworkX建立医疗众筹传播模型并进行仿真实验。【结果】 在传播过程上,发起者节点度、项目感染力和网络结构影响项目的传播速度和范围。在筹资公平性上,发起者节点度、项目感染力和个体财富与项目筹款金额正相关（相关系数为0.49、0.47和0.63）;众筹前后社会财富向更富者聚集;个体出资不满足“定比”方式。【局限】 模型考虑的人群特征较少,未考虑性别、年龄、职业背景等。【结论】 仿真模型能够有效模拟医疗众筹在社交媒体上的传播过程,为探究医疗众筹的筹款能力和对医疗资源的筹资公平性提供方法支持。

Select

融合聚类信息的技术主题图可视化方法研究

汪雪锋, 任惠超, 刘玉琴

数据分析与知识发现. 2022, 6(1): 91-100. https://doi.org/10.11925/infotech.2096-3467.2021.0858

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 弥补主题聚类后单一色彩技术主题图可视化辨识度有限,增强聚类后技术主题图的表现力,丰富科技情报分析人员的技术主题图可视化方法和软件工具选择范围。【方法】 提出融合聚类信息的技术主题图可视化方法,应用网络布局算法进行主题词的平面布局,建立平面像素点类密度函数、色彩强度函数,依据类密度和色彩强度值进行色彩渲染,得到聚类后的技术主题图。【结果】 该可视化方法嵌入到文本挖掘与可视化软件工具ItgInsight中,并应用于量子密码通信专利数据进行案例分析,结果表明该方法简单有效。【局限】 绘制的技术主题图是非矢量图,绘制效率可进一步优化。【结论】 融合聚类信息的技术主题图可视化方法增强了主题区分度,可更好地揭示技术主题结构、技术主题之间的关系。

Select

基于MFFMB的电商评论文本分类研究

谢星雨, 余本功

数据分析与知识发现. 2022, 6(1): 101-112. https://doi.org/10.11925/infotech.2096-3467.2021.0503

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 为缓解在公开论坛、企业后台数据仓库的数据自动化分类及存储过程中,由于电商评论文本具有一词多义、信息分布稀疏等特点而造成的处理困难,本文设计基于BERT语言模型和多通道特征抽取的文本分类模型,实现评论文本的自动化分类。【方法】 考虑到中文文本的最小表达单元是字,通过BERT的字向量编码联动TextCNN缓解一词多义的问题。为捕获长距离上下文语义信息,模型设计了BERT联动Bi-LSTM的通道。充分利用BERT的微调机制,使字向量编码根据两个通道的特征抽取方式进行调整,从而得到适配局部和长距离特征抽取的字向量编码结果。模型最终融合两个通道的特征向量,完成文本分类任务。【结果】 本文提出的MFFMB（Multi-Features Fusion Model BERT-based）模型在公开的电子商务评论多分类数据集上的准确率高达0.9007,相对于基线模型BERT+TextCNN、BERT+BiLSTM、BERT+LSTM+MaxPooling、BERT+LSTM+Attention分别提升2.36、8.55、4.61、5.11个百分点。同时,实验结果说明BERT和注意力机制的引入,相对于基线模型中的较优者,准确率分别提升约1.48和4.81个百分点。【局限】 注意力机制仅在BiLSTM通道引入,没有在全局设计;本文模型未在更多数据集上验证效果。【结论】 本文模型能够更好地结合多维度信息,更加充分地挖掘BERT预训练模型在文本分类任务上的作用,提高了分类的准确性。

Select

MWEC:一种基于多语义词向量的中文新词发现方法

张乐, 冷基栋, 吕学强, 袁梦龙, 游新冬

数据分析与知识发现. 2022, 6(1): 113-121. https://doi.org/10.11925/infotech.2096-3467.2021.0684

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 提出一种基于多语义词向量的中文新词发现方法（MWEC）,解决多领域社交媒体文本的分词不准确问题。【方法】 利用社交媒体文本,结合中文知网和汉字笔画数据库训练多语义词向量,以解决语义混淆问题。使用N-gram频繁字符串挖掘方法识别相关度高的子词集合,以此获取新词候选集。利用多语义词向量的语义相似度评估候选词进而获得新词。【结果】 在金融、体育、旅游和音乐4个领域数据集上进行实验,结果表明本文方法的F1指标较对比方法分别提升了2.0（金融）、3.0（体育）、2.6（旅游）、11.3（音乐）个百分点。【局限】 候选词生成策略着重关注子词的热度,低频词很难被识别出来。【结论】 通过增强词向量的语义理解能力,利用多语义词向量对新词候选词进行剪枝,能有效提升针对中文社交媒体文本的新词发现能力。

Select

融合多自然语言处理任务的中医辅助诊疗方案研究——以糖尿病为例

张玉洁, 白如江, 许海云, 韩靖, 赵梦梦

数据分析与知识发现. 2022, 6(1): 122-133. https://doi.org/10.11925/infotech.2096-3467.2021.0409

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 为中医诊断治疗提供更精准、更智能的辅助参考,减少中医诊疗过程中的不确定性和难以量化的问题。【方法】 以中医糖尿病医案数据为例,设计一种融合多自然语言处理任务的中医辅助诊疗方案,该方案融合情感识别、文本匹配等多自然语言处理任务序列,实现糖尿病的病情量化评估、症状信息匹配、症状自动摘要、病症类型判别和中药推荐,并进行实证研究。【结果】 以模糊综合评价法进行10轮测试评估,在4项评价指标的平均隶属度分别为0.1949、0.3140、0.2173、0.2738,最大隶属度结果显示该方法效果为良好。【局限】 临床医案数据稀缺,因此各子任务性能难以实现大幅度提升;未扩展到其他领域进行适应性检测。【结论】 该方法在实际使用过程中能够有效地帮助医生解决诊断的不确定性问题,较好地辅助医生形成明确的诊疗结论,具有较为新颖的学术价值和重要的应用价值。

Select

基于SPO语义三元组的疾病知识发现

蔡妙芝, 李晓瑛, 赵嘉玮, 冯凤翔, 任慧玲

数据分析与知识发现. 2022, 6(1): 134-144. https://doi.org/10.11925/infotech.2096-3467.2021.0612

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 对PubMed收录的高证据疾病文献进行挖掘与知识发现,为疾病临床诊疗和日常防控提供借鉴。【方法】 利用语义抽取工具SemRep,提出基于SPO语义三元组的疾病知识发现模型,选取糖尿病相关文献对模型进行验证,结合可视化及临床知识进行糖尿病知识发现。【结果】 获得糖尿病SPO三元组1 258个,语义关系16个,揭示了糖尿病相关的基因、常见的并发症、检测手段及治疗方式。【局限】 数据来源为公开发表的文献,未从知识库、电子病历等真实世界数据发现疾病知识。【结论】 验证了基于SPO语义三元组的疾病知识发现模型用于揭示大规模文献中隐含的生物医学知识的可行性,有助于为生物医学科研人员提供潜在的研究假设和思路参考。

选择文件类型/文献管理软件名称

选择包含的内容

2022年, 第6卷, 第1期　
刊出日期：2022-01-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2022年, 第6卷, 第1期 刊出日期：2022-01-25

2022年, 第6卷, 第1期　
刊出日期：2022-01-25