数据分析与知识发现

2021年, 第5卷, 第10期　刊出日期：2021-10-25

选择:

合并摘要

导出引用管理器
EndNote Reference Manager ProCite BibTeX RefWorks

研究论文

Select

基于多特征融合的中文文本分类研究^*

王艳, 王胡燕, 余本功

数据分析与知识发现. 2021, 5 (10): 1-14. DOI: 10.11925/infotech.2096-3467.2021.0228

摘要

HTML ( 44 )

PDF(1099KB) ( 968 )

【目的】 通过结合拼音字符特征、汉字字符特征、词级别语义特征和词性特征,缓解文本所呈现出的弱结构化、拼写错误及其同音词较多的问题,丰富语义特征,提高模型的分类能力。【方法】 多特征融合的文本分类方法,在词级别特征的基础上进行词性特征、汉字字符特征和拼音字符特征构建多特征语义表示,然后将特征输入BiGRU中获取上下文语义特征,输入CNN中获取局部语义特征,最终将特征进行融合并输入Softmax中进行分类,预测需要的类别标签。【结果】 在两个不同的数据集下,多特征融合的模型的准确率分别达到83.3%和91.1%,比其他分类模型准确率至少提升了7个百分点。【局限】 实验数据数量较少,未在更多的数据集上进行验证。【结论】 所提方法提升了模型的语义表征能力,是一种有效的文本分类模型,为企业进行高效文本分类提供了有效支持。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

政民互动中社会诉求主题挖掘和省际差异研究^*——基于省级政府领导电子信箱语料的分析

胡广伟, 滕婕, 刘露

数据分析与知识发现. 2021, 5 (10): 15-27. DOI: 10.11925/infotech.2096-3467.2021.0142

摘要

HTML ( 20 )

PDF(2379KB) ( 274 )

【目的】 挖掘领导信箱文本蕴含的主题,更好地感知、回应公众诉求,为政府服务和社会治理的和谐有序发展提供支撑。【方法】 对27个省和4个直辖市的政府领导电子信箱文本数据进行爬取,得到106 810条有效数据,应用LDA建模方法提取文本主题,构建公众诉求热点分类表;针对诉求的地区性差异,对不同省市进行对比分析,挖掘社会治理问题中的省际化差异特征。【结果】 社会诉求主题主要集中于民生服务、社会发展、教育服务、卫生健康、法律服务和资源生态等领域;公众诉求类目具有明显的省际差异,如山西对劳动就业、江西对出行、河南对教育主体、上海对住房、广西对企业等更为关注。【局限】 未考虑多渠道公众诉求数据的综合运用,未对相应算法和分析方法进行深入的智能优化。【结论】 聚焦社会诉求具体内容以挖掘诉求热点,为构建社会关切的全景视图及支撑政府治理决策提供参考。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于多种支持向量机的多层级联式分类器研究及其在信用评分中的应用^*

冯昊, 李树青

数据分析与知识发现. 2021, 5 (10): 28-36. DOI: 10.11925/infotech.2096-3467.2021.0096

摘要

HTML ( 13 )

PDF(1182KB) ( 241 )

【目的】 主要面向广受关注的金融机构信用评分问题,利用机器学习方法,研究基于多种支持向量机的多层级联式分类器方法在其中的应用。【方法】 所提分类器是一种混合模型,结合遗传算法、机器学习和集成学习思想,框架包含支持向量机分类器、归一化方法、特征提取、参数优化、10折交叉验证等多种技术。重点在层数加深策略、属性复用方法、适应度函数多样化等方面做了深入细致的方法研究和实验论证。【结果】 实验发现,经过遗传算法优化的支持向量机在应用于Australian Credit Approval数据集时,预测准确率可以随着层数的增加而提高,整体框架预测准确率达到93.33%。【局限】 仅使用支持向量机这一种方法,仍需要进一步尝试使用更多分类器进行优化。同时,由于框架中分类器较多,且拥有多层结构,需要较长时间进行训练和优化。【结论】 所提分类器可以有效应用于各种金融领域的信用评分服务,也可以用于其他类似的二分类问题。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

融合主题模型与决策树的跨地区专利合作关系发现与推荐^*——以广东省和武汉市高校专利库为例

陈浩, 张梦毅, 程秀峰

数据分析与知识发现. 2021, 5 (10): 37-50. DOI: 10.11925/infotech.2096-3467.2021.0194

摘要

HTML ( 18 )

PDF(1569KB) ( 320 )

【目的】 为促进跨地区的专利合作与知识交流,充分挖掘专利的人物关系特征和内容特征,扩展创新合作空间,优化创新要素的分配,整体提升创新水平,提出一种融合LDA与决策树模型的跨地区专利合作关系发现方法。【方法】 选取incoPat专利数据库中广东省和武汉市985高校的22 855条专利数据。利用LDA主题模型,对专利的领域离散度、权威度和技术度三个维度进行主题抽取和聚类,构建决策树并调整决策边界,从而动态识别出最优合作关系;最后根据发明人网络有效规模值选出最优挖掘策略,从而实现合作关系的发现与推荐。【结果】 该方法可从专利数量排名前4的专利大类里发现18对潜在跨地区合作关系,而在链路预测方法下,合作网络的节点邻接关系稀疏,无法完成跨地区合作关系推荐。【局限】 采集的数据范围有限,且需进一步从横向和纵向两个方面考虑企业等产学研主体和技术产业链上、中、下游对实际创新生态的影响,确认方法的适用性。【结论】 融合LDA与决策树的跨地区专利合作关系发现方法,可以有效识别网络中的潜在合作关系,充分发挥不同地区之间的领域组合在提升创新水平上的优势,为跨地区、多领域条件下的专利合作提供参考。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于Overlay图谱的图情领域大数据主题分析^*

陈仕吉, 邱均平, 余波

数据分析与知识发现. 2021, 5 (10): 51-59. DOI: 10.11925/infotech.2096-3467.2021.0113

摘要

HTML ( 21 )

PDF(2815KB) ( 464 )

【目的】 从大数据研究的整体视角分析图情领域大数据的研究主题,并进一步讨论研究发展趋势。【方法】 以“大数据”为主题检索Web of Science获得原始文献集,根据引用关系剔除和扩充文献,利用Leiden算法和VOSViewer软件构建了大数据研究知识图谱,最后通过图情领域论文分布Overlay图谱和引文Overlay图谱分析该领域的大数据研究主题。【结果】 从论文分布Overlay图谱来看,图情领域大数据研究主要集中在大数据分析和社交媒体分析,其次是云计算、Hadoop、MapReduce、机器学习等;从引文Overlay图谱来看,除大数据分析和社交媒体分析外,云计算、机器学习、健康信息、精准医疗、工业4.0和物联网也是图情领域关注较多的主题。【局限】 大数据研究涉及的论文较多,只能从宏观上分析大数据环境下图情领域的主题和发展趋势。【结论】 大数据研究是图情领域的重要研究主题和发展趋势,目前的研究主要集中在大数据分析和社会媒体分析,而机器学习、健康信息、精准医疗、工业4.0和物联网可能是未来关注和发展的方向。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

上下位关系抽取方法及其在金融市场的应用^*

戴志宏, 郝晓玲

数据分析与知识发现. 2021, 5 (10): 60-70. DOI: 10.11925/infotech.2096-3467.2020.1261

摘要

HTML ( 14 )

PDF(908KB) ( 439 )

【目的】 针对知识图谱的上下位关系抽取技术,提出基于映射矩阵和词向量相似度相结合的抽取方法,并探索在实际应用中的有效性。【方法】 构建对应不同类别上下位词对的多个映射矩阵,充分运用实体词汇及其上下文包含的语义信息,进而利用映射矩阵识别实体词对间是否存在上下位关系。【结果】 该方法在测试集上的综合表现比已有方法的F1值高出0.032 1。以上市公司为数据集的实验结果表明,该方法有助于研究公司相似度和股票联动的相关性。【局限】 可尝试对更多的上下位词对聚类,以更精准地区分上下位关系的类别;可引入模式匹配方法,对该方法进行补充,提升抽取效果。【结论】 所提方法能够有效进行实体上下位关系识别,并能有效帮助挖掘金融市场中存在关联的上市公司、股票板块等,在金融领域的知识图谱构建中有推广和应用前景。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

一种用于实体关系三元组抽取的位置辅助分步标记方法^*

王媛, 时恺泽, 牛振东

数据分析与知识发现. 2021, 5 (10): 71-80. DOI: 10.11925/infotech.2096-3467.2021.0302

摘要

HTML ( 18 )

PDF(1485KB) ( 201 )

【目的】 针对非结构化文本中的三元组抽取问题,设计能够提升抽取效果并适用于重叠场景的联合抽取模型。【方法】 设计一种基于位置感知的分步标记方法,首先通过标记头尾位置确定主实体,接着在逐一预设的关系属性下标记相应的客实体。为提升抽取效果,在标记过程中引入三重位置辅助信息,并结合前序结果及注意力机制共享底层编码。【结果】 在中文公开数据集DuIE上进行实验,结果表明所提方法优于其他基线方法,F1值达0.886。此外,还通过消融研究对各组件的有效性进行验证。【局限】 标记机制和匹配模式尚未考虑到偶现的嵌套实体问题,有待进一步探索。【结论】 所提联合抽取方法可以妥善解决包括重叠场景在内的三元组抽取问题,模型采用的位置辅助设计对后续研究有借鉴意义。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于科技政策文本的程度词典构建研究^*

郑新曼, 董瑜

数据分析与知识发现. 2021, 5 (10): 81-93. DOI: 10.11925/infotech.2096-3467.2021.0148

摘要

HTML ( 14 )

PDF(1457KB) ( 355 )

【目的】 利用词典法辨识和量化我国科技政策文本用语中蕴含的决策者态度及其强弱程度,解决现有中文政策文本研究忽视词语语义强度的问题。【方法】 立足科技政策的功能定位和用语特征,提出程度词的概念。兼顾数量和语义构建程度词典,包括依据专家知识选取种子词,利用PMI算法进行词语扩展,使用同义词词林筛选词语。最后结合TextRank算法进行实验验证。【结果】 经信度和效度检验,构建的程度词典有效,结合程度词典的政策文本分析细粒度优于使用单一的文本挖掘算法。【局限】 程度词典的权重设计有待细化。【结论】 科技政策文本中的程度词丰富、规范且稳定,具有量化分析的价值;词典法可以有效识别并利用程度词,有助于深入挖掘政策文本的语义特征。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于用户细粒度属性偏好聚类的推荐策略^*

杨辰, 陈晓虹, 王楚涵, 刘婷婷

数据分析与知识发现. 2021, 5 (10): 94-102. DOI: 10.11925/infotech.2096-3467.2021.0291

摘要

HTML ( 15 )

PDF(1006KB) ( 384 )

【目的】 针对推荐系统研究中主要依赖用户对项目的评分信息所带来的稀疏性问题,提出一种基于细粒度属性偏好聚类的新型推荐模型。【方法】 首先对项目-属性关系和用户-属性偏好进行建模,然后采用聚类方法分别从用户和项目两个角度构建相似簇,最后基于用户簇或项目簇采用协同过滤算法生成推荐列表。【结果】 基于豆瓣数据集的实验结果表明,所提模型在准确率和召回率上均表现最优,均值较次优方法分别提升了19.7%和44.6%,验证了用户属性建模和聚类策略的有效性。【局限】 在多维细粒度属性信息的表征和建模上需要进一步探究。【结论】 基于用户细粒度属性偏好建模能更深层次地表征用户兴趣,从而实现推荐效果的提升。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于LDA的众筹项目在线评论主题动态演化分析^*

王伟, 高宁, 徐玉婷, 王洪伟

数据分析与知识发现. 2021, 5 (10): 103-123. DOI: 10.11925/infotech.2096-3467.2021.0029

摘要

HTML ( 20 )

PDF(1927KB) ( 359 )

【目的】 揭示文本作者对项目的关注点以及态度变化,深入分析众筹项目在线评论主题动态演化规律。【方法】 采用来自Kickstarter的6 537个科技类项目的497 936条在线评论为语料,使用LDA进行建模,分析在线融资项目评论主题的演化过程,并使用余弦相似度得到主题状态的演化模式。【结果】 融资初期在线评论聚焦于项目基本信息;融资中期聚焦于投资回报以及产品信息;融资末期聚焦于回报邮寄等。融资成功项目从项目信息描述、产品特征等过渡到等待产品以及产品到达等主题;融资失败项目主题逐渐演化为未来重启、项目前景。【局限】 没有区分项目类别,未来需要尝试分析不同项目类别之间的差异。另外,仅聚焦于基于回报的众筹模式,而没有考虑其他众筹模式,如股权众筹、教育众筹等也是未来的研究方向。【结论】 得到了众筹项目评论的主题强度、内容演化和状态演化,为众筹参与各方提供了丰富启示。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于知识融合的政务信息化项目多专家审批意见整合^*

华斌, 吴诺, 贺欣

数据分析与知识发现. 2021, 5 (10): 124-136. DOI: 10.11925/infotech.2096-3467.2021.0137

摘要

HTML ( 6 )

PDF(1340KB) ( 333 )

【目的】 提出一种利用知识融合实现政务信息化项目多专家审批意见短文本的整合方法,实现以认知层知识融合为主导的综合意见生成。【方法】 通过对专家意见进行内容挖掘完成知识获取;利用目标知识概念树与自定义方法对其进行实体层次性语义挖掘;利用领域本体在文本结构模型基础上实现微观和宏观层的知识融合并生成综合意见。【结果】 对比原始多专家审批意见,基于知识融合生成的综合意见信息量增加0.19,所含知识元的平均比值达到115.38%,均显示了所提方法的有效性。【局限】 受到专家意见语言规范程度与领域知识完整度的影响。【结论】 利用科学的知识补充与表示,所提方法较传统的短文本整合方法显示出更好的问题针对性、知识覆盖程度和可推广性,也取得了良好的应用效果。

图表 | 参考文献 | 相关文章 | 多维度评价