Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (12): 41-51    DOI: 10.11925/infotech.2096-3467.2019.0502
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于标签语义挖掘的城市画像感知研究 *
毕崇武,叶光辉(),李明倩,曾杰妍
华中师范大学信息管理学院 武汉 430079
Discovering City Profile Based on Tag Semantic Mining
Chongwu Bi,Guanghui Ye(),Mingqian Li,Jieyan Zeng
School of Information Management, Central China Normal University, Wuhan 430079, China
全文: PDF(681 KB)   HTML ( 19
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】为获取公众对城市整体状况的共同认知, 提出一种基于标签语义挖掘的城市画像感知方法。【方法】利用标签相似度和凝聚式层次聚类算法, 提出一种具有层级结构的城市画像描述框架; 借鉴LSA潜在语义挖掘思想, 计算不同标签揭示城市画像语义特征的重要程度; 最后筛选出具有较高城市画像解释度的标签集合, 将其与城市画像描述框架整合, 生成具有层级结构的城市画像。【结果】基于知乎平台中的用户评论数据, 提取我国中部6省省会城市的结构化城市画像, 获得多个维度下公众对各城市整体状况的共同感知。【局限】如何自动化抽取高质量的社会化标签并引入语义词典生成更合理的描述框架有待进一步探究。【结论】本文方法能够从海量社会化标签中提取反映公众认知的城市画像, 并能深入到层级结构内部展开细粒度的城市画像描述。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
毕崇武
叶光辉
李明倩
曾杰妍
关键词 城市画像社会化标签凝聚层次聚类潜在语义挖掘    
Abstract

[Objective] This research proposes a method to discover city profile based on semantic mining, aiming to obtain public awareness of the city. [Methods] Firstly, we generated a description framework of the city profile with hierarchical structure based on tags similarity and agglomerative hierarchical clustering. Secondly, we calculated the importance of social tags to reveal semantic features of cities based on latent semantic mining. Finally, we filtered out social tags with high explanation degree of city profile, and integrated them with the description framework of city profile to establish the hierarchical structure. [Results] With users’ reviews from Zhihu, we established the structural city profiles of six provincial capitals from central China, which identified the public perception of these cities. [Limitations] More research is needed to extract high-quality social tags automatically and generate a better description framework for the city profiles. [Conclusions] The proposed method could extract city profiles from massive social tags and develop fine-grained descriptions.

Key wordsCity Profile    Social Tags    Hierarchical Agglomerative Clustering    Latent Semantic Mining
收稿日期: 2019-05-12     
中图分类号:  G251  
基金资助:*本文系国家自然科学基金项目“基于标签语义挖掘的城市画像计算与应用模型研究”(项目编号: 71804055);湖北省自然科学基金“基于社会化标签挖掘的智慧城市“印象云”构建模式研究”(项目编号: 2018CFB387);中央高校基本科研业务费项目“基于社会化标签挖掘的城市画像研究”(项目编号: CCNU18QN040)
通讯作者: 叶光辉     E-mail: 3879-4081@163.com
引用本文:   
毕崇武,叶光辉,李明倩,曾杰妍. 基于标签语义挖掘的城市画像感知研究 *[J]. 数据分析与知识发现, 2019, 3(12): 41-51.
Chongwu Bi,Guanghui Ye,Mingqian Li,Jieyan Zeng. Discovering City Profile Based on Tag Semantic Mining. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2019.0502.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0502
图1  数据预处理流程
标签 空间向量
发展快 (1.94 '发展',2.49 '快')
历史名城 (2.60 '历史',3.38 '名城')
发展空间大 (1.94 '发展',3.2885 '空间',2.12 '大')
有历史文化底蕴 (2.60 '历史',2.81 '文化底蕴')
具有浓厚的文化底蕴 (3.45 '具有',3.05 '浓厚',2.81 '文化底蕴')
表1  社会化标签文本空间向量(部分)
标签Ta 标签Tb 相似度
发展快 历史名城 0.00
发展快 发展空间大 0.27
发展快 有历史文化底蕴 0.00
发展快 具有浓厚的文化底蕴 0.00
历史名城 发展空间大 0.00
历史名城 有历史文化底蕴 0.41
历史名城 具有浓厚的文化底蕴 0.00
发展空间大 有历史文化底蕴 0.00
发展空间大 具有浓厚的文化底蕴 0.00
有历史文化底蕴 具有浓厚的文化底蕴 0.38
表2  社会化标签语义相似度计算结果(部分)
图2  城市画像描述框架
标签 长沙 合肥 南昌 太原 武汉 郑州
交通拥堵 98 4 0 42 438 16
大学生多 0 60 0 0 255 0
物价便宜 80 74 56 0 2 0
宜居 11 10 16 110 0 1
雾霾严重 6 10 0 9 11 170
发展快 22 26 0 7 13 19
表3  原始城市-标签矩阵(部分)
标签 长沙 合肥 南昌 太原 武汉 郑州
交通拥堵 6.63 2.32 0.00 5.43 8.78 4.09
大学生多 0.00 5.93 0.00 0.00 8.00 0.00
物价便宜 6.34 6.23 5.83 0.00 1.59 0.00
宜居 3.59 3.46 4.09 6.79 0.00 1.00
雾霾严重 2.81 3.46 0.00 3.32 3.59 7.42
发展快 4.52 4.75 0.00 3.00 3.81 4.32
表4  标签局部权重计算结果(部分)
标签 标签全局权重 标签 标签全局权重 标签 标签全局权重
有雾霾 3.30 交通很便利 2.59 鱼米之乡 1.70
发展快 3.20 冬天太冷 2.55 烧卖 1.50
工资低 2.82 包容 2.29 鸡蛋灌饼 1.44
物价便宜 2.86 宜居 2.26 贫富差距大 1.42
历史悠久 2.75 地理位置好 2.14 面食多 1.37
房价贵 2.74 适合生活 1.92 小龙虾 1.04
表5  标签全局权重计算结果(部分)
城市 长沙 合肥 南昌 太原 武汉 郑州
资源全局权重 0.83 1.49 1.37 0.59 1.20 1.66
表6  资源全局权重计算结果
长沙 合肥 南昌
描述层级 城市画像 权重 描述层级 城市画像 权重 描述层级 城市画像 权重
饮食特色 美食很多 19.92 历史文化 历史悠久 37.33 饮食特色 美食很多 28.97
历史文化 文化底蕴深厚 14.22 吸引力 留不住人才 30.80 居住感受 生活节奏慢 28.34
物价 物价便宜 13.81 房价 房价高 29.88 物价 物价低 27.81
气候状况 夏天热 13.69 污染状况 有雾霾 27.70 吸引力 留不住人才 26.19
交通 交通拥堵 12.15 城市发展 发展很快 25.84 总体评价 二线城市 25.61
城市发展 发展快 12.00 包容性 包容 25.50 居住感受 有人情味 22.78
人口 美女多 11.91 饮食特色 美食多 25.00 污染状况 空气好 22.23
教育 教育资源丰富 11.58 污染状况 空气好 24.67 气候状况 冬冷夏热 20.98
气候状况 冬天冷 10.85 物价 物价便宜 24.36 总体评价 20.80
气候状况 天气变化无常 10.20 包容性 不排外 24.26 气候状况 春如四季 18.90
太原 武汉 郑州
描述层级 城市画像 权重 描述层级 城市画像 权重 描述层级 城市画像 权重
历史文化 历史悠久 16.92 吸引力 留不住人才 26.59 饮食特色 美食多 46.70
感情 第二故乡 12.06 饮食特色 美食很多 26.14 历史文化 历史悠久 41.30
吸引力 人才流失严重 11.71 总体评价 有人情味 26.12 收入 工资低 37.81
饮食特色 美食多 11.62 历史文化 历史悠久 25.93 人口 人多 34.09
包容性 包容性强 10.97 饮食特色 美食多 25.92 城市发展 发展很快 33.84
收入 工资低 10.12 物价 物价低 23.57 污染状况 有雾霾 31.32
城市发展 发展飞速 10.12 交通 交通拥堵 23.28 总体评价 有人情味 30.48
交通 公交便宜 10.08 包容性 包容 21.91 交通 堵车严重 27.55
居住感受 生活节奏慢 9.87 地理环境 地理位置好 21.88 交通 交通枢纽 27.36
交通 出行方便 9.29 气候状况 天气变化无常 21.52 污染状况 雾霾严重 24.84
表7  城市画像计算结果(TOP 10)
[1] 李纲, 李阳 . 面向决策的“城市病”诊治情报服务探索[J]. 图书情报工作, 2016,60(14):121-127.
( Li Gang, Li Yang . Decision-Oriented Intelligence Service on the Diagnosis and Treatment of the “Urban Disease”[J]. Library and Information Service, 2016,60(14):121-127.)
[2] 李阳, 李纲 . 从情报学视角看“城市病”:一个新的解析与应用[J]. 情报杂志, 2016,35(7):31-36.
( Li Yang, Li Gang . Some Studies on Urban Disease from the Perspective of Intelligence Studies: New Analysis and Application[J]. Journal of Intelligence, 2016,35(7):31-36.)
[3] 林奇·凯文 . 城市的印象[M]. 项秉仁译. 北京: 中国建筑工业出版社, 1990.
( Lynch K . Impression of the City[M]. Translated by Xiang Bingren. Beijing: China Architecture & Building Press, 1990.)
[4] Laaksonen P, Laaksonen M, Borisov P , et al. Measuring Image of a City: A Qualitative Approach with Case Example[J]. Place Branding, 2006,2(3):210-219.
[5] Luque-Martínez T, Barrio-García S D, Ibáñez-Zapata J Á , et al. Modeling a City’s Image: The Case of Granada[J]. Cities, 2007,24(5):335-352.
[6] 谢永俊, 彭霞, 黄舟 , 等. 基于微博数据的北京市热点区域意象感知[J]. 地理科学进展, 2017,36(9):1099-1110.
( Xie Yongjun, Peng Xia, Huang Zhou , et al. Image Perception of Beijing’s Regional Hotspots Based on Microblog Data[J]. Progress in Geography, 2017,36(9):1099-1110.)
[7] Wong C U I, Qi S . Tracking the Evolution of a Destination’s Image by Text-mining Online Reviews - the Case of Macau[J]. Tourism Management Perspectives, 2017,23:19-29.
[8] Liu L, Zhou B L, Zhao J H , et al. C-IMAGE: City Cognitive Mapping Through Geo-tagged Photos[J]. Geo Journal, 2016,81(6):817-861.
[9] 张恒婷 . 社交网络图像垃圾标签去除研究[D]. 保定: 华北电力大学, 2012.
( Zhang Hengting . Research on Filtering Tag Spam of Social Network Images[D]. Baoding:North China Electric Power University, 2012.)
[10] 王贤兵 . 社会标注可信度评价方法研究[D]. 武汉: 华中科技大学, 2012.
( Wang Xianbing . Research on Method of Evaluating Confidence of Social Annotations[D]. Wuhan: Huazhong University of Science & Technology, 2012.)
[11] 刘苏祺, 白光伟, 沈航 . 基于用户自描述标签的层次分类体系构建方法[J]. 计算机科学, 2016,43(7):224-229, 239.
( Liu Suqi, Bai Guangwei, Shen Hang . Taxonomy Construction Based on User Self-describling Tags[J]. Computer Science, 2016,43(7):224-229, 239.)
[12] 杨尊琦, 赵瑾珺 . 新浪微博用户领域分类标签的结构和互动研究[J]. 情报杂志, 2014,33(4):122-127.
( Yang Zunqi, Zhao Jinjun . Structure and Interaction: The User Category Tags on the Sina Microblog[J]. Journal of Intelligence, 2014,33(4):122-127.)
[13] 于海鹏, 翟红生 . 一种子空间聚类算法在多标签文本分类中应用[J]. 计算机应用与软件, 2014,31(8):288-291.
( Yu Haipeng, Zhai Hongsheng . Applying a Subspace Clustering Algorithm in Multi-label Text Classification[J]. Computer Applications and Software, 2014,31(8):288-291.)
[14] 韩松涛, 潘云鹤 . 基于“学术单元”的知识组织新框架: 多维度标签构建研究[M]. 杭州: 浙江大学出版社, 2017.
( Han Songtao, Pan Yunhe . A New Framework for Knowledge Organization Based on “Academic Unit”[M]. Hangzhou: Zhejiang University Press, 2017.)
[15] 曹高辉, 焦玉英, 成全 . 基于凝聚式层次聚类算法的标签聚类研究[J]. 现代图书情报技术, 2008(4):23-28.
( Cao Gaohui, Jiao Yuying, Cheng Quan . Research on Tag Cluster Based on Hierarchical Agglomerative Clustering Algorithm[J]. New Technology of Library and Information Service, 2008(4):23-28.)
[16] 熊回香 . 面向Web3.0的大众分类研究[D]. 武汉: 华中师范大学, 2011.
( Xiong Huixiang . Research on Folksonomy Oriented to Web3.0[D]. Wuhan: Central China Normal University, 2011.)
[17] 宣云干 . 基于潜在语义分析的社会化标注系统标签语义检索研究[D]. 南京: 南京大学, 2011.
( Xuan Yungan . Research on Tag Semantic Retrieval Based on LSA in Social Tagging System[D]. Nanjing: Nanjing University, 2011.)
[18] 宣云干 . 社会化标签的语义检索研究[M]. 南京: 东南大学出版社, 2013.
( Xuan Yungan . Research on Semantic Retrieval of Social Tags[M]. Nanjing: Southeast University Press, 2013.)
[19] Shannon C E . A Mathematical Theory of Communication[J]. The Bell System Technical Journal, 1948,27(3):379-423.
[20] Gale W A, Church K W, Yarowsky D . A Method for Disambiguating Word Senses in a Large Corpus[J]. Computers & the Humanities, 1992,26(5-6):415-439.
[1] 夏立新,曾杰妍,毕崇武,叶光辉. 基于LDA主题模型的用户兴趣层级演化研究 *[J]. 数据分析与知识发现, 2019, 3(7): 1-13.
[2] 王忠群, 蒋胜, 修宇, 皇苏斌, 汪千松. 基于动态标签-资源网络图的信息资源推荐[J]. 现代图书情报技术, 2015, 31(3): 49-57.
[3] 章成志, 李蕾. 社会化标签质量自动评估研究[J]. 现代图书情报技术, 2015, 31(10): 2-12.
[4] 张颖怡, 章成志, 池雪花, 李蕾. 科研用户博文关键词标注行为差异研究——以科学网博客为例[J]. 现代图书情报技术, 2015, 31(10): 13-21.
[5] 邵健, 章成志, 李蕾. Hashtag研究综述[J]. 现代图书情报技术, 2015, 31(10): 40-49.
[6] 赵艳, 王亚民. P2P环境下基于社会化标签的个性化推荐模型研究[J]. 现代图书情报技术, 2014, 30(5): 50-57.
[7] 李蕾, 章成志. 社会化标签质量评估研究综述[J]. 现代图书情报技术, 2013, 29(11): 22-29.
[8] 黄红霞, 章成志. 中文微博用户标签的调查分析——以新浪微博为例[J]. 现代图书情报技术, 2012, (10): 49-54.
[9] 易明, 毛进, 邓卫华. 基于社会化标签网络的细粒度用户兴趣建模[J]. 现代图书情报技术, 2011, 27(4): 35-41.
[10] 薛娟. 基于社会化标签的高校图书馆学科导航 系统的设计与实现[J]. 现代图书情报技术, 2010, 26(11): 90-93.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn