Please wait a minute...
Data Analysis and Knowledge Discovery  2019, Vol. 3 Issue (12): 41-51    DOI: 10.11925/infotech.2096-3467.2019.0502
Current Issue | Archive | Adv Search |
Discovering City Profile Based on Tag Semantic Mining
Chongwu Bi,Guanghui Ye(),Mingqian Li,Jieyan Zeng
School of Information Management, Central China Normal University, Wuhan 430079, China
Download: PDF (681 KB)   HTML ( 28
Export: BibTeX | EndNote (RIS)      
Abstract  

[Objective] This research proposes a method to discover city profile based on semantic mining, aiming to obtain public awareness of the city. [Methods] Firstly, we generated a description framework of the city profile with hierarchical structure based on tags similarity and agglomerative hierarchical clustering. Secondly, we calculated the importance of social tags to reveal semantic features of cities based on latent semantic mining. Finally, we filtered out social tags with high explanation degree of city profile, and integrated them with the description framework of city profile to establish the hierarchical structure. [Results] With users’ reviews from Zhihu, we established the structural city profiles of six provincial capitals from central China, which identified the public perception of these cities. [Limitations] More research is needed to extract high-quality social tags automatically and generate a better description framework for the city profiles. [Conclusions] The proposed method could extract city profiles from massive social tags and develop fine-grained descriptions.

Key wordsCity Profile      Social Tags      Hierarchical Agglomerative Clustering      Latent Semantic Mining     
Received: 12 May 2019      Published: 25 December 2019
ZTFLH:  G251  
Corresponding Authors: Guanghui Ye     E-mail: 3879-4081@163.com

Cite this article:

Chongwu Bi,Guanghui Ye,Mingqian Li,Jieyan Zeng. Discovering City Profile Based on Tag Semantic Mining. Data Analysis and Knowledge Discovery, 2019, 3(12): 41-51.

URL:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/10.11925/infotech.2096-3467.2019.0502     OR     https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/Y2019/V3/I12/41

标签 空间向量
发展快 (1.94 '发展',2.49 '快')
历史名城 (2.60 '历史',3.38 '名城')
发展空间大 (1.94 '发展',3.2885 '空间',2.12 '大')
有历史文化底蕴 (2.60 '历史',2.81 '文化底蕴')
具有浓厚的文化底蕴 (3.45 '具有',3.05 '浓厚',2.81 '文化底蕴')
标签Ta 标签Tb 相似度
发展快 历史名城 0.00
发展快 发展空间大 0.27
发展快 有历史文化底蕴 0.00
发展快 具有浓厚的文化底蕴 0.00
历史名城 发展空间大 0.00
历史名城 有历史文化底蕴 0.41
历史名城 具有浓厚的文化底蕴 0.00
发展空间大 有历史文化底蕴 0.00
发展空间大 具有浓厚的文化底蕴 0.00
有历史文化底蕴 具有浓厚的文化底蕴 0.38
标签 长沙 合肥 南昌 太原 武汉 郑州
交通拥堵 98 4 0 42 438 16
大学生多 0 60 0 0 255 0
物价便宜 80 74 56 0 2 0
宜居 11 10 16 110 0 1
雾霾严重 6 10 0 9 11 170
发展快 22 26 0 7 13 19
标签 长沙 合肥 南昌 太原 武汉 郑州
交通拥堵 6.63 2.32 0.00 5.43 8.78 4.09
大学生多 0.00 5.93 0.00 0.00 8.00 0.00
物价便宜 6.34 6.23 5.83 0.00 1.59 0.00
宜居 3.59 3.46 4.09 6.79 0.00 1.00
雾霾严重 2.81 3.46 0.00 3.32 3.59 7.42
发展快 4.52 4.75 0.00 3.00 3.81 4.32
标签 标签全局权重 标签 标签全局权重 标签 标签全局权重
有雾霾 3.30 交通很便利 2.59 鱼米之乡 1.70
发展快 3.20 冬天太冷 2.55 烧卖 1.50
工资低 2.82 包容 2.29 鸡蛋灌饼 1.44
物价便宜 2.86 宜居 2.26 贫富差距大 1.42
历史悠久 2.75 地理位置好 2.14 面食多 1.37
房价贵 2.74 适合生活 1.92 小龙虾 1.04
城市 长沙 合肥 南昌 太原 武汉 郑州
资源全局权重 0.83 1.49 1.37 0.59 1.20 1.66
长沙 合肥 南昌
描述层级 城市画像 权重 描述层级 城市画像 权重 描述层级 城市画像 权重
饮食特色 美食很多 19.92 历史文化 历史悠久 37.33 饮食特色 美食很多 28.97
历史文化 文化底蕴深厚 14.22 吸引力 留不住人才 30.80 居住感受 生活节奏慢 28.34
物价 物价便宜 13.81 房价 房价高 29.88 物价 物价低 27.81
气候状况 夏天热 13.69 污染状况 有雾霾 27.70 吸引力 留不住人才 26.19
交通 交通拥堵 12.15 城市发展 发展很快 25.84 总体评价 二线城市 25.61
城市发展 发展快 12.00 包容性 包容 25.50 居住感受 有人情味 22.78
人口 美女多 11.91 饮食特色 美食多 25.00 污染状况 空气好 22.23
教育 教育资源丰富 11.58 污染状况 空气好 24.67 气候状况 冬冷夏热 20.98
气候状况 冬天冷 10.85 物价 物价便宜 24.36 总体评价 20.80
气候状况 天气变化无常 10.20 包容性 不排外 24.26 气候状况 春如四季 18.90
太原 武汉 郑州
描述层级 城市画像 权重 描述层级 城市画像 权重 描述层级 城市画像 权重
历史文化 历史悠久 16.92 吸引力 留不住人才 26.59 饮食特色 美食多 46.70
感情 第二故乡 12.06 饮食特色 美食很多 26.14 历史文化 历史悠久 41.30
吸引力 人才流失严重 11.71 总体评价 有人情味 26.12 收入 工资低 37.81
饮食特色 美食多 11.62 历史文化 历史悠久 25.93 人口 人多 34.09
包容性 包容性强 10.97 饮食特色 美食多 25.92 城市发展 发展很快 33.84
收入 工资低 10.12 物价 物价低 23.57 污染状况 有雾霾 31.32
城市发展 发展飞速 10.12 交通 交通拥堵 23.28 总体评价 有人情味 30.48
交通 公交便宜 10.08 包容性 包容 21.91 交通 堵车严重 27.55
居住感受 生活节奏慢 9.87 地理环境 地理位置好 21.88 交通 交通枢纽 27.36
交通 出行方便 9.29 气候状况 天气变化无常 21.52 污染状况 雾霾严重 24.84
[1] 李纲, 李阳 . 面向决策的“城市病”诊治情报服务探索[J]. 图书情报工作, 2016,60(14):121-127.
[1] ( Li Gang, Li Yang . Decision-Oriented Intelligence Service on the Diagnosis and Treatment of the “Urban Disease”[J]. Library and Information Service, 2016,60(14):121-127.)
[2] 李阳, 李纲 . 从情报学视角看“城市病”:一个新的解析与应用[J]. 情报杂志, 2016,35(7):31-36.
[2] ( Li Yang, Li Gang . Some Studies on Urban Disease from the Perspective of Intelligence Studies: New Analysis and Application[J]. Journal of Intelligence, 2016,35(7):31-36.)
[3] 林奇·凯文 . 城市的印象[M]. 项秉仁译. 北京: 中国建筑工业出版社, 1990.
[3] ( Lynch K . Impression of the City[M]. Translated by Xiang Bingren. Beijing: China Architecture & Building Press, 1990.)
[4] Laaksonen P, Laaksonen M, Borisov P , et al. Measuring Image of a City: A Qualitative Approach with Case Example[J]. Place Branding, 2006,2(3):210-219.
[5] Luque-Martínez T, Barrio-García S D, Ibáñez-Zapata J Á , et al. Modeling a City’s Image: The Case of Granada[J]. Cities, 2007,24(5):335-352.
[6] 谢永俊, 彭霞, 黄舟 , 等. 基于微博数据的北京市热点区域意象感知[J]. 地理科学进展, 2017,36(9):1099-1110.
[6] ( Xie Yongjun, Peng Xia, Huang Zhou , et al. Image Perception of Beijing’s Regional Hotspots Based on Microblog Data[J]. Progress in Geography, 2017,36(9):1099-1110.)
[7] Wong C U I, Qi S . Tracking the Evolution of a Destination’s Image by Text-mining Online Reviews - the Case of Macau[J]. Tourism Management Perspectives, 2017,23:19-29.
[8] Liu L, Zhou B L, Zhao J H , et al. C-IMAGE: City Cognitive Mapping Through Geo-tagged Photos[J]. Geo Journal, 2016,81(6):817-861.
[9] 张恒婷 . 社交网络图像垃圾标签去除研究[D]. 保定: 华北电力大学, 2012.
[9] ( Zhang Hengting . Research on Filtering Tag Spam of Social Network Images[D]. Baoding:North China Electric Power University, 2012.)
[10] 王贤兵 . 社会标注可信度评价方法研究[D]. 武汉: 华中科技大学, 2012.
[10] ( Wang Xianbing . Research on Method of Evaluating Confidence of Social Annotations[D]. Wuhan: Huazhong University of Science & Technology, 2012.)
[11] 刘苏祺, 白光伟, 沈航 . 基于用户自描述标签的层次分类体系构建方法[J]. 计算机科学, 2016,43(7):224-229, 239.
[11] ( Liu Suqi, Bai Guangwei, Shen Hang . Taxonomy Construction Based on User Self-describling Tags[J]. Computer Science, 2016,43(7):224-229, 239.)
[12] 杨尊琦, 赵瑾珺 . 新浪微博用户领域分类标签的结构和互动研究[J]. 情报杂志, 2014,33(4):122-127.
[12] ( Yang Zunqi, Zhao Jinjun . Structure and Interaction: The User Category Tags on the Sina Microblog[J]. Journal of Intelligence, 2014,33(4):122-127.)
[13] 于海鹏, 翟红生 . 一种子空间聚类算法在多标签文本分类中应用[J]. 计算机应用与软件, 2014,31(8):288-291.
[13] ( Yu Haipeng, Zhai Hongsheng . Applying a Subspace Clustering Algorithm in Multi-label Text Classification[J]. Computer Applications and Software, 2014,31(8):288-291.)
[14] 韩松涛, 潘云鹤 . 基于“学术单元”的知识组织新框架: 多维度标签构建研究[M]. 杭州: 浙江大学出版社, 2017.
[14] ( Han Songtao, Pan Yunhe . A New Framework for Knowledge Organization Based on “Academic Unit”[M]. Hangzhou: Zhejiang University Press, 2017.)
[15] 曹高辉, 焦玉英, 成全 . 基于凝聚式层次聚类算法的标签聚类研究[J]. 现代图书情报技术, 2008(4):23-28.
[15] ( Cao Gaohui, Jiao Yuying, Cheng Quan . Research on Tag Cluster Based on Hierarchical Agglomerative Clustering Algorithm[J]. New Technology of Library and Information Service, 2008(4):23-28.)
[16] 熊回香 . 面向Web3.0的大众分类研究[D]. 武汉: 华中师范大学, 2011.
[16] ( Xiong Huixiang . Research on Folksonomy Oriented to Web3.0[D]. Wuhan: Central China Normal University, 2011.)
[17] 宣云干 . 基于潜在语义分析的社会化标注系统标签语义检索研究[D]. 南京: 南京大学, 2011.
[17] ( Xuan Yungan . Research on Tag Semantic Retrieval Based on LSA in Social Tagging System[D]. Nanjing: Nanjing University, 2011.)
[18] 宣云干 . 社会化标签的语义检索研究[M]. 南京: 东南大学出版社, 2013.
[18] ( Xuan Yungan . Research on Semantic Retrieval of Social Tags[M]. Nanjing: Southeast University Press, 2013.)
[19] Shannon C E . A Mathematical Theory of Communication[J]. The Bell System Technical Journal, 1948,27(3):379-423.
[20] Gale W A, Church K W, Yarowsky D . A Method for Disambiguating Word Senses in a Large Corpus[J]. Computers & the Humanities, 1992,26(5-6):415-439.
[1] Ye Guanghui,Xu Tong. Dynamic City Profile Based on Evolutionary Analysis[J]. 数据分析与知识发现, 2020, 4(9): 100-110.
[2] Ye Guanghui,Xu Tong,Bi Chongwu,Li Xinyue. Analyzing Evolution of City Tourism Portraits with Multi-Dimensional Features and LDA Model[J]. 数据分析与知识发现, 2020, 4(11): 121-130.
[3] Lixin Xia,Jieyan Zeng,Chongwu Bi,Guanghui Ye. Identifying Hierarchy Evolution of User Interests with LDA Topic Model[J]. 数据分析与知识发现, 2019, 3(7): 1-13.
[4] Wang Zhongqun, Jiang Sheng, Xiu Yu, Huang Subin, Wang Qiansong. Information Resource Recommendation Method Based on Dynamic Tag-Resource Network[J]. 现代图书情报技术, 2015, 31(3): 49-57.
[5] Zhang Chengzhi, Li Lei. Automatic Quality Evaluation of Social Tags[J]. 现代图书情报技术, 2015, 31(10): 2-12.
[6] Zhang Yingyi, Zhang Chengzhi, Chi Xuehua, Li Lei. Difference Research on Keywords Tagging Behavior for Academic User Blog——A Case Study of ScienceNet.cn[J]. 现代图书情报技术, 2015, 31(10): 13-21.
[7] Li Lei, Zhang Chengzhi. Survey on Quality Evaluation of Social Tags[J]. 现代图书情报技术, 2013, 29(11): 22-29.
[8] Cao Gaohui,Jiao Yuying,Cheng Quan. Research on Tag Cluster Based on Hierarchical Agglomerative Clustering Algorithm[J]. 现代图书情报技术, 2008, 24(4): 23-28.
  Copyright © 2016 Data Analysis and Knowledge Discovery   Tel/Fax:(010)82626611-6626,82624938   E-mail:jishu@mail.las.ac.cn