Please wait a minute...
Data Analysis and Knowledge Discovery  2019, Vol. 3 Issue (10): 98-109    DOI: 10.11925/infotech.2096-3467.2018.1108
Current Issue | Archive | Adv Search |
Creating Dynamic Tags for Social Networking Groups
Wuxuan Jiang1,Huixiang Xiong1(),Jiaxin Ye1,Ning An2
1School of Information Management, Central China Normal University, Wuhan 430079, China
2School of Information Management, Wuhan University, Wuhan 430079, China
Download: PDF (995 KB)   HTML ( 15
Export: BibTeX | EndNote (RIS)      
Abstract  

[Objective] This paper proposes a method to generate dynamic labels for the characteristics of online communities and their short-term interest. [Methods] Firstly, we used the BTM model to extract the discussion topics from short texts posted by online community members. Then, we explored their actual interest based on personal labels. Finally, we combined these results to create dynamic tags for the communities. [Results] We examined the proposed model empirically with data from two types of “Douban groups”. Tags of discussion topics and characteristics of the communities showed strong and stable relevant relationship. The tags for personal interest could accurately represent the community’s dynamic interest. [Limitations] More online communities should be included in future studies. [Conclusions] The proposed model accurately identifies characteristics of online community and its members’ short-term concerns, which also benefits information acquisition.

Key wordsCommunity Labels      Tag Generation      BTM      Complex Networks     
Received: 08 October 2018      Published: 25 November 2019
ZTFLH:  TP393  
Corresponding Authors: Huixiang Xiong     E-mail: hxxiong@mail.ccnu.edu.cn

Cite this article:

Wuxuan Jiang,Huixiang Xiong,Jiaxin Ye,Ning An. Creating Dynamic Tags for Social Networking Groups. Data Analysis and Knowledge Discovery, 2019, 3(10): 98-109.

URL:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/10.11925/infotech.2096-3467.2018.1108     OR     https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/Y2019/V3/I10/98

用户昵称 话题主题 话题内容
细嗅蔷薇。 你们看过的最好的日本电影是什么? 有时候挺喜欢看日本片 个人认为看过的比较好的日本片子有: 松子 燕尾蝶(这是我唯一一口气看完的岩井俊二的片子) 恋空(连哭三遍)
一只帅熊 求解|嘤嘤嘤咋收藏影人呀跟关注不
是一回事?
一个傻问题: 突然发现关注影人跟收藏影人不是一个事T^T T^T嘤嘤嘤之前不是关注就能在收藏影人里看到么, 怎么关注了在收藏的影人里看不到呢, 在app里咋收藏影人呀只能网页收藏么[捂脸][捂脸]
粒粒安然 2018奥斯卡提名 最佳影片《请以你的名字呼唤我》《至暗时刻》《敦刻尔克》《逃出绝命镇》《伯德小姐》《霓裳魅影》《华盛顿邮报》…
丛虫 截猜线上活动, 截猜小能手快来 截猜不是一个人的武林而是一群人的江湖刀光剑影醉生梦死
混斗(FRQ) 有标记电影五百部及以上的么求互关 就是关注一下, 与广告和刷评无关。
用户昵称 资源名 标签
小鱿 勇往直前 真实事件改编 灾难 美国 消防 传记 剧情 2017年 森林火灾
相爱相亲 家庭 亲情 温情 爱情 文艺 2017年 剧情 台湾
佛罗里达乐园 美国 儿童 成长 2017年 剧情 社会 独立电影 戛纳电影节
至暗时刻 丘吉尔 英国 二战 传记 历史 战争 剧情 2017年
敦刻尔克 二战 战争 历史 英国 真实事件改编 军事 2017年 剧情
遇到西西 那些年, 我们一起追的女孩 青春 台湾 爱情 校园 成长 文艺 感动 2011年
丹麦女孩 传记 变性 剧情 文艺 美国 同性 2015年 LGBT
东方快车谋杀案1974 悬疑 阿加莎·克里斯蒂 英国 推理 侦探 经典 犯罪 英国电影
尼罗河上的惨案 悬疑 英国 推理 侦探 阿加莎 经典 犯罪 英国电影
盗墓笔记 盗墓 冒险 小说改编 2016年 中国 悬疑 奇幻 剧情
菲尼克斯 海洋帝国 历史 海洋史 日本 东亚史 世界史 2018年 白石隆
豆瓣小组名称 数据时间 话题数 用户数 资源数 标签数
佳片推荐 2017/01/25 50 12 104 263
2018/01/25 50 35 440 858
2018/02/06 50 31 387 754
2018/02/20 50 31 327 599
2018/03/06 50 34 392 813
一个人看电影 2018/01/25 50 23 129 401
2018/02/06 50 14 106 338
2018/02/20 50 14 104 317
2018/03/06 50 18 144 432
买书 读书 一起来吧 2019/02/18 36 24 51 265
2019/03/06 83 50 142 550
总计 569 286 2 326 5 590
用户昵称 话题分词
细嗅蔷薇 最好 日本 电影 喜欢 日本 个人 日本 片子 松子燕尾蝶 唯一 一口气 岩井俊二 片子 恋空 三遍
一只帅熊 求解 收藏 影人 关注 问题 关注 影人 收藏 关注 收藏 影人 关注 收藏 影人 app 收藏 影人 网页 收藏 捂脸
粒粒安然 2018 奥斯卡 提名 最佳影片 请以你的名字呼唤我 至暗时刻 敦刻尔克 逃出绝命镇 伯德小姐 霓裳魅影 华盛顿邮报 水形物语 三块广告牌 导演 吉尔 莫德尔 托罗 水形物语 格蕾塔葛 韦格 伯德小姐 保罗 托马斯…
丛虫 活动 能手 一个人的武林 江湖 刀光剑影 醉生梦死
混斗(FRQ) 标记 电影 五百 求互关 关注 广告 刷评 无关
文档 原标签 标签编码
D1 最好 日本 电影 喜欢 日本 个人 日本 片子 松子燕尾蝶 唯一 一口气
岩井俊二 片子 恋空 三遍
3 4 0 5 4 6 4 7 8 9 10 11 7 12 13
D2 求解 收藏 影人 关注 问题 关注 影人 收藏 关注 收藏 影人 关注
收藏 影人 app 收藏 影人 网页 收藏 捂脸
14 15 16 17 18 17 16 15 17 15 16 17 15 16 19 15 16
20 15 21
D3 2018奥斯卡 提名 最佳影片 请以你的名字呼唤我 至暗时刻 敦刻尔克
逃出绝命镇 伯德小姐 霓裳魅影 华盛顿邮报 水形物语 三块广告牌 导演
吉尔 莫德尔 托罗 水形物语 格蕾塔葛 韦格 伯德小姐 保罗 托马斯…
22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
33 39 40 30 41 42…
D4 活动 能手 一个人的武林 江湖 刀光剑影 醉生梦死 209 210 211 212 213 214
D5 标记 电影 五百 求互关 关注 广告 刷评 无关 215 0 216 217 17 218 219 220
主题数 $-\left\{ \sum\limits_{K}{P}({{Z}_{K}})\sum\nolimits_{i=1}^{{{N}_{K}}}{\mathrm{log}P({{W}_{i}}\text{ }\!\!|\!\!\text{ }{{Z}_{K}})} \right\}\text{/}N$ 主题困惑度 主题数 $-\left\{ \underset{K}{\mathop \sum }\,P({{Z}_{K}})\sum\nolimits_{i=1}^{{{N}_{K}}}{\mathrm{log}P({{W}_{i}}\text{ }\!\!|\!\!\text{ }{{Z}_{K}})} \right\}\text{/}N$ 主题困惑度
1 0.018396830 1.018567094 11 0.015326789 1.015444847
2 0.017716041 1.017873901 12 0.015465664 1.015585876
3 0.017102683 1.017249771 13 0.015168573 1.015284200
4 0.016967775 1.017112545 14 0.015100700 1.015215292
5 0.016421836 1.016557415 15 0.015071742 1.015185894
6 0.016135249 1.016266125 16 0.014855438 1.014966328
7 0.015785420 1.015910668 17 0.015044306 1.015158041
8 0.016071002 1.016200835 18 0.014927471 1.015039442
9 0.015731518 1.015855909 19 0.014662723 1.014770748
10 0.015669250 1.015792656 20 0.018396830 1.018567094
语词 概率 语词 概率 语词 概率 语词 概率 语词 概率 语词 概率
文档集w1 文档集w2 文档集w3 文档集w4 验证文档集w5 验证文档集w6
电影 0.032301 电影 0.056503 电影 0.032147 电影 0.029478 电影 0.013089 孩子 0.019891
水形物语 0.009645 推荐 0.023672 水形物语 0.014985 推荐 0.010106 影片 0.005582 工作 0.006816
上映 0.008626 影片 0.016057 推荐 0.010033 16 0.008888 故事 0.004329 电影 0.006445
2018 0.008484 劳拉 0.010815 黑帮 0.009520 2013 0.007673 生活 0.004076 父母 0.006057
敦刻尔克 0.007489 经典 0.009270 敦刻尔克 0.008709 故事 0.006394 时间 0.004004 水形物语 0.005922
推荐 0.006778 游戏 0.007725 三块广告牌 0.008282 女主 0.006075 投影仪 0.003975 方式 0.005686
喜欢 0.006351 爱情 0.007449 TVB 0.007855 喜欢 0.005998 上映 0.003931 老师 0.004724
原创 0.005972 丽影 0.007173 至暗时刻 0.007172 美国 0.005512 美国 0.003649 方法 0.004724
日期 0.005972 古墓 0.007118 银翼杀手2049 0.007130 影片 0.005346 创作 0.003569 爸爸 0.004707
三块广告牌 0.005830 2018 0.006622 霓裳魅影 0.006959 导演 0.004885 小帅 0.002918 老板 0.004252
语词 概率 语词 概率 词语 概率 词语 概率 词语 概率
验证文档集w7 验证文档集w8 验证文档集w9 验证文档集w10 验证文档集w11
电影 0.023764 电影 0.023439 电影 0.025442 书籍 0.083162 买书 0.036611
生活 0.012067 星座 0.011123 瑜伽 0.021329 买书 0.030079 书籍 0.031007
王彩玲 0.011156 年龄 0.010329 喜欢 0.008265 书店 0.012621 京东 0.025381
热爱 0.008766 歌舞片 0.010329 老师 0.008226 阅读 0.012007 活动 0.023510
柏舟 0.006517 最近 0.009676 挽回 0.005308 优惠券 0.011461 自营 0.020566
感动 0.005578 花名 0.007945 视频 0.004936 京东 0.010916 优惠券 0.019501
影片 0.005464 10 0.007775 分手 0.004642 宇宙 0.010234 参加 0.018948
进群 0.005408 心情 0.007151 学习 0.004524 封面 0.009551 世界 0.013345
喜欢 0.005208 11 0.006839 济公 0.004407 外星 0.009347 名著 0.010556
分享 0.004668 观影 0.006498 故事 0.004309 印刷 0.009142 中国 0.010247
资源 频次 资源 频次
无问西东 8 至爱梵高·星空之谜 4
妖猫传 6 看不见的客人 4
芳华 5 前任3:再见前任 4
铁雨 4
标签 词频 标签 词频
美国 196 喜剧 96
剧情 194 人性 87
2017年 123 动作 85
爱情 122
美国 剧情 爱情 2017年 喜剧 动作 人性 科幻 文艺 成长
圣鹿之死 1 1 0 1 0 0 1 0 0 0
我和厄尔以及将死的女孩 1 1 1 0 1 0 0 0 1 1
别让我走 1 1 1 0 0 0 1 1 1 0
欢乐谷 1 1 0 0 0 0 1 1 0 1
幻体: 续命游戏 1 1 0 0 0 1 1 1 0 0
生存回圈 1 1 0 0 0 0 1 1 0 0
猩球崛起3: 终极之战 1 1 0 1 0 1 1 1 0 0
西部 美国 动作 牛仔 2016年 翻拍 犯罪 剧情 悬疑 人性 中国大陆 卑鄙的我
西部 0 1 1 1 1 1 1 1 0 1 0 0
美国 1 0 1 1 1 1 1 1 1 1 0 1
动作 1 1 0 1 1 1 1 1 1 1 1 0
牛仔 1 1 1 0 1 1 1 1 0 0 0 0
2016年 1 1 1 1 0 1 1 1 1 1 1 0
翻拍 1 1 1 1 1 0 1 1 1 0 0 0
犯罪 1 1 1 1 1 1 0 1 1 1 1 0
剧情 1 1 1 1 1 1 1 0 1 1 1 0
悬疑 0 1 1 0 1 1 1 1 0 1 1 0
人性 1 1 1 0 1 0 1 1 1 0 1 0
中国大陆 0 0 1 0 1 0 1 1 1 1 0 0
0 0
卑鄙的我 0 1 0 0 0 0 0 0 0 0 0 0
标签 美国 剧情 2017年 爱情 喜剧 犯罪 电视剧 悬疑
绝对中心度${{C}_{D}}({{N}_{i}})$ 313 312 279 277 229 195 185 183
标准化中心度${{{C}'}_{D}}({{N}_{i}})$ 0.36523 0.36406 0.32555 0.32322 0.26721 0.22754 0.21587 0.21354
17.1.25 ${{{C}'}_{D}}({{N}_{i}})$ 18.2.6 ${{{C}'}_{D}}({{N}_{i}})$ 18.2.20 ${{{C}'}_{D}}({{N}_{i}})$ 18.3.6 ${{{C}'}_{D}}({{N}_{i}})$.
美国 0.504 美国 0.368 美国 0.450 美国 0.401
剧情 0.447 爱情 0.338 剧情 0.383 剧情 0.302
2016年 0.321 剧情 0.335 爱情 0.333 喜剧 0.278
人性 0.313 喜剧 0.250 2017年 0.321 爱情 0.260
爱情 0.302 2017年 0.249 喜剧 0.308 2017年 0.240
喜剧 0.275 动画 0.227 人性 0.261 香港 0.204
经典 0.225 经典 0.219 经典 0.258 经典 0.190
悬疑 0.221 人性 0.214 美国
电影
0.209 中国 0.182
美国
电影
0.206 悬疑 0.189 动画 0.202 悬疑 0.182
英国 0.206 美国电影 0.186 科幻 0.201 人性 0.179
18.1.25 ${{{C}'}_{D}}({{N}_{i}})$ 18.2.6 ${{{C}'}_{D}}({{N}_{i}})$ 18.2.20 ${{{C}'}_{D}}({{N}_{i}})$ 18.3.6 ${{{C}'}_{D}}({{N}_{i}})$
美国 0.033 剧情 0.027 美国 0.034 剧情 0.028
剧情 0.031 美国 0.025 剧情 0.028 美国 0.025
爱情 0.029 爱情 0.024 喜剧 0.024 爱情 0.023
喜剧 0.023 2017年 0.022 爱情 0.024 2017年 0.022
2017年 0.021 人性 0.018 2017年 0.021 喜剧 0.022
人性 0.017 动画 0.018 英国 0.020 人性 0.017
文艺 0.015 文艺 0.017 青春 0.017 电视剧 0.015
经典 0.014 悬疑 0.017 人性 0.016 犯罪 0.012
动作 0.013 喜剧 0.016 动作 0.015 香港 0.012
英国 0.013 中国大陆 0.014 科幻 0.014 动画 0.012
19.2.18 ${{{C}'}_{D}}({{N}_{i}})$ 19.3.6 ${{{C}'}_{D}}({{N}_{i}})$.
历史 0.031 文学 0.032
文学 0.019 小说 0.027
中国 0.018 外国文学 0.026
外国文学 0.018 历史 0.015
小说 0.010 随笔 0.010
随笔 0.011 中国文学 0.011
2018年 0.011 国学 0.010
近代史 0.010 写作 0.009
读库 0.010 古典文学 0.009
文化 0.009 日本 0.009
社群名称 原标签 数据日期 社群动态标签
佳片推荐 电影 电视 导演 编剧 演员 2017.1.25 电影 人性 爱情 喜剧 悬疑
2018.1.25 电影 爱情 喜剧 犯罪 悬疑
2018.2.06 电影 推荐 爱情 喜剧 动画
2018.2.20 电影 水形物语 爱情 喜剧 人性
2018.3.06 电影 推荐 喜剧 爱情 悬疑
一个人看电影 电影 一个人 生活 单身 2018.1.25 孩子 爱情 喜剧 人性 文艺
2018.2.06 电影 生活 爱情 人性 动画
2018.2.20 电影 星座 喜剧 爱情 青春
2018.3.06 电影 瑜伽 爱情 喜剧 人性
买书 读书 一起来吧 买书 读书 聊天 书友 书讯 2019.2.18 书籍 买书 历史 文学 小说
2019.3.06 买书 书籍 文学 小说 历史
电影 上映日期
我们的世界 2016.06.16
釜山行 2016.07.20
潘多拉 2016.12.07
血战钢锯岭 2016.12.08
萨利机长 2016.12.09
太空旅客 2017.01.13
降临 2017.01.20
[1] 邓胜利, 胡吉明 . Web 2.0环境下网络社群理论研究综述[J]. 中国图书馆学报, 2010,36(5):90-95.
[1] ( Deng Shengli, Hu Jiming . Review on Online Community Theory in Web 2.0 Environment[J]. Journal of Library Science in China, 2010,36(5):90-95.)
[2] Hiltz S R, Goldman R . Learning Together Online: Research on Asynchronous Learning Networks[M]. Routledge, 2004: 191-192.
[3] Liu D, Hua X S, Yang L, et al. Tag Ranking [C]// Proceedings of the 18th International Conference on World Wide Web. ACM, 2009: 351-360.
[4] 陈烨, 邵健, 朱科 . 基于社群隐含主题挖掘和多社群信息融合的自动图像标注[J]. 中国图象图形学报, 2010,15(6):944-950.
doi: 10.11834/jig.20100614
[4] ( Chen Ye, Shao Jian, Zhu Ke . Automatic Image Annotation Using Social Group Latent Topic Mining and Multi-Group Information Fusion[J]. Journal of Image and Graphics, 2010,15(6):944-950.)
doi: 10.11834/jig.20100614
[5] 吴丹, 向雪 . 社群环境下的协同信息检索行为实验研究[J]. 现代图书情报技术, 2014(12):1-9.
[5] ( Wu Dan, Xiang Xue . An Experimental Study on Collaborative Information Seeking Behavior in Community Environment[J]. New Technology of Library and Information Service, 2014(12):1-9.)
[6] 滕广青, 贺德方, 彭洁 , 等. 基于“用户-标签”关系的社群知识自组织研究[J]. 图书情报工作, 2014,58(20):106-111.
[6] ( Teng Guangqing, He Defang, Peng Jie , et al. Study on Self-Organization of Community Knowledge Based on "User-Tag" Relationship[J]. Library and Information Service, 2014,58(20):106-111.)
[7] 崔芳, 胡海华, 崔文田 . 基于快速“关系”的虚拟社群成员持续分享知识的动机研究[J]. 情报杂志, 2017,36(12):186-192.
[7] ( Cui Fang, Hu Haihua, Cui Wentian . The Motivations of Virtual Community Members’ Continuous Sharing of Knowledge, Based on Swift “Guanxi”[J]. Journal of Intelligence, 2017,36(12):186-192.)
[8] 李文根 . 基于社区问答系统的中文短文本标签生成研究[D]. 南京: 南京大学, 2017.
[8] ( Li Wengen . Research on Tag Generation for Chinese Short Text Based on Community Question Answering System[D]. Nanjing: Nanjing University, 2017.)
[9] Cheng X, Yan X, Lan Y , et al. BTM: Topic Modeling over Short Texts[J]. IEEE Transactions on Knowledge & Data Engineering, 2014,26(12):2928-2941.
[10] 李雷, 朱玉婷, 施化吉 , 等. 社会网络中基于U_BTM模型的主题挖掘[J]. 计算机应用研究, 2017,34(1):132-135.
[10] ( Li Lei, Zhu Yuting, Shi Huaji , et al. Topic Mining Based on U_BTM Model in Social Networks[J]. Application Research of Computers, 2017,34(1):132-135.)
[11] 李敬, 印鉴, 刘少鹏 , 等. 基于话题标签的微博主题挖掘[J]. 计算机工程, 2015,41(4):30-35.
doi: 10. 3969/ j. issn. 1000-3428. 2015. 04. 006
[11] ( Li Jing, Yin Jian, Liu Shaopeng , et al. Microblog Topic Mining Based on Hashtag[J]. Computer Engineering, 2015,41(4):30-35.)
doi: 10. 3969/ j. issn. 1000-3428. 2015. 04. 006
[12] Barabási A L, Albert R . Emergence of Scaling in Random Networks[J]. Science, 1999,286(5439):509-512.
[13] Albert R, Barabási A L . Statistical Mechanics of Complex Networks[J]. Reviews of Modern Physics, 2002,74(1):47.
[14] Bonacich P . Factoring and Weighting Approaches to Status Scores and Clique Identification[J]. Journal of Mathematical Sociology, 1972,2(1):113-120.
[15] Freeman L C . Centrality in Social Networks: Conceptual Clarification[J]. Social Networks, 1978,1(3):215-239.
[16] 百度百科. 豆瓣网[EB/OL]. [2018-02-15]..
[16] ( Baidu Baike. Douban[EB/OL]. [2018-02-15]..)
[17] 林鑫, 周知 . 用户认知对标签使用行为的影响分析——基于电影社会化标注数据的实证分析[J]. 情报理论与实践, 2015,38(10):85-88.
[17] ( Lin Xin, Zhou Zhi . Analysis on the Influence of User Cognition on Label Use Behavior-An Empirical Analysis Based on the Social Labeling Data of Movies[J]. Information Studies: Theory & Application, 2015,38(10):85-88.)
[1] Wu Jiang,Chen Jun,Zhang Jinfan. A Knowledge Supply-Demand Simulation System for Collaborative Innovation[J]. 现代图书情报技术, 2016, 32(9): 27-33.
[2] Zhu Hou. Co-evolution of Social Networks and Public Opinion Considering the Effect of Trust and Authority[J]. 现代图书情报技术, 2015, 31(10): 50-57.
[3] Ma Chao Ye Qi Wu Bin Shi Chuan She Ying. Design and Implementation of a Visual Analytical Platform for Dynamic Link Analysis[J]. 现代图书情报技术, 2010, 26(6): 60-65.
  Copyright © 2016 Data Analysis and Knowledge Discovery   Tel/Fax:(010)82626611-6626,82624938   E-mail:jishu@mail.las.ac.cn