Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (5): 1-10     https://doi.org/10.11925/infotech.2096-3467.2018.0052
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
深度学习图像标注与用户标注比较研究*
陆伟, 罗梦奇(), 丁恒, 李信
武汉大学信息管理学院 武汉 430072
武汉大学信息检索与知识挖掘研究所 武汉 430072
Image Annotation Tags by Deep Learning and Real Users: A Comparative Study
Lu Wei, Luo Mengqi(), Ding Heng, Li Xin
School of Information Management, Wuhan University, Wuhan 430072, China
Information Retrieval and Knowledge Mining Laboratory, Wuhan University, Wuhan 430072, China
全文: PDF (1113 KB)   HTML ( 3
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 利用用户对图像标注的标签提出用户标签框架, 并通过用户标签框架总结深度学习自动标注图像的不足。【方法】 统计分析从Flickr上下载的大约100万张图像数据集中的用户标签, 抽取高频词进行用户标签框架匹配。将用户标签与ImageNet数据库标签进行对比总结。对含有高频词的图像使用MXNet深度学习算法进行标注, 分析标注结果。【结果】 当前深度学习自动标注, 在图像背景知识、总体描述以及人类感官描述等方面还存在缺陷。【局限】数据集的范围需要扩大, 深度学习算法的种类需要增加。【结论】 自动标注图像的发展, 需要建立图像信息与背景知识、描述等的联系; 并且深度学习未来发展还需要赋予计算机逻辑推理以及情境感知的能力。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
陆伟
罗梦奇
丁恒
李信
关键词 图像标注用户标签自动标注机器学习深度学习人工智能    
Abstract

[Objective] This paper proposes a user tagging framework and examines the limitations of tagging image with deep learning techniques, aiming to improve the performance of automatic annotation services. [Methods] We analyzed the user-added tags from one million images on flickr.com to extract the high frequency ones. Then, we mapped these tags with the proposed framework, and compared them with tags from the ImageNet database. Finally, we analyzed images with high frequency tags with the deep learning algorithm - MXNet. [Results] The automatic image annotation techniques based on deep learning could not effectively understand the image’s background knowledge, as well as the image’s descriptions from the human perceptive. [Limitations] Our dataset needs to be expanded and analyzed with other deep learning algorithms. [Conclusions] The development of automatic image annotation, requires us to establish the association between image information, background knowledge, and description, as well as cultivate deductive reasoning and context-aware abilities.

Key wordsImage Annotation    User Tags    Automatic Image Annotation    Machine Learning    Deep Learning    Artificial Intelligence
收稿日期: 2018-01-15      出版日期: 2018-06-20
ZTFLH:  G255  
基金资助:*本文系国家自然科学基金面上项目“面向词汇功能的学术文本语义识别与知识图谱构建”(项目编号:71473183)的研究成果之一
引用本文:   
陆伟, 罗梦奇, 丁恒, 李信. 深度学习图像标注与用户标注比较研究*[J]. 数据分析与知识发现, 2018, 2(5): 1-10.
Lu Wei,Luo Mengqi,Ding Heng,Li Xin. Image Annotation Tags by Deep Learning and Real Users: A Comparative Study. Data Analysis and Knowledge Discovery, 2018, 2(5): 1-10.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0052      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I5/1
方法/技术 应用/举例
SIFT(尺度不变特征变换)/ SURF
LBP(局部二值模式)
描述图像局部特征
辅助图像局部对比
VLAD 提取图像特征
CNN(卷积神经网络)/RNN(循环神经网络)/DNN(深度神经网络)/LSTM(长短期记忆网络) 生成将图像信息和文字信息对应的模型[32],图像分类[33], 同时也用于图像信息的捕获与解析
NLP(自然语言处理) 对与图像相关联文本的处理
SVM(支持向量机) 图像视觉信息(语义信息)分类器[34]
Fisher Vector Encoding 将图像的视觉描述子映射为高维向量[35]
pLSA/LDA(主题模型) 对图像相关的文本、关键词进行主题模型的建立[28,36]
CCA(典型关联分析) 建立图像和文本的关联[37]
Apriori Algorithm(关联规则) 发掘图像与图像、图像与文本的关联[29]
K-Nearest Neighbor(邻近算法)/LMNN(大间隔最近邻居) 图像信息聚类
Community Detection(社区发现算法) 为图像的语义信息、视觉信息构建概念图[38]
Eigenfaces/Fisherfaces 人脸识别
  图像自动标注所涉及的方法与技术
类别 描述
时间 包括季节、年份以及早中晚等一天中的某个时段
地点 某些特定的或标志性地点, 如海滩、树林等; 国家、城市名和地名; 东西南北等方位
人物 人的名字; 某一类人群
事件 人类的社会活动; 图像中描述的事情
颜色纹理形状 图像最直观的视觉信息
对象 包括风景、动植物、建筑和物品对象等
描述类 形容词和需要结合背景知识的形容词
情感类 图像表达的情感; 人们看到图像的感觉; 需要结合背景知识的情感
抽象类 艺术、历史和文化; 图像反映的整体内容; (这一类主要是定义图像总体, 需要一定的背景知识)
图像生成及
处理设备
图像生成设备或参数, 如拍摄的相机型号、焦距和曝光等; 图像后期处理软件
图像来源 图像来源的网址等
  用户标签分类框架
类别 子类别及
高频标签数
总频次 标签举例
时间 年份(11)
季节(5)
月份(12)
一天中的某时段(3)
88 553
21 037
21 958
9 267
2016
summer
september
morning
地点 国家或地名(158)
方位(5)
标志性地点(46)
419 308
5 239
111 277
newyork
north
beach
人物 人名(2)
某一类人(19)
2 582
43 547
jovens
girls
事件 活动(50)
结合背景知识的活动(7)
125 493
18 590
Hiking
cosplay
颜色纹
理形状
(11) 29 038 pink
对象 风景(14)
动植物(17)
建筑(6)
对象(36)
物品(49)
46 936
21 120
14 103
62 080
99 773
skyline
bird
castle
building
apple
描述类 形容词(18)
结合背景知识的
形容词(6)
46 934

8 933
Beautiful

National
情感类 感觉(2)
结合背景知识的情感(2)
4 365
2 346
fun
pride
抽象类 艺术(7)
历史(2)
文化(1)
图像反映的内容(14)
26 896
3 068
1 050
42 263
streetart
historic
culture
war
图像生成、
处理设备
图像生成设备或参数(28)
图像处理软件(3)
78 053
17 215
sony
fireworks
图像来源 网站(21) 24 392 www.500px.com
  实验数据集的用户标签分类框架
用户标签高频词数
(按频次排序)
自动标注标签数 比例
100 74 74.00%
200 145 72.50%
300 215 71.67%
400 283 70.75%
500 337 67.40%
555 372 67.03%
  高频词对比统计结果
  用户高频词平均频次与自动标注标签覆盖率的变化
类别及高频
标签数
未能标注
标签数
总频次 标签举例
年份(11)
季节(5)
月份(12)
一天中的某时段(3)
10
0
4
0
76 915
0
6 441
0
2010
-
november
-
国家或地名(158)
方位(5)
标志性地点(46)
72
0
3
162 830
0
3 224
new+zealand
-
disneyland
人名(2)
某一类人(19)
2
3
2 582
4 756
jovens
students
活动(50)
结合背景知识的活动(7)
13
3
21 808
5 020
Carnival
cosplay
颜色纹理形状(11) 1 2 125 black+and+white
风景(14)
动植物(17)
建筑(6)
对象(36)
物品(49)
3
3
1
1
7
7 233
9 181
1 549
3 381
10 367
sunrise
wildlife
buildings
clouds
cars
形容词(18)
结合背景知识的形容词(6)
4
0
18 739
0
Beautiful
-
感觉(2)
结合背景知识的情感(2)
2
1
4 365
976
cold
pride
艺术(7)
历史(2)
文化(1)
图像反映的内容(14)
2
1
0
1
2 250
1 743
0
986
streetart
History
-
lo-fi
图像生成设备或参数(28)
图像处理软件(3)
26
3
66 777
17 215
nikon
fireworks
网站(21) 21 24 392 www.500px.com
  深度学习未能标注标签类别
  用户描述场景“迪士尼”
  用户分析为“角色扮演”
  用户描述为“美”
  用户分析为“冷”
  用户分析为“街头文化”
[1] Leung C H C, Luo M Q. Building Up of Image and Multimedia Object Index Through Continuous Usage[C]// Proceedings of International Conference on Computer Networks, E-Learning and Information Technology, Bangkok, Thailand. HongKong: ICCNEIT, 2013.
[2] Sill L A.Indexing Multimedia and Creative Works: The Problems of Meaning and Interpretation[J]. Library Collections, Acquisitions, and Technical Services, 2005, 29(4): 448-449.
doi: 10.1080/14649055.2005.10766098
[3] Beaudoin J.Folksonomies: Flickr Image Tagging: Patterns Made Visible[J]. Bulletin of the American Society for Information Science & Technology, 2007, 34(1): 26-29.
doi: 10.1002/bult.2007.1720340108
[4] Golbeck J, Koepfler J, Emmerling B.An Experimental Study of Social Tagging Behavior and Image Content[J]. Journal of the Association for Information Science & Technology, 2011, 62(9): 1750-1760.
doi: 10.1002/asi.21522
[5] Klavans J L, Laplante R, Golbeck J.Subject Matter Categorization of Tags Applied to Digital Images from Art Museums[J]. Journal of the Association for Information Science & Technology, 2014, 65(1): 3-12.
doi: 10.1002/asi.22950
[6] Xie L, Natsev A, Hill M, et al.The Accuracy and Value of Machine-generated Image Tags: Design and User Evaluation of an End-to-End Image Tagging System[C]//Proceedings of ACM International Conference on Image & Video Retrieval. 2010: 58-65.
[7] Ordonez V, Kulkarni G, Berg T L.Im2text: Describing Images Using 1 Million Captioned Photographs[C]// Proceedings of Conference on Neural Information Processing Systems.2011: 1143-1151.
[8] Lee S, De Neve W, Ro Y M.Image Tag Refinement along the ‘What’ Dimension Using Tag Categorization and Neighbor Voting[C]//Proceedings of 2010 IEEE International Conference on Multimedia & Expo.2010: 48-53.
[9] Izadinia H, Farhadi A, Hertzmann A, et al.Image Classification and Retrieval from User-Supplied Tags[OL]. arXiv Preprint. arXiv: 1411.6909.
[10] Eleta I, Golbeck J.A Study of Multilingual Social Tagging of Art Images: Cultural Bridges and Diversity[C]//Proceedings of the ACM 2012 Conference on Computer Supported Cooperative Work, Seattle, Washington, USA. New York, USA: ACM, 2012: 695-704.
[11] Cunningham S J, Bainbridge D, Masoodian M.How People Describe Their Image Information Needs: A Grounded Theory Analysis of Visual Arts Queries[C]//Proceedings of the 2004 Joint ACM/IEEE Conference on Digital Libraries.2004: 47-48.
[12] 王晓光, 徐雷, 李纲.敦煌壁画数字图像语义描述方法研究[J].中国图书馆学报, 2014, 40(1): 50-59.
doi: 10.3969/j.issn.1001-8867.2014.01.005
[12] (Wang Xiaoguang, Xu Lei, Li Gang.Semantic Description Framework Research on Dunhuang Fresco Digital Image[J]. Journal of Library Science in China, 2014, 40(1): 50-59.)
doi: 10.3969/j.issn.1001-8867.2014.01.005
[13] Zhang J, Yang Y, Tian Q, et al.Personalized Social Image Recommendation Method Based on User-Image-Tag Model[J].IEEE Transactions on Multimedia, 2017, 19(11): 2439-2449.
doi: 10.1109/TMM.2017.2701641
[14] Sa N, Yuan X.What Motivates People Use Social Tagging[A]// Lecture Notes in Computer Science[M]. 2013, 8029: 86-93.
[15] Heckner M, Heilemann M, Wolff C.Personal Information Management vs. Resource Sharing: Towards a Model of Information Behavior in Social Tagging Systems[C]// Proceedings of International Conference on Weblogs and Social Media(ICWSM 2009), San Jose, California, USA. 2009.
[16] Nov O, Ye C.Why do People Tag? Motivations for Photo Tagging[J]. Communications of the ACM, 2010, 53(7): 128-131.
[17] Ames M, Naaman M.Why We Tag: Motivations for Annotation in Mobile and Online Media[C]// Proceedings of the SIGCHI Conference on Human Factors in Computing Systems(CHI 2007), San Jose, California, USA. 2007: 971-980.
[18] Nwana A O, Chen T.Who Ordered This?: Exploiting Implicit User Tag Order Preferences for Personalized Image Tagging[C]// Proceedings of the IEEE International Conference on Multimedia & Expo Workshops. 2016: 1-6.
[19] Strohmaier M, Körner C, Kern R.Why do Users Tag? Detecting Users’ Motivation for Tagging in Social Tagging Systems[C]//Proceedings of International Conference on Weblogs and Social Media(ICWSM 2010), Washington, DC, USA. 2010: 23-26.
[20] Patel T, Shah B.A Survey on Facial Feature Extraction Techniques for Automatic Face Annotation[C]// Proceedings of 2017 International Conference on Innovative Mechanisms for Industry Applications (ICIMIA).2017: 224-228.
[21] Hao Z, Ge H, Gu T.Automatic Image Annotation Based on Particle Swarm Optimization and Support Vector Clustering[J]. Mathematical Problems in Engineering, 2017(1): 1-11.
[22] Ke X, Zhou M, Niu Y, et al.Data Equilibrium Based Automatic Image Annotation by Fusing Deep Model and Semantic Propagation[J]. Pattern Recognition, 2017, 71: 60-77.
doi: 10.1016/j.patcog.2017.05.020
[23] Gu Y, Xue H, Yang J.Cross-Modal Saliency Correlation for Image Annotation[J]. Neural Processing Letters, 2017, 45(3): 777-789.
doi: 10.1007/s11063-016-9511-4
[24] Bahrololoum A, Nezamabadi-Pour H.A Multi-expert Based Framework for Automatic Image Annotation[J]. Pattern Recognition, 2017, 61: 169-184.
doi: 10.1016/j.patcog.2016.07.034
[25] Budikova P, Batko M, Zezula P.ConceptRank for Search-based Image Annotation[J]. Multimedia Tools and Applications, 2018, 77(7): 8847-8882.
doi: 10.1007/s11042-017-4777-8
[26] Uricchio T, Ballan L, Seidenari L, et al.Automatic Image Annotation via Label Transfer in the Semantic Space[J]. Pattern Recognition, 2017, 71: 144-157.
doi: 10.1016/j.patcog.2017.05.019
[27] Mehmood Z, Mahmood T, Javid M A.Content-based Image Retrieval and Semantic Automatic Image Annotation Based on the Weighted Average of Triangular Histograms Using Support Vector Machine[J]. Applied Intelligence, 2017(1): 1-16.
doi: 10.1007/s10489-017-0957-5
[28] Tariq A, Foroosh H.Learning Semantics for Image Annotation[OL]. arXiv Preprint, arXiv: 1705.05102.
[29] Chien B C, Ku C W.Large-scale Image Annotation with Image-text Hybrid Learning Models[J]. Soft Computing, 2017, 21(11): 2857-2869.
doi: 10.1007/s00500-016-2221-z
[30] Verma Y, Jawahar C V.Image Annotation by Propagating Labels from Semantic Neighbourhoods[J]. International Journal of Computer Vision, 2017, 121(1): 126-148.
doi: 10.1007/s11263-016-0927-0
[31] Tariq A, Foroosh H.A Context-driven Extractive Framework for Generating Realistic Image Descriptions[J]. IEEE Transactions on Image Processing, 2017, 26(2): 619-632.
doi: 10.1109/TIP.2016.2628585 pmid: 28113935
[32] Karpathy A, Li F F.Deep Visual-Semantic Alignments for Generating Image Descriptions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 664-676.
doi: 10.1109/TPAMI.2016.2598339 pmid: 27514036
[33] Oquab M, Bottou L, Laptev I, et al.Learning and Transferring Mid-level Image Representations Using Convolutional Neural Networks[C]// Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2014: 1717-1724.
[34] Gong Y, Jia Y, Leung T, et al.Deep Convolutional Ranking for Multilabel Image Annotation[OL]. arXiv Preprint, arXiv: 1312.4894.
[35] Sánchez J, Perronnin F, Mensink T, et al.Image Classification with the Fisher Vector: Theory and Practice[J]. International Journal of Computer Vision, 2013, 105(3): 222-245.
doi: 10.1007/s11263-013-0636-x
[36] Tian J, Huang Y, Guo Z, et al.A Multi-Modal Topic Model for Image Annotation Using Text Analysis[J]. IEEE Signal Processing Letters, 2014, 22(7): 886-890.
[37] Yan F, Mikolajczyk K.Deep Correlation for Matching Images and Text[C]// Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015: 3441-3450.
[38] Gu Y, Qian X, Li Q, et al.Image Annotation by Latent Community Detection and Multikernel Learning[J]. IEEE Transactions on Image Processing, 2015, 24(11): 3450-3463.
doi: 10.1109/TIP.2015.2443501 pmid: 26068319
[39] Thomee B, Shamma D A, Friedland G, et al.YFCC100M: The New Data in Multimedia Research[J]. Communnications of the ACM, 2016, 59(2): 64-73.
doi: 10.1145/2812802
[1] 陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀. 融合机器学习算法和多因素的禽肉交易量预测方法研究 *[J]. 数据分析与知识发现, 2020, 4(7): 18-27.
[2] 王鑫芸,王昊,邓三鸿,张宝隆. 面向期刊选择的学术论文内容分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 96-109.
[3] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[4] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[5] 焦启航,乐小虬. 对比关系句子生成方法研究[J]. 数据分析与知识发现, 2020, 4(6): 43-50.
[6] 王末,崔运鹏,陈丽,李欢. 基于深度学习的学术论文语步结构分类方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 60-68.
[7] 邓思艺,乐小虬. 基于动态语义注意力的指代消解方法[J]. 数据分析与知识发现, 2020, 4(5): 46-53.
[8] 余传明,原赛,朱星宇,林虹君,张普亮,安璐. 基于深度学习的热点事件主题表示研究*[J]. 数据分析与知识发现, 2020, 4(4): 1-14.
[9] 苏传东,黄孝喜,王荣波,谌志群,毛君钰,朱嘉莹,潘宇豪. 基于词嵌入融合和循环神经网络的中英文隐喻识别*[J]. 数据分析与知识发现, 2020, 4(4): 91-99.
[10] 刘彤,倪维健,孙宇健,曾庆田. 基于深度迁移学习的业务流程实例剩余执行时间预测方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 134-142.
[11] 余传明,李浩男,王曼怡,黄婷婷,安璐. 基于深度学习的知识表示研究:网络视角*[J]. 数据分析与知识发现, 2020, 4(1): 63-75.
[12] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[13] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[14] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[15] 张梦吉,杜婉钰,郑楠. 引入新闻短文本的个股走势预测模型[J]. 数据分析与知识发现, 2019, 3(5): 11-18.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn