深度学习新方向:Multimodal CNN实现图像文本匹配
在近日的 国际计算机视觉大会(ICCV 2015) 上,华为诺亚方舟实验室报告的基于深度学习的多模态匹配模型在图像与自然语句的双向检索的任务上,提出了深度学习研究及应用的一个新方向。
图像与文本的理解一直是人工智能中最为重要的研究方向之一。近年来,随着深度学习的广泛应用,图像与文本理解,譬如图像识别,文本分类等,已经取 得了长足的进步。随着互联网的发达,愈来愈多的图像与文本等多模态的信息伴随彼此而共同出现。比如,新闻报道里的图片与标题,微博上的信息与照片,微信朋 友圈的标题与照片等。如何从这共生的图像与文本的信息里来学习以及挖掘它们之间的匹配关系,进而完成图像与文本的检索,图像的标题生成,图像问答等任务, 已经成为一个非常重要的研究方向。最近两年内各个研究公司,包括Google、微软,百度,以及知名高校,譬如斯坦福大学(Stanford University)、多伦多大学(University of Toronto),卡耐基梅隆大学(CMU),以及加州大学洛杉矶分校(UCLA)在内的多个研究机构都在不断地推进这项研究。
图像与文本的匹配关系的学习以及挖掘是一个非常困难的研究课题。首先,图像跟文本在语义层面上具有非常不同的表现形式。相对于图像的具体表现形 式,文本信息代表了人的语言,包含有更高的语义信息。因此,图像与文本之间的匹配关系就非常的复杂。其次图像跟文本之间的匹配关系的学习,不仅仅需要很好 的理解图像跟文本,更要学习以及挖掘他们之间的交互关系等。
诺亚方舟实验室提出的学习图像与文本匹配关系的Multimodal CNN模型
诺亚方舟实验室致力于图像与自然语言相结合的多模态的匹配学习,并以图像与自然语句的双向检索作为其核心任务之一。与其他公司或者高校譬如Google、 微软,百度,斯坦福大学、和多伦多大学等的策略不同,诺亚方舟实验室在业界首先构建了一个多模态的卷积神经网络(Multimodal CNN)。卷积神经网络(CNN)在计算机视觉特别是图像的识别方面已经取得了令人瞩目的成功。但是CNN用于多模态的匹配问题还是比较前沿的尝试。 华 为诺亚方舟实验室构建的Multimodal CNN模型包含一个图像CNN用于描述图像信息,一个匹配(matching)CNN一方面完成文本信息中的单词的语义构建,更为重要的是学习图像与文本 之间的匹配关系。另外Multimodal CNN模型挖掘以及学习了图像与文本在单词级别,短语级别,以及句子级别的匹配关系,进而完全的描述了图像与文本的复杂的匹配关系。 诺亚方舟实验室研究员介绍,其研究的Multimodal CNN模型在图像与文本的双向搜索的任务上,超过了其他公司以及高校,达到了业界的领先水平。
随着互联网上图像与文本信息增多,针对图像与文本的多模态研究会吸引更多的企业以及高校的研究人员。诺亚方舟实验室研究员表示,将也会持续关注以及研究这个新兴的方向。