微软AI技术新进展,可以基于图片内容回答自然语言问题
jopen 9年前
最近, 据 ZDNet ,微软在卡耐基梅隆大学的一个研究小组开发出一个新的 AI 系统,这个系统可以训练机器识别图像的内容,并回答自然语言提出的问题。例如,现在有一张狗坐在自行车篮子里的照片,这项技术用来回答,“什么坐在自行车的篮子里” 这样的问题。
微软的研究人员表示,回答这样一个问题并不简单,需要多步骤推理,具体解决方案是 “堆栈注意力网络(Stack Attention Networks)”,图片经过多层深度神经网络进行 “注意力” 分析,计算出哪些区域与问题有关。单层 “注意力” 分析技术曾用于图像自动字幕和机器翻译。具体技术原理参加 他们的论文 。
这项技术未来可以用于实时识别并预测人的需求,例如,自行车头盔上的摄像头预警系统,这个系统会不停地问自己问题,诸如 “我的左边是什么?”,“旁边是不是有车要超我?”,“有没有跑向我但我没注意到的人?”,这些问题的答案可以用来提示骑车人,预防危险的发生。
前些天, Google 的自然语言处理刚刚取得突破 ,可以通过文字或语音识别出 “最高级”、“基于时间的” 查询和一些复杂组合问题。
原创文章,作者:Yuri,如若转载,请注明出处:http://36kr.com/p/5040135.html