厉害了我的AI,唇语都会读了

jopen 8年前
   <p>由于唇语解读技术的出现,我们在体育比赛中越来越多地看到这样的画面:</p>    <p style="text-align:center"><img alt="厉害了我的AI,唇语都会读了" src="https://simg.open-open.com/show/f78a827842f1a2b828ba7e84c846731c.jpg" /></p>    <p style="text-align:center">图片来自:<a href="/misc/goto?guid=4958995162981235372">Mirror</a></p>    <p>或是这样的:</p>    <p style="text-align:center"><img alt="厉害了我的AI,唇语都会读了" src="https://simg.open-open.com/show/5c043f5699b7f90f4ef6dae07af94835.jpg" /></p>    <p style="text-align:center">图片来自:<a href="/misc/goto?guid=4958995163105022793">Goal.com</a></p>    <p>事实上,即使是专业的唇语解读者,其准确率也只有 20%-60%。所以很多时候,一知半解的“专家”们基本也是依靠脑洞强行解读的。被专家们坑害多次后,球员们只好采取这种令人尴尬的方式交流了……</p>    <p>不过,牛津大学最新研发的人工智能系统,有望大幅提高唇语解读的准确性。</p>    <p style="text-align:center"><img alt="厉害了我的AI,唇语都会读了" src="https://simg.open-open.com/show/c588ee282b2392d50fcca1234aa69e69.jpg" /></p>    <p style="text-align:center">图片来自:视频截图</p>    <p>根据牛津大学新发表的论文,这个叫 LipNet 的人工智能系统,能够将视频中人物的嘴巴活动与其台词进行匹配,准确率高达 93.4%。而在此之前,即使是最先进的逐字对照系统,其准确率也只有 79.6%。</p>    <p>研究人员表示,他们换了一种思维方式,不是通过可视音素(语音中最小的不可再分解的单位)系统来训练 AI 识别每一种唇部活动,而是让它能够一次性处理整个句子。这就使得 AI 能够自己学习字母与唇部细微变化之间的对应关系。</p>    <p>在训练过程中,研究人员向 AI 展示了近 29000 个标有正确文本的视频,每个视频长度为 3 秒。为了了解人类唇语解读者在面对同样的任务时的表现,该团队还招募了三名实验人员,让他们随机观看了其中的 300 个视频。</p>    <p style="text-align:center"><img alt="厉害了我的AI,唇语都会读了" src="https://simg.open-open.com/show/3f9e155762c0ee073d841143cfab8320.gif" /></p>    <p>结果显示,参与实验的人员平均错误率为 47.7%,而 AI 只有 6.6%。</p>    <p>不过,这不并代表 AI 就能准确读懂唇语了。因为在训练时,研究人员使用的视频都是经过精心策划的,视频画面光线充足,每个人都正对镜头,且吐字清晰、发音标准,台词也是类似于“立即将蓝色放入 m1”这种包含命令、颜色、介词、字母、数字等格式的句子。</p>    <p>如果让 AI 去解读 油Tube 上随机挑选的视频,效果可能不见得比人类好多少。</p>    <p>值得一的是,这个项目得到了来自 Alphabet 旗下的 DeepMind 实验室的资助。</p>    <p>OpenAI 的杰克·克拉克(Jack Clark)认为,LipNet 还需要进行以下三个方面的改进,即通过大量真实环境中人物的讲话视频,让 AI 能够从多个角度阅读嘴唇,并增加短语的类型。</p>    <p>当然,开发这样一个 AI 可不是为了解满足球迷和媒体的八卦之魂的,听力受损人群才是这一工具的目标。</p>    <p>如果唇语解读 AI 能够得到完善,它将帮助数百万听力障碍者“听懂”其他人的对话。此外,通过听取视频快速生成准确的字幕也是其可能的应用领域之一。</p>    <p> </p>    <p>来自: <a href="/misc/goto?guid=4958995163211354738" id="link_source2">ifanr 爱范儿</a></p>