当前位置:首页 > IT资讯 >

网易伏羲三项研究入选CVPR顶会:AI感知表情能力将达到人类水平IT资讯

来源:天之家 发表于:2021-03-06 03:55 阅读:

  2月28日,人工智能顶级会议CVPR 2021(国际计算机视觉与模式识别会议,Conference on Computer Vision and Pattern Recognition)公布论文录取结果,网易伏羲共有3篇论文入选。

  其中,由网易伏羲虚拟人团队发表的一项研究颇为引人关注。该研究提出了一种人类表情编码的创新提取方法,大幅提升了AI感知人类表情的精度。随着该技术的发展,未来,AI感知人类表情的能力甚至有望超越人类感知平均水平。

  这一技术的应用场景十分广泛,包括测谎、性格评估、自闭症检测、表演能力评估等众多与人脸表情相关的领域。

网易伏羲三项研究入选CVPR顶会:AI感知表情能力将达到人类水平

  过去,学术界对人类表情的识别和描述,一般源于两种传统理论:一种源自150年前的达尔文时期,学者们从心理学出发,基于高兴、惊讶、生气、悲伤等有限的情绪类别描述人类表情;另一种起源于上世纪70年代末,知名心理学家Paul Ekman博士从解剖学角度出发,基于人脸肌肉运动,用27种动作单元来描述人类表情。

  从数量上看,传统理论对人类表情的描述极为有限。网易伏羲的人类表情编码提取方法,则以人工智能的方式进一步突破了这一瓶颈。通过学习大量的人脸表情数据,AI可以无穷尽、无上限地感知人类表情。

  为了让AI更懂人类的喜怒哀乐,技术人员还需要大量细颗粒度、人工标注的人脸表情数据用于算法参数迭代,进一步提升表情编码的精度。为此,网易伏羲正在开发一个游戏化标注小程序,让普通用户能够在游戏的过程中,轻轻松松地参与表情标注,加速推进人类表情领域的人工智能研究与应用。

  网易伏羲成立于2017年,是国内从事游戏与文创AI研究和应用的顶尖机构,研究方向包括强化学习、图像动画、自然语言、虚拟人、用户画像、大数据平台等领域。据了解,此次CVPR中稿论文展示的部分科研成果,已经在网易多个产品中成功落地。未来,网易伏羲将继续以技术落地为导向,用科研成果推动产品创新。

  附|网易伏羲三篇入选CVPR2021论文简介:

  1、《去ID信息的表情编码》

  Learning a Facial Expression Embedding Disentangled from Identity

  论文简介:

  本文研究的主要目的,是获取一种紧致的,且与ID信息无关的人脸表情表征。

  本研究中,网易伏羲虚拟人团队首次提出,将表情特征建模为从ID身份特征出发的一个差值向量,以这种显式方式去掉ID的影响为此,本研究设计了一个伪孪生结构的网络去学习这种差值。同时,为了加强网络在深层的学习能力,本研究通过高阶多项式的方法替代一般的全连接层去完成从高维到低维的映射。另外,考虑到不同标注者存在一定标注噪音,本研究增加了众包层学习不同标注者的偏差,使学习到的表情表征更加鲁棒。

  定性和定量的实验结果表明,该方法在FEC数据集上超越了前沿水平。同时在情绪识别、图像检索以及人脸表情生成等应以用上都有不错的效果。

网易伏羲三项研究入选CVPR顶会:AI感知表情能力将达到人类水平

  (论文的Pipeline)

  下图展示了该工作的表情表征编码的效果,输入一张检索(Query)表情,通过比较表情编码的距离,从一个足够大的人脸数据集中检索出与之最相似的一些表情(Results),下图中展示了TOP5的结果。

网易伏羲三项研究入选CVPR顶会:AI感知表情能力将达到人类水平

  (本研究中表情表征的效果)

  由图可知,所检索出来的图像和目标表情非常接近,说明本研究提出的表情表征编码可以感知微妙且精细的表情。

  2、《基于稠密运动场的高清说话人脸视频生成》

  Flow-based One-shot Talking Face Genaration with a High-resolution Audio-visual Dataset

  论文简介:

  One-shot说话人脸合成的目的,是给定任意一张人脸图像和任意一段语音,合成具有语音口型同步、眉眼头动自然的高清说话人脸视频。之前工作合成的视频分辨率之所以一直受到限制,主要有两个原因:1目前没有合适的高清视听数据集。2.之前的工作使用人脸特征引导人脸图像合成,而对于高分辨率图像来说特征太稀疏。