当前位置:首页 > IT资讯 >

网易 AI Lab 斩获全球顶级声纹识别比赛冠军IT资讯

来源:天之家 发表于:2021-04-23 09:31 阅读:

  克日,全球最大的语音集会会议INTERSPEECH 2020发布了SdSV声纹识别角逐后果,网易AI Lab 从浩瀚国际顶级步队中脱颖而出,获文内情关声纹识别赛道综合排名第一、单模子第一的双料冠军。彰显了网

  克日,全球最大的语音集会会议INTERSPEECH 2020发布了SdSV声纹识别角逐后果,网易AI Lab 从浩瀚国际顶级步队中脱颖而出,获文内情关声纹识别赛道综合排名第一、单模子第一的双料冠军。彰显了网易AI Lab在语音声纹识别技能规模的领先职位。

  本次国际声纹识别角逐是业界很是具备权威性的赛事,参赛步队来自国际多家知名高校与企业,包罗近两年全球各项声纹识别角逐中的“常胜将军”:布尔诺家产大学、新加坡通信研究院、约翰霍普金斯大学等。

  角逐中,网易 AI Lab 基于常见的X-Vector和PLDA算法,创新地提出了一种ASR-free的文内情关声纹识别算法。对比传统的Deep Speaker Embedding要领,该算法不需要依赖语音识别,就可以或许在多语言情况下,同时完成措辞人和文本内容的验证。

  角逐回收MinDCF(最小检测价钱)和EER(等错误率)作为评测指标。网易AI Lab的单模子在两个指标均为最佳,个中EER到达了1.67%,对比第二名低落了11.6%,并远低于角逐 X-Vector基线系统(EER=9.05%)。

  评估算法系统机能时常输出ROC 曲线,用于描写FAR(误识率)与FRR(拒识率)之间的干系。?

  简朴说,在声纹识别中,误识率就是“把不该该匹配的声纹当成匹配声纹”的比例,拒识率则是“把应该匹配的声纹当成不匹配声纹”的比例。

  在对安详要求很是高的应用场景,就会把FAR值配置得低一些,因为判定错一次的价钱很大,但这样做的同时会导致FRR值上升,用户体验度下降。

  等错误率(EER)是系统的误识率(FAR)和拒识率(FRR)相等时的错误率,即ROC曲线与45度角直线相交的点,是权衡声纹识别算法系统综合机能的重要指标。EER数值越小,系统机能越好。

  声纹识别是生物识别技能的一种,也称为措辞人识别,是一种通过声音鉴别措辞人身份的技能。

  今朝,人工智能主要有三个研究偏向:视觉识别、智能语音、NLP自然语言处理惩罚。个中,在语音识别规模,声纹识别属于相对蓝海市场,办理的主要是“我是我”的身份认证问题,多应用在安详验证场景。

  从近几年的市场趋势来看,银行,金融处事,保险已成为声纹识别应用的率领规模。

  跟着技能的不绝成熟和融合,声纹识别技能将逐渐融入日常糊口,按照差异应用场景的特点举办针对性开拓,将发生庞大的应用代价。

  而网易 AI Lab 声纹识别技能其实早已被运用于游戏场景中。除了举办游戏身份验证,还可以或许针对音色对用户举办分类、富厚玩家画像,从而越发精准地为玩家推荐志趣相投的挚友、匹配实力相当的敌手,为玩家带来更好的游戏体验。

出格提醒:本网内容转载自其他媒体,目标在于通报更多信息,并不代表本网附和其概念。其原创性以及文中告诉文字和内容未经本站证实,对本文以及个中全部可能部门内容、文字的真实性、完整性、实时性本站不作任何担保或理睬,并请自行核实相关内容。本站不包袱此类作品侵权行为的直接责任及连带责任。如若本网有任何内容加害您的权益,请实时接洽我们,本站将会在24小时内处理惩罚完毕。