IT之家 4 月 9 日音讯,亚马逊发布了名为 Nova Sonic 的新一代生成式 AI 模型,该模型可以原生处理语音并生成天然流通的语音。据亚马逊宣称,Nova Sonic 在速度、语音辨认以及对话质量等要害目标的基准测验中,
Nova Sonic 的面世是亚马逊对新式 AI 语音模型的有力回应,例如为 ChatGPT 语音形式供给支撑的模型,相较于亚马逊前期的 Alexa 等较为刻板的模型,这些新模型在语音交互时愈加天然。
Nova Sonic 经过亚马逊的 Bedrock 开发者渠道供给给用户,该渠道是用于构建企业级 AI 运用的东西,Nova Sonic 则经过一个全新的双向流式 API 进行接入。在一份新闻稿中,亚马逊称 Nova Sonic 是市场上“最具本钱效益”的 AI 语音模型,其价格比 OpenAI 的 GPT-4o 廉价约 80%。
据亚马逊高档副总裁兼人工通用智能(AGI)部分首席科学家罗希特・普德介绍,Nova Sonic 的部分组件现已为亚马逊升级版数字语音帮手 Alexa+ 供给了动力支撑。
普德表明,与竞争对手的 AI 语音模型比较,Nova Sonic 在将用户恳求路由到不同 API 方面表现出色。这一才能使得 Nova Sonic 可以知晓何时需要从互联网获取实时信息、解析专有数据源,或许在外部运用程序中采纳举动,并运用适宜的东西来完结任务。
在双向对话中,Nova Sonic 会等候“适宜的机遇”讲话,会考虑到说话者的中止和打断等状况。此外,Nova Sonic 还可以为用户的语音生成文本记载,开发的人能将这些文本用在全部运用场景。
据普德介绍,Nova Sonic 在语音辨认过错方面比其他 AI 语音模型更少,这在某种程度上预示着该模型即便在用户咕哝、说错话或许处于喧闹环境中时,也相对拿手了解用户的目的。在一项衡量跨语言和方言的语音辨认基准测验 —— 多语言 LibriSpeech 中,亚马逊表明 Nova Sonic 在英语、法语、意大利语、德语和西班牙语上的均匀单词过错率(WER)仅为 4.2%。也就是说,在这些语言中,该模型每 100 个单词中大约有 4 个与人工转录的成果不同。
IT之家注意到,在另一项衡量多人参加的高音量互动的基准测验 —— 增强多方互动中,亚马逊称 Nova Sonic 在单词过错率方面比OpenAI的 GPT-4o-transcribe 模型准确率高出 46.7%。Nova Sonic 还具有职业抢先的速度,其均匀感知推迟为 1.09 秒,亚马逊表明。这一速度比为 OpenAI 的实时 API 供给动力的 GPT-4o 模型更快,后者呼应时刻为 1.18 秒,这是依据人工剖析的基准测验成果得出的。
普德称,Nova Sonic 是亚马逊构建人工通用智能(AGI)这一更广泛战略的一部分,公司界说 AGI 为“可以在核算机上完结人类所能做的全部工作的 AI 体系”。展望未来,普德表明,亚马逊方案推出更多可以了解不同模态(包含图画、视频和语音)的 AI 模型,以及“其他在将事物引进物理世界时相关的感官数据”。
由普德担任的亚马逊 AGI 部分,现在好像在公司产品战略中扮演着逐步重要的人物。就在上星期,亚马逊刚刚推出了 Nova Act 的预览版,这是一个运用浏览器的 AI 模型,好像为 Alexa+ 和亚马逊的“代我购买”功用的部分元素供给了支撑。普德表明,从 Nova Sonic 开端,公司期望将更多内部的 AI 模型供给给开发者运用,以助力他们构建各种运用。
