今天由湘潭网小编为带来关于在周一通过其《机器学习期刊》博客发布的新文章中,苹果继续详细介绍了其无线智能扬声器HomePod如何利用机器学习提高远场精度,这有助于Siri忽略或抑制背景声音以更好地理解您的语音嘈杂环境中的请求。

从文章:

HomePod的典型音频环境面临许多挑战-回声,混响和噪声。与iPhone上的Siri靠近用户的嘴操作不同,HomePod上的Siri必须在远场环境下都能很好地工作。用户希望从许多位置调用Siri,例如沙发或厨房,而不必考虑HomePod的位置。

一个完整的在线系统要解决HomePod可能遇到的所有环境问题,就需要紧密集成各种多通道信号处理技术。因此,音频软件工程和Siri语音团队构建了一个系统,该系统集成了受监督的深度学习模型和不受监督的在线学习算法,并利用了多个麦克风信号。

系统通过使用来自“ Hey Siri”触发短语检测器的自上而下的知识,为语音识别器选择最佳音频流。

本文的其余部分讨论了将各种机器学习技术用于在线信号处理,以及苹果公司面临的挑战及其在确保环境效率和算法健壮性的同时确保能源效率的解决方案。

长话短说,HomePod上的Siri实现了多通道回声消除(MCEC)算法,该算法使用一组线性自适应滤波器对扬声器和麦克风之间的多个声路径进行建模,以消除声耦合。

由于扬声器与HomePod上的麦克风非常接近,因此播放信号可能会比麦克风位置的用户语音命令响亮得多,尤其是当用户远离设备时。实际上,回声信号可能比远场语音信号大30-40 dB,从而导致在大声播放音乐时在麦克风上无法检测到触发短语。

TLDR:仅MCEC不能完全从语音命令中删除播放信号。

在大声播放音乐的情况下录制的Siri命令:麦克风信号(顶部),MCEC输出(中部)和通过基于遮罩的苹果式回声抑制功能增强的信号(底部)

为了在MCEC之后删除剩余的播放内容,HomePod使用了残余回声抑制器(RES)方法,而苹果公司训练有素的机器学习模型对此却没有什么帮助。对于成功的触发短语检测,RES采取了减轻残留线性回声的措施,特别是在通话双方和回声路径发生变化的情况下。

请务必阅读全文,然后向下滚动至第7节,在该节中您将看到多个彩色波形的图像以及它们下方的链接,使您可以亲身听到高音量播放的音乐抑制了用户的请求量,以及播放信号由HomePod的高音扬声器和低音扬声器产生。

Tidbit:Apple的多通道信号处理在1.4GHz双核A8硅的一个核上运行,并且消耗多达该芯片单核性能的15%。

HomePod将机器学习用于很多方面,而不仅仅是Siri。

设备上运行的内容推荐算法以及HomePod的数字音频处理和声音优化技术都可以从机器学习中受益。

君子莲(www.junzilian.com)湘潭网,关注长株潭地区房产、人才招聘、教育、创业、旅游、美食、天气、特产、生活周边信息,欢迎投稿给我们!