谷歌开源Live Transcribe语音引擎:为长对话提供字幕

?

Google的开源Live Transcribe的语音引擎,为长时间对话提供字幕

8月18日,谷歌宣布开放式Android语音识别转录工具Live Transcribe的语音引擎。

该公司希望这将允许任何开发人员为长时间对话提供字幕,减少由网络延迟,网络断开等引起的通信障碍。源代码现在可以在GitHub上找到。这意味着无论您是出国还是结识新朋友,Live Transcribe都可以帮助您进行交流。

通信时,4623-icmpfwz7081002.png可以实时通信(只要有网络)

Google于今年2月发布了Live Transcribe。该工具使用机器学习算法将音频转换为实时字幕。与Android即将推出的Live Caption功能不同,Live Transcribe是一种使用智能手机麦克风(或外接麦克风)并依赖Google Cloud Speech API的全屏体验。 Live Transcribe可以用70多种语言和方言标题实时发言。另一个主要区别是Live Transcribe可用于18亿个Android设备(当Live Caption在今年晚些时候推出时,它仅适用于某些Android Q设备)。

在云上工作

Google的Cloud Speech API目前不支持发送无限长度的音频。此外,依赖云意味着网络连接,数据成本和延迟等潜在问题。

结果,语音引擎在达到超时之前关闭并重新启动流请求,包括在长时间静默期间重新开始会话并且每当在语音中检测到暂停时关闭。在会话之间,语音引擎还在本地缓冲音频,然后在重新连接时发送它。因此,Google避免截断句子或单词,并减少会话中丢失的文本量。

b4f0-icmpfwz7080127.png从70种不同的语言和方言中选择

为了降低带宽需求和成本,Google还评估了不同的音频编解码器:FLAC,AMR-WB和Opus。 FLAC(无损编解码器)可在不节省太多数据的情况下保持准确性,并且具有显着的编解码器延迟。 AMR-WB可以节省大量数据,但在嘈杂的环境中准确度较低。

与此同时,Opus允许数据速率比大多数音乐流媒体服务低许多倍,同时仍保留音频信号的重要细节。谷歌还使用语音检测在长时间的静音期间关闭网络连接。

总体而言,该团队能够“在不影响准确性的情况下将数据使用量减少10倍。”

为了进一步减少延迟而不是Cloud Speech API,Live Transcribe使用自定义Opus编码器。编码器只是增加了比特率,因此“延迟在视觉上无法与发送未压缩的音频区分开”。

实时转录语音引擎功能

Google列出了语音引擎的以下功能(不包括说话人识别):

无限流媒体。

支持70多种语言。

它简化了网络丢失(在网络和Wi-Fi之间切换时)。文本不会丢失,只会延迟。

强大的网络丢失扩展。即使网络已关闭数小时,它也会重新连接。当然,没有连接就不可能进行语音识别。

可以轻松启用和配置Opus,AMR-WB和FLAC编码。

包含一个文本格式库,用于可视化ASR置信度,发言人ID等。

可以使用离线型号扩展。

内置支持语音检测器,可在延长静音期间停止ASR,从而节省资金和数据。

内置支持根据扬声器编号识别,标记或着色文本。

当对话加深时,2f60-icmpfwz7078777.png字幕将会调整

本文档指出这些库与生产应用程序Live Transcribe中运行的库“几乎相同”。谷歌已对其进行了“广泛的现场测试和单元测试”,但测试本身并非开源。但Google确实提供了一个APK,因此开发人员可以在不构建任何代码的情(雷锋网(公众号:雷锋网)雷锋网雷锋网)

通过:android.com venturebeat