标准智能公司开源了其全双工音频Transformer基础模型Hertz-dev,该模型拥有85亿参数,包含音频自动编码器hertz-codec、变分自编码器hertz-vae和Transformer堆栈hertz-dev三个部分。Hertz-codec实现了低比特率下的高保真音频压缩,hertz-vae作为学习的先验,hertz-dev则基于预训练语言模型进行初始化和训练。Hertz-dev具有低延迟特性,适用于实时语音交互,是目前同类模型中延迟最低的,为构建更流畅的对话体验奠定了基础。