谷歌推出大模型 AudioPaLM，可支持文本及语音

2023-06-26 20:47:13 来源：ZAKER科技

(资料图片仅供参考)

近日，谷歌方面宣布推出能够处理和生成文本及语音的大型语言模型（LLMs）AudioPaLM。据了解，AudioPaLM 将两个现有的大模型、即文本大模型 PaLM-2 和语音大模型 AudioLM，融合到一个统一的多模态架构中，并利用该架构处理和生成文本和语音。

据谷歌方面透露，AudioPaLM" 继承 " 了 PaLM-2 模型的语言知识，以及 AudioLM 模型保留副语言信息（例如说话者身份和语调）的能力，从而能够更全面地理解和生成文本和音频，使得其能够适用于语音识别、语音翻译、语音转文字的多种应用场景。

据了解，AudioPaLM 使用了一个联合词汇表，可使用有限数量的离散标记表示语音和文本。并将这个联合词汇表与标记化的任务描述相结合，此外 AudioPaLM 还可以在各种声音和基于文本的任务上训练单个解码器模型，这也意味着传统需要单独模型来处理的语音识别、文本转语音合成和语音到语音翻译等任务，可统一到一个架构和训练过程中。

谷歌方面透露，经试验表明，AudioPaLM 在语音翻译方面的表现明显优于现有模型。同时 AudioPaLM 还展现了对语言组合执行零样本语音到文本翻译的能力，也就是说这款大模型可以准确地将陌生语言的语音翻译成文本。

此外，AudioPaLM 还可基于简短的口语提示在语言之间进行声音转换，并捕捉和重现不同语言中的独特声音，以实现语音转换和适应。

对此谷歌方面表示，" 我们证明，用纯文本大语言模型的权重初始化 AudioPaLM 可改善语音处理，也成功地利用了预训练中使用的大量文本训练数据来帮助语音任务。所得模型在语音翻译任务方面明显优于现有系统，并且能够对训练中未发现输入 / 目标语言组合的许多语言，执行零样本语音到文本的翻译。AudioPaLM 还演示了音频语言模型的功能，例如基于简短的语音提示跨语言传输语音。"

【本文图片来自网络】

标签：

山西两支援外医疗队载誉归来

中国（山西）第22批援喀麦隆医疗队、第25批援多哥卡拉医疗队载誉归来。

世界报道:花果山福地水帘洞洞天横批是什么_花果山福地

1、孙悟空没进水帘洞之前，水帘洞是有人住的。猴哥瞑目蹲身将身一纵跳

热点更多 >

当前速递！浙海德曼：拟定增募资不超1.73亿元

浙海德曼公告，公司拟以简易程序向特定对象发行股票，募资总额不超17,3

企业更多 >

用券再省50元！vivo S17到手只要2749元

vivoS1712GB+256GB5G智能手机目前京东商城售价为2749元，现在购买可额

采购更多 >

x 广告

谷歌推出大模型 AudioPaLM，可支持文本及语音

谷歌推出大模型 AudioPaLM，可支持文本及语音

豫能控股（001896）6月26日10点8分触及涨停板|全球即时

青海3部纪录片作品荣获国家广播电视总局4个奖项

国家开发银行今年前5月发放林草生态贷款74亿元当前焦点

当前速递！浙海德曼：拟定增募资不超1.73亿元

海南省三江监狱党委书记、监狱长、一级高级警长贺爱国涉嫌严重违纪违法接受纪律审查和监察调查_环球快消息

6月26日江浙含涤纱线行情