Suno AI 推出了一款名为 Bark 的基于 Transformer 的文本生成音频模型,可以生成高度逼真的多语言语音以及其他音频,包括音乐、背景噪音和简单的音效。该模型还可以产生笑声、叹息和哭声等非语言交流声音。为了支持研究社区,Suno AI 提供了预训练模型检查点的访问权限,以供推理使用。
Bark 支持各种语言,并可自动从输入文本中确定语言。当输入的是混合语言文本时,Bark 甚至会尝试使用相应语言的本地口音来生成声音。
该模型基于 Transformer 架构,能够生成高质量的音频,为语音合成领域提供了新的思路和方法。它可以用于对话系统、自动语音应答机器人等领域,从而提高交互体验。
此外,该模型还可以用于教育、娱乐和广告等领域,为用户提供更加真实、自然的音频体验。
Bark 的开源地址为 https://github.com/suno-ai/bark,可供开发者使用和自由探索,相信这个模型将会对未来的语音合成技术发展做出重要的贡献。