谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

图灵汇官网

随着谷歌和Meta相继推出基于大语言模型的AI播客功能,人类用户与AI智能体之间的互动体验得到了极大丰富。

谷歌近期对其AI笔记应用NotebookLM进行了更新,增加了生成YouTube视频和音频文件摘要的功能,甚至可以创建可分享的AI生成音频讨论。这一更新使得NotebookLM的应用场景更加广泛。

与此同时,Meta推出了NotebookLlama,作为NotebookLM的开源替代品,该工具主要利用Llama模型处理各种任务。尽管NotebookLlama已具备一定的功能,但其表现尚不及谷歌的NotebookLM,特别是在语音自然度方面存在不足,有时对话显得不够流畅自然。

Meta的研究人员指出,使用更强大的模型可能会提升NotebookLlama的表现。未来,他们希望通过不断优化,使其效果更接近理想状态。

NotebookLlama的使用流程大致如下:首先从文件(如新闻文章或博客文章)中创建转录文本,然后添加一些戏剧化元素和停顿,最后将文本输入到一个开放的文本到语音模型中。

尽管当前的语音转换效果还不够自然,但社区成员普遍认为,随着代码的开源,用户可以根据自身需求调整提示方法等参数,从而在未来取得更好的效果。

例如,你可以通过以下步骤构建一个基于PDF文件的播客:

  1. 使用Llama-3.2-1B-Instruct对PDF文件进行预处理,生成.txt文件。
  2. 使用Llama-3.1-70B-Instruct模型从文本中编写播客转录文本。
  3. 使用Llama-3.1-8B-Instruct模型优化转录文本,增加戏剧性。
  4. 使用文本到语音模型(如parer-tts/parer-tts-mini-v1和bark/suno)生成最终的播客音频。

为了顺利运行该项目,你需要具备GPU服务器或相应的API服务。此外,确保安装必要的软件依赖项,如Hugging Face CLI和Jupyter Notebook。

尽管目前还存在一些不足之处,但通过持续的技术改进和社区贡献,未来这款工具有望变得更加成熟和完善。

本文来源: 互联网 文章作者: AI科技评论
    下一篇

导读:划重点 01华人学者Tianhao Wu及其团队提出了一种名为思考偏好优化(Thought Preference Optimization)的方法,使模型能根据任务复杂度进行不同时间的思考。 0