随着谷歌和Meta相继推出基于大语言模型的AI播客功能,人类用户与AI智能体之间的互动体验得到了极大丰富。
谷歌近期对其AI笔记应用NotebookLM进行了更新,增加了生成YouTube视频和音频文件摘要的功能,甚至可以创建可分享的AI生成音频讨论。这一更新使得NotebookLM的应用场景更加广泛。
与此同时,Meta推出了NotebookLlama,作为NotebookLM的开源替代品,该工具主要利用Llama模型处理各种任务。尽管NotebookLlama已具备一定的功能,但其表现尚不及谷歌的NotebookLM,特别是在语音自然度方面存在不足,有时对话显得不够流畅自然。
Meta的研究人员指出,使用更强大的模型可能会提升NotebookLlama的表现。未来,他们希望通过不断优化,使其效果更接近理想状态。
NotebookLlama的使用流程大致如下:首先从文件(如新闻文章或博客文章)中创建转录文本,然后添加一些戏剧化元素和停顿,最后将文本输入到一个开放的文本到语音模型中。
尽管当前的语音转换效果还不够自然,但社区成员普遍认为,随着代码的开源,用户可以根据自身需求调整提示方法等参数,从而在未来取得更好的效果。
例如,你可以通过以下步骤构建一个基于PDF文件的播客:
为了顺利运行该项目,你需要具备GPU服务器或相应的API服务。此外,确保安装必要的软件依赖项,如Hugging Face CLI和Jupyter Notebook。
尽管目前还存在一些不足之处,但通过持续的技术改进和社区贡献,未来这款工具有望变得更加成熟和完善。