Meta公司与斯坦福大学合作,共同推出了全新的AI模型系列——Apollo,旨在大幅提升机器对视频内容的理解能力。
虽然人工智能在图像和文本处理方面已经取得显著进展,但要让机器真正理解视频依然面临不少挑战。视频包含了复杂且动态的信息,这使得人工智能处理起来更加困难,不仅需要更高的计算资源,而且在设计高效的AI视频解析系统时也遇到了许多难题。
在视频处理的研究中,研究者们发现,保持恒定的帧采样率可以获得最佳效果。为此,Apollo模型采用了两种不同的组件:一种用于处理独立的视频帧,另一种则追踪对象和场景随时间的变化情况。此外,在处理过的视频片段之间加入时间戳,有助于模型更好地理解视觉信息与文字描述之间的关联,从而增强其时间感知能力。
在模型训练方面,研究团队发现训练方法比单纯增加模型大小更为关键。Apollo模型采取了分阶段训练的方式,按照特定顺序激活模型的不同部分,这样比一次性训练所有部分的效果要好得多。
此外,Meta公司也在不断优化数据集的组合。他们发现,将大约10%到14%的数据侧重于文本信息,而其他部分则更倾向于视频内容,这样的数据配比能够更好地平衡语言理解和视频处理的能力。
Apollo模型在不同规模下都表现优异,小型的Apollo-3B在同等规模的模型中超越了Qwen2-VL等竞争对手,而大型的Apollo-7B则超过了更大参数量的同类模型。目前,Meta已将Apollo的代码和模型权重开源,并在Hugging Face平台上提供了公开演示。