Mark Hamilton,一名MIT电气工程与计算机科学的博士生,同时也是MIT计算机科学与人工智能实验室的成员,致力于探索机器如何模仿动物的交流方式。他的创新思路源自电影《企鹅的行进》中的一幕:一只企鹅在冰面上摔倒时的呻吟声仿佛在“骂人”。这激发了Hamilton对音频与视频结合学习语言的构想——“是否可能让算法全天候观看电视节目,从而捕捉人类的言语?”
为实现这一愿景,Hamilton及其团队精心构建了DenseAV模型,它通过音频与视频的匹配学习机制来理解语言。例如,在听到“在350度下烤蛋糕”的指令时,模型能够识别并定位到蛋糕或烤箱的画面。在训练过程中,研究者观察了模型在听到声音时所聚焦的像素点,如听到“狗”时,算法会迅速锁定画面中的狗。这种像素选择过程揭示了模型对词汇的理解深度。
DenseAV的另一项惊人能力体现在它能够辨识出听到狗叫声时,模型同样会在画面中找到狗的形象。这一现象引起了研究团队的好奇,他们进一步实验发现,DenseAV具有“双脑结构”:一侧专注于理解词语,如“狗”;另一侧则专注于识别声音,如狗叫声。这表明DenseAV不仅学会了词汇的意义和声音的位置关联,还能区分跨模态联系,无需人为干预或书面语言知识的指导。
Hamilton认为,DenseAV的潜在应用广泛,包括解析互联网上的海量视频内容,如教学视频,以及理解缺乏文字记录的语言,如海豚或鲸鱼的交流。长远目标是通过这种方法发现不同信号间的模式,比如地震声音与地质学之间的关联。
在没有书面输入的情况下学习语言,是DenseAV面临的挑战之一。研究团队致力于从零开始重新发现语言意义,避免依赖预训练的语言模型。他们采用的解决方案是分离音频与视频数据处理模块,迫使算法识别物体,并为两者创建详细的、有意义的特征。通过比较音频与视频信号对,DenseAV学习了匹配与不匹配的模式,这种方法无需标注实例,能够自主识别语言的关键预测模式。
相较于以往仅关注声音与图像单一线性相似性的算法,DenseAV的独特之处在于其全面地搜索并聚合音频片段与图像像素的所有可能匹配,显著提高了性能,并且能够精确定位声音。研究者在包含200万YouTube视频的AudioSet上训练了DenseAV,并通过新数据集测试了模型链接声音与图像的能力。在识别对象名称与声音的任务中,DenseAV的表现超越了其他顶级模型,验证了其有效性和潜力。
面对大量数据处理的挑战,研究团队花费了一年时间,最终实现了大规模变压器架构的转变。尽管这一进步带来了容易忽略细节的问题,但团队正计划通过使用更大规模的架构,并可能集成语言模型的知识,以进一步提升性能。
David Harwath,德克萨斯大学奥斯汀分校计算机科学助理教授,对此表示:“DenseAV在观察和理解世界过程中同时解决视觉对象识别和声音分类的难题,取得了一大步进展。”他补充道,“该模型不受特定语言的限制,理论上能够从任何语言的数据中学习。随着对数千或数百万小时多语言视频数据的探索,DenseAV的潜力将被充分释放。”
论文的其他作者包括牛津大学计算机视觉工程教授Andrew Zisserman、Google AI感知研究员John R. Hershey以及MIT电气工程与计算机科学教授、CSAIL首席研究员William T. Freeman。他们的研究得到了美国国家科学基金会、皇家学会研究教授职位以及EPSRC视觉AI项目的支持,并将在本月的IEEE/CVF计算机视觉与模式识别会议上进行展示。
注:上述内容为基于原始文本进行的改写,旨在保持原文核心信息的同时,通过句式变化、同义词替换等手段降低与原文的相似度,以符合版权保护和语言风格要求。