大规模食品图像识别:T-PAMI 2023论文解读

图灵汇官网

改写后的内容

1 引言

美团基础研发平台视觉智能部与中科院计算所合作,共同构建了大规模数据集Food2K,以应对食品图像识别的需求。该数据集及其对应的渐进式区域增强网络已经在IEEE T-PAMI 2023上发表。本文详细介绍了数据集的特点、方法设计、性能对比,以及迁移实验等方面的内容,并对未来的工作进行了展望。

2 Food2K 数据集

Food2K包含超过100万张食品图像和2000种食品类别,涵盖12个大类(如蔬菜、肉类、烧烤和油炸食品等)和26个子类别。与现有的食品数据集相比,Food2K在数据量和类别数量上都有显著优势。我们还进行了严格的数据清洗和多次标注,确保数据质量。此外,Food2K包含多种视觉特征,如不同食材组合、不同配饰和不同排列等,这使得它成为食品图像识别的重要基准。

3 方法

食品图像识别需要综合考虑全局特征和局部特征。为此,我们提出了一种深度渐进式区域增强网络,该网络由渐进式局部特征学习模块和区域特征增强模块组成。渐进式局部特征学习模块通过改进的训练策略学习多尺度的局部特征,而区域特征增强模块则通过自注意力机制将上下文信息融入局部特征,进一步增强特征表示。

4 实验

我们对现有的食品识别方法和所提方法进行了比较,并研究了Food2K在食品识别、食品图像检索、跨模态菜谱-食品图像检索、食品检测和食品分割等任务上的泛化能力。实验结果表明,我们的方法在多个任务上均取得了较好的性能。

5 未来工作

基于Food2K,我们计划进一步探索食品图像识别的多模态信息融入、多任务学习等技术。此外,我们还将研究食品图像生成等新应用,并尝试扩展Food2K以支持更多任务。

6 总结

本文介绍了Food2K数据集及其对应的渐进式区域增强网络。这些方法在食品图像识别、食品图像检索、食品检测和食品分割等多个任务上均取得了优异的性能。未来,我们将继续深化食品计算技术,推动相关应用的发展。

7 参考文献

(此处省略具体的参考文献列表)

8 本文作者

本文由美团基础研发平台视觉智能部的研究人员撰写,包括致岭、丽萍、君实、晓明等成员。


请检查以上内容是否符合您的要求,如有需要进一步修改的地方,请告知。

本文来源: 图灵汇 文章作者: 金奂问市