大规模食品图像识别：T-PAMI 2023论文解读_图灵汇

投稿
APP
微信扫一扫获取更多

大规模食品图像识别：T-PAMI 2023论文解读

金奂问市

2023-02-26 07:06:55

图灵汇官网

改写后的内容

1 引言

美团基础研发平台视觉智能部与中科院计算所合作，共同构建了大规模数据集Food2K，以应对食品图像识别的需求。该数据集及其对应的渐进式区域增强网络已经在IEEE T-PAMI 2023上发表。本文详细介绍了数据集的特点、方法设计、性能对比，以及迁移实验等方面的内容，并对未来的工作进行了展望。

2 Food2K 数据集

Food2K包含超过100万张食品图像和2000种食品类别，涵盖12个大类（如蔬菜、肉类、烧烤和油炸食品等）和26个子类别。与现有的食品数据集相比，Food2K在数据量和类别数量上都有显著优势。我们还进行了严格的数据清洗和多次标注，确保数据质量。此外，Food2K包含多种视觉特征，如不同食材组合、不同配饰和不同排列等，这使得它成为食品图像识别的重要基准。

3 方法

食品图像识别需要综合考虑全局特征和局部特征。为此，我们提出了一种深度渐进式区域增强网络，该网络由渐进式局部特征学习模块和区域特征增强模块组成。渐进式局部特征学习模块通过改进的训练策略学习多尺度的局部特征，而区域特征增强模块则通过自注意力机制将上下文信息融入局部特征，进一步增强特征表示。

4 实验

我们对现有的食品识别方法和所提方法进行了比较，并研究了Food2K在食品识别、食品图像检索、跨模态菜谱-食品图像检索、食品检测和食品分割等任务上的泛化能力。实验结果表明，我们的方法在多个任务上均取得了较好的性能。

5 未来工作

基于Food2K，我们计划进一步探索食品图像识别的多模态信息融入、多任务学习等技术。此外，我们还将研究食品图像生成等新应用，并尝试扩展Food2K以支持更多任务。

6 总结

本文介绍了Food2K数据集及其对应的渐进式区域增强网络。这些方法在食品图像识别、食品图像检索、食品检测和食品分割等多个任务上均取得了优异的性能。未来，我们将继续深化食品计算技术，推动相关应用的发展。

7 参考文献

（此处省略具体的参考文献列表）

8 本文作者

本文由美团基础研发平台视觉智能部的研究人员撰写，包括致岭、丽萍、君实、晓明等成员。

请检查以上内容是否符合您的要求，如有需要进一步修改的地方，请告知。

大规模解读识别图像食品论文 2023 PAMI

本文来源：图灵汇文章作者：金奂问市

: 让企业摸着“京东”过河，解密京东云言犀AI，最接地气的数智供应链答案
图灵汇

: 海尔智家邓邱伟：一个“智家大脑”如何颠覆智能家居体验？
图灵汇

: 突发机器人龙头曝大幅裁员，CEO公开发话行业凛冬将至！
图灵汇

: 阿里达摩院田彪：如何用“模组化”解决AI语音场景“碎片化”痛点？
图灵汇

: 暌违四年，优傲新品重新“定义”协作机器人
图灵汇

: 谷歌 AI 搜索功能被指冲击新闻出版商流量：未经许可提取内容 + 低链接率
图灵汇

: 谷歌发布安卓 16 QPR1 Beta 2 更新：Pixel 8/9 系列手机支持桌面模式、为平板引入窗口化功能
图灵汇

: 谷歌安卓 16 窗口化新规：功能仅限平板，折叠手机体验需外接屏幕
图灵汇

: 苹果更新 iOS 26 / iPadOS 26 / macOS Tahoe 26 设计资源，助力开发者快速适配“液态玻璃”视觉风格
图灵汇

: 苹果更新 iOS 26 / iPadOS 26 / macOS Tahoe 26 设计资源，助力开发者快速适配“液态玻璃”视觉风格
图灵汇

下一篇

解惑！卷积神经网络原来是这样实现图像识别的

杨昌坤

2023-02-27

11