AI 技术的落地实践与应用越来越方便,随着各种强大的数据集发布,机器学习模型训练无需再亲自采集数据,数据训练集唾手可得。拥有强大的零售货架商AI 技术的落地实践与应用越来越方便,随着各种强大的数据集发布,机器学习模型训练无需再亲自采集数据,数据训练集唾手可得。拥有强大的零售货架商品识别经验的品览,近期正式发布了 RP2K 零售品数据集品识别经验的品览,近期正式发布了 RP2K 零售品数据集

rp2k.png

不同于一般聚焦新产品的数据集,RP2K 收录了超过 50 万张零售商品货架图片,商品种类超过 2000 种,该数据集是目前同类别数据集中产品种类数量之最,同时所有图片均来自于真实场景下的人工采集,针对每种商品,我们提供了十分详细的注释,包含尺寸/形状/味道等特征

摘要

RP2K,这是一种用于细粒度图像分类的新的大型零售产品数据集。与以前针对较少产品的数据集不同,我们在属于2000种不同产品的货架上收集了500,000多种零售产品图像。我们的数据集旨在推动零售对象识别的研究,该对象具有大量应用,例如自动货架审核和基于图像的产品信息检索。

我们的数据集具有以下属性:

  • 就产品类别而言,它是迄今为止规模最大的数据集。
  • 所有图像都是在自然采光的零售商店中手动捕获的,与实际应用场景相匹配。
  • 我们为每个对象提供丰富的注释,包括大小,形状和风味/气味。我们相信我们的数据集可以使计算机视觉研究和零售行业受益。

论文

数据集

下载

官方下载地址:https://www.pinlandata.com/rp2ksjjxz
备用下载地址:

RP2K数据集概述信息

1概述.png

RP2K数据集的分类信息

2分类.jpg

样本图片

来自我们的数据集的样本图像。货架上的精确零售产品识别被认为具有很高的挑战性,因为:

  • 同一生产线中的产品可能具有不同的尺寸,并且它们通常具有相似的外观但价格不同。图像尺寸无法反映产品的实际尺寸。
  • 制造商通常会为一条产品线制造多种口味,但是它们的外观在标签上只有细微的差别。
  • 根据产品在货架上的放置位置,可以以不同的相机角度拍摄产品图像。由于相机变形,图像也可能被拉伸。

3样本.jpg

同行比较

与其他数据集相比,RP2K数据集显示了大量类别,同时保持了相当数量的图像。

4比较.jpg

数据收集管道

RP2K数据收集流程的管道。RP2K的照片收集器首先在500多家不同的零售商店中分发,并收集了超过1万张高分辨率货架图像。然后,RP2K使用预训练的检测模型来提取感兴趣的潜在对象的边界框。之后,RP2K的人工注释者会丢弃不正确的边界框,包括严重遮挡的图像和不是有效零售产品的图像。其余图像由注释器注释。

5数据收集.jpg

细粒度识别中的长尾问题

细粒度识别中的长尾问题。随着可用图像数量的减少,识别精度趋于降低。
6细粒度长尾问题.jpg

原文:https://www.pinlandata.com/rp2k_dataset

最后修改:2021 年 01 月 23 日
文章有用,请随意赞赏