AutoMM 检测 - 准备 Pascal VOC 数据集¶
Pascal VOC 是一个用于目标检测的数据集集合。最常用的基准测试组合是使用 VOC2007 trainval 和 VOC2012 trainval 进行训练,以及 VOC2007 test 进行验证。VOC2007 和 VOC2012 都包含相同的 20 个类别,总共有 16551 张训练图像。本教程将详细介绍为 AutoGluon MultiModalPredictor 准备 VOC2007 和 VOC2012 的步骤。
下载和提取此数据集需要 8.4 GB 的磁盘空间。由于性能更好,建议使用固态硬盘(SSD)而非机械硬盘(HDD)。准备数据集的总时间取决于您的互联网速度和磁盘性能。例如,在具有 EBS 的 AWS EC2 上通常需要 10 分钟。
VOC 有一个官方网页可以下载数据,但一步到位的设置通常更简单。我们在示例中准备了一个脚本来下载 VOC2007 和 VOC2012:download_voc0712.sh。您也可以单独下载:download_voc07.sh, download_voc12.sh。或者您也可以使用我们的 CLI 工具 prepare_detection_dataset
,它可以下载我们教程中提及的所有数据集。这个 Python 脚本在我们的代码中:prepare_detection_dataset.py,您也可以作为 CLI 运行它:python3 -m autogluon.multimodal.cli.prepare_detection_dataset
。
使用 Python 脚本下载¶
Python 脚本不显示进度条,但保证在所有主要平台上都能工作。如果您在 Unix 系统上工作并需要进度条,请尝试使用 Bash 脚本!
您可以通过运行以下命令将其提取到当前目录:
python3 -m autogluon.multimodal.cli.prepare_detection_dataset --dataset_name voc0712
或者提取到提供的输出路径下:
python3 -m autogluon.multimodal.cli.prepare_detection_dataset --dataset_name voc0712 --output_path ~/data
或者更简洁地:
python3 -m autogluon.multimodal.cli.prepare_detection_dataset -d voc -o ~/data
或者单独下载它们:
python3 -m autogluon.multimodal.cli.prepare_detection_dataset -d voc07 -o ~/data
python3 -m autogluon.multimodal.cli.prepare_detection_dataset -d voc12 -o ~/data
使用 Bash 脚本下载¶
您可以通过运行以下命令将其提取到当前目录:
bash download_voc0712.sh
或者提取到提供的输出路径下:
bash download_voc0712.sh ~/data
命令行输出将显示进度条
extract data in current directory
Downloading VOC2007 trainval ...
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 438M 100 438M 0 0 92.3M 0 0:00:04 0:00:04 --:--:-- 95.5M
Downloading VOC2007 test data ...
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 430M 100 430M 0 0 96.5M 0 0:00:04 0:00:04 --:--:-- 99.1M
Downloading VOC2012 trainval ...
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
73 1907M 73 1401M 0 0 108M 0 0:00:17 0:00:12 0:00:05 118M
完成之后,VOC 数据集将被提取到 VOCdevkit
文件夹中,它包含:
VOC2007 VOC2012
并且两者都包含:
Annotations ImageSets JPEGImages SegmentationClass SegmentationObject
VOC 格式¶
VOC 也指 VOC 数据集使用的特定格式(在 .xml
文件中)。
在 AutoGluon MultiModalPredictor 中,我们强烈建议使用 COCO 作为您的数据格式。请查看 AutoMM 检测 - 准备 COCO2017 数据集 和 将数据转换为 COCO 格式,以获取关于 COCO 数据集以及如何将 VOC 数据集转换为 COCO 的更多信息。
但是,为了快速的概念验证测试,我们也有限支持 VOC 格式。使用 VOC 格式数据集时,输入是数据集的根路径,并且至少包含:
Annotations ImageSets JPEGImages
其他示例¶
您可以前往 AutoMM 示例 查看关于 AutoMM 的其他示例。
自定义¶
要了解如何自定义 AutoMM,请参阅 自定义 AutoMM。
引用¶
@Article{Everingham10,
author = "Everingham, M. and Van~Gool, L. and Williams, C. K. I. and Winn, J. and Zisserman, A.",
title = "The Pascal Visual Object Classes (VOC) Challenge",
journal = "International Journal of Computer Vision",
volume = "88",
year = "2010",
number = "2",
month = jun,
pages = "303--338",
}