AutoMM 检测 - 准备 Pascal VOC 数据集

Open In Colab Open In SageMaker Studio Lab

Pascal VOC 是一个用于目标检测的数据集集合。最常用的基准测试组合是使用 VOC2007 trainval 和 VOC2012 trainval 进行训练,以及 VOC2007 test 进行验证。VOC2007 和 VOC2012 都包含相同的 20 个类别,总共有 16551 张训练图像。本教程将详细介绍为 AutoGluon MultiModalPredictor 准备 VOC2007 和 VOC2012 的步骤。

下载和提取此数据集需要 8.4 GB 的磁盘空间。由于性能更好,建议使用固态硬盘(SSD)而非机械硬盘(HDD)。准备数据集的总时间取决于您的互联网速度和磁盘性能。例如,在具有 EBS 的 AWS EC2 上通常需要 10 分钟。

VOC 有一个官方网页可以下载数据,但一步到位的设置通常更简单。我们在示例中准备了一个脚本来下载 VOC2007 和 VOC2012:download_voc0712.sh。您也可以单独下载:download_voc07.sh, download_voc12.sh。或者您也可以使用我们的 CLI 工具 prepare_detection_dataset,它可以下载我们教程中提及的所有数据集。这个 Python 脚本在我们的代码中:prepare_detection_dataset.py,您也可以作为 CLI 运行它:python3 -m autogluon.multimodal.cli.prepare_detection_dataset

使用 Python 脚本下载

Python 脚本不显示进度条,但保证在所有主要平台上都能工作。如果您在 Unix 系统上工作并需要进度条,请尝试使用 Bash 脚本!

您可以通过运行以下命令将其提取到当前目录:

python3 -m autogluon.multimodal.cli.prepare_detection_dataset --dataset_name voc0712

或者提取到提供的输出路径下:

python3 -m autogluon.multimodal.cli.prepare_detection_dataset --dataset_name voc0712 --output_path ~/data

或者更简洁地:

python3 -m autogluon.multimodal.cli.prepare_detection_dataset -d voc -o ~/data

或者单独下载它们:

python3 -m autogluon.multimodal.cli.prepare_detection_dataset -d voc07 -o ~/data
python3 -m autogluon.multimodal.cli.prepare_detection_dataset -d voc12 -o ~/data

使用 Bash 脚本下载

您可以通过运行以下命令将其提取到当前目录:

bash download_voc0712.sh

或者提取到提供的输出路径下:

bash download_voc0712.sh ~/data

命令行输出将显示进度条

extract data in current directory
Downloading VOC2007 trainval ...
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  438M  100  438M    0     0  92.3M      0  0:00:04  0:00:04 --:--:-- 95.5M
Downloading VOC2007 test data ...
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100  430M  100  430M    0     0  96.5M      0  0:00:04  0:00:04 --:--:-- 99.1M
Downloading VOC2012 trainval ...
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
 73 1907M   73 1401M    0     0   108M      0  0:00:17  0:00:12  0:00:05  118M

完成之后,VOC 数据集将被提取到 VOCdevkit 文件夹中,它包含:

VOC2007  VOC2012

并且两者都包含:

Annotations  ImageSets  JPEGImages  SegmentationClass  SegmentationObject

VOC 格式

VOC 也指 VOC 数据集使用的特定格式(在 .xml 文件中)。

在 AutoGluon MultiModalPredictor 中,我们强烈建议使用 COCO 作为您的数据格式。请查看 AutoMM 检测 - 准备 COCO2017 数据集将数据转换为 COCO 格式,以获取关于 COCO 数据集以及如何将 VOC 数据集转换为 COCO 的更多信息。

但是,为了快速的概念验证测试,我们也有限支持 VOC 格式。使用 VOC 格式数据集时,输入是数据集的根路径,并且至少包含:

Annotations  ImageSets  JPEGImages

其他示例

您可以前往 AutoMM 示例 查看关于 AutoMM 的其他示例。

自定义

要了解如何自定义 AutoMM,请参阅 自定义 AutoMM

引用

@Article{Everingham10,
   author = "Everingham, M. and Van~Gool, L. and Williams, C. K. I. and Winn, J. and Zisserman, A.",
   title = "The Pascal Visual Object Classes (VOC) Challenge",
   journal = "International Journal of Computer Vision",
   volume = "88",
   year = "2010",
   number = "2",
   month = jun,
   pages = "303--338",
}