AutoGluon 多模态 (AutoMM): 利用基础模型赋能多模态 AutoML

基础模型已改变计算机视觉和自然语言处理等领域的格局。这些模型在大量通用领域数据上预训练,可作为强大工具应用于广泛场景。然而,将基础模型无缝集成到真实应用场景中仍然存在挑战。数据模态的多样性、可用基础模型的众多以及模型规模巨大,使得这种集成成为一项非平凡的任务。

AutoMM 致力于打破这些障碍,大幅减少数据预处理、模型选择和微调所需的工程工作和人工干预。使用 AutoMM,用户只需三行代码即可轻松将基础模型(来自 HuggingFace、TIMM、MMDetection 等流行模型库)适配到其领域特定数据。我们的工具包支持各种数据类型,包括图像、文本、表格和文档数据,可单独或组合使用。它支持一系列任务,包括分类、回归、目标检测、命名实体识别、语义匹配和图像分割。AutoMM 代表了一种最先进且用户友好的解决方案,利用基础模型赋能多模态 AutoML。更多详情,请参考以下论文:

Zhiqiang, Tang, Haoyang Fang, Su Zhou, Taojiannan Yang, Zihan Zhong, Tony Hu, Katrin Kirchhoff, George Karypis。“AutoGluon-Multimodal (AutoMM): 利用基础模型赋能多模态 AutoML”,自动化机器学习国际会议 (AutoML),2024。

AutoMM Introduction

下面,我们将分解 AutoMM 的功能,并为每个功能准备分步指南。

文本数据 – 分类 / 回归 / NER

AutoMM 用于文本预测 - 快速入门

如何使用 AutoMM 训练高质量文本预测模型。

text_prediction/beginner_text.html
AutoMM 用于文本预测 - 多语言问题

如何使用 AutoMM 构建非英语数据集上的模型。

text_prediction/multilingual_text.html
AutoMM 用于命名实体识别 - 快速入门

如何使用 AutoMM 进行实体提取。

text_prediction/ner.html

图像数据 – 分类 / 回归

AutoMM 用于图像分类 - 快速入门

如何使用 AutoMM 训练图像分类模型。

image_prediction/beginner_image_cls.html
使用 CLIP 进行零样本图像分类

如何通过预训练 CLIP 模型在 AutoMM 中启用零样本图像分类。

image_prediction/clip_zeroshot.html

图像数据 – 目标检测

在小型 COCO 格式数据集上的快速入门

如何在 COCO 格式数据集上使用 AutoMM 在 5 分钟内训练高质量目标检测模型。

object_detection/quick_start/quick_start_coco.html
准备 COCO2017 数据集

如何为目标检测准备 COCO2017 数据集。

object_detection/data_preparation/prepare_coco17.html
准备 Pascal VOC 数据集

如何为目标检测准备 Pascal VOC 数据集。

object_detection/data_preparation/prepare_voc.html
准备 Watercolor 数据集

如何为目标检测准备 Watercolor 数据集。

object_detection/data_preparation/prepare_watercolor.html
将 VOC 格式数据集转换为 COCO 格式

如何将 VOC 格式数据集转换为 COCO 格式用于目标检测。

object_detection/data_preparation/voc_to_coco.html
使用 DataFrame 进行目标检测

如何使用 pd.DataFrame 格式进行目标检测

object_detection/data_preparation/object_detection_with_dataframe.html

图像数据 – 分割

AutoMM 用于语义分割 - 快速入门

如何使用 AutoMM 训练语义分割模型。

image_segmentation/beginner_semantic_seg.html

文档数据 – 分类 / 回归

AutoMM 用于扫描文档分类

如何使用 AutoMM 构建扫描文档分类器。

document_prediction/document_classification.html
使用 AutoMM 对 PDF 文档进行分类

如何使用 AutoMM 构建 PDF 文档分类器。

document_prediction/pdf_classification.html

图像 / 文本数据 – 语义匹配

使用 AutoMM 进行文本到文本语义匹配 - 快速入门

如何使用 AutoMM 进行文本到文本语义匹配。

semantic_matching/text2text_matching.html
使用 AutoMM 进行图像到图像语义匹配 - 快速入门

如何使用 AutoMM 进行图像到图像语义匹配。

semantic_matching/image2image_matching.html
使用 AutoMM 进行图像文本语义匹配 - 快速入门

如何使用 AutoMM 进行图像文本语义匹配。

semantic_matching/image_text_matching.html
使用 AutoMM 进行零样本图像文本语义匹配

如何使用 AutoMM 进行零样本图像文本语义匹配。

semantic_matching/zero_shot_img_txt_matching.html
使用 AutoMM 进行文本语义搜索

如何使用语义嵌入改进搜索排名性能。

semantic_matching/text_semantic_search.html

多模态数据 – 分类 / 回归 / NER

AutoMM 用于文本 + 表格 - 快速入门

如何将 AutoMM 应用于包含文本、数值和类别列的多模态数据表。

multimodal_prediction/multimodal_text_tabular.html
AutoMM 用于图像 + 文本 + 表格 - 快速入门

如何使用 AutoMM 在图像、文本、数值和类别数据上训练模型。

multimodal_prediction/beginner_multimodal.html
AutoMM 用于文本和图像的实体提取 - 快速入门

如何使用 AutoMM 训练多模态命名实体识别模型。

multimodal_prediction/multimodal_ner.html

高级主题

通过参数高效微调实现单 GPU 十亿级模型训练

如何利用参数高效微调利用更大的基础模型。在本教程中,我们将结合 IA^3、BitFit 和梯度检查点来微调 FLAN-T5-XL。

advanced_topics/efficient_finetuning_basic.html
AutoMM 中的超参数优化

如何在 AutoMM 中进行超参数优化。

advanced_topics/hyperparameter_optimization.html
AutoMM 中的知识蒸馏

如何在 AutoMM 中进行知识蒸馏。

advanced_topics/model_distillation.html
使用 AutoMM 进行连续训练

如何在 AutoMM 中进行连续训练。

advanced_topics/continuous_training.html
自定义 AutoMM

如何自定义 AutoMM 配置。

advanced_topics/customization.html
AutoMM 预设

如何使用 AutoMM 预设。

advanced_topics/presets.html
使用 AutoMM 进行少样本学习

如何使用基础模型 + SVM 进行少样本学习。

advanced_topics/few_shot_learning.html
使用 AutoMM 处理类别不平衡 - Focal Loss

如何使用 AutoMM 处理类别不平衡。

advanced_topics/focal_loss.html
使用 TensorRT 加速预测

如何使用 TensorRT 加速 AutoMM 模型推理。

advanced_topics/tensorrt.html
AutoMM 问题类型和评估指标。

AutoGluon 支持的问题类型及其评估指标的综合指南。

advanced_topics/problem_types_and_metrics.html