AutoGluon 多模态 (AutoMM): 利用基础模型赋能多模态 AutoML¶
基础模型已改变计算机视觉和自然语言处理等领域的格局。这些模型在大量通用领域数据上预训练,可作为强大工具应用于广泛场景。然而,将基础模型无缝集成到真实应用场景中仍然存在挑战。数据模态的多样性、可用基础模型的众多以及模型规模巨大,使得这种集成成为一项非平凡的任务。
AutoMM 致力于打破这些障碍,大幅减少数据预处理、模型选择和微调所需的工程工作和人工干预。使用 AutoMM,用户只需三行代码即可轻松将基础模型(来自 HuggingFace、TIMM、MMDetection 等流行模型库)适配到其领域特定数据。我们的工具包支持各种数据类型,包括图像、文本、表格和文档数据,可单独或组合使用。它支持一系列任务,包括分类、回归、目标检测、命名实体识别、语义匹配和图像分割。AutoMM 代表了一种最先进且用户友好的解决方案,利用基础模型赋能多模态 AutoML。更多详情,请参考以下论文:
Zhiqiang, Tang, Haoyang Fang, Su Zhou, Taojiannan Yang, Zihan Zhong, Tony Hu, Katrin Kirchhoff, George Karypis。“AutoGluon-Multimodal (AutoMM): 利用基础模型赋能多模态 AutoML”,自动化机器学习国际会议 (AutoML),2024。
下面,我们将分解 AutoMM 的功能,并为每个功能准备分步指南。
文本数据 – 分类 / 回归 / NER¶
如何使用 AutoMM 训练高质量文本预测模型。
如何使用 AutoMM 构建非英语数据集上的模型。
如何使用 AutoMM 进行实体提取。
图像数据 – 分类 / 回归¶
如何使用 AutoMM 训练图像分类模型。
如何通过预训练 CLIP 模型在 AutoMM 中启用零样本图像分类。
图像数据 – 目标检测¶
如何在 COCO 格式数据集上使用 AutoMM 在 5 分钟内训练高质量目标检测模型。
如何为目标检测准备 COCO2017 数据集。
如何为目标检测准备 Pascal VOC 数据集。
如何为目标检测准备 Watercolor 数据集。
如何将 VOC 格式数据集转换为 COCO 格式用于目标检测。
如何使用 pd.DataFrame 格式进行目标检测
图像数据 – 分割¶
如何使用 AutoMM 训练语义分割模型。
文档数据 – 分类 / 回归¶
如何使用 AutoMM 构建扫描文档分类器。
如何使用 AutoMM 构建 PDF 文档分类器。
图像 / 文本数据 – 语义匹配¶
如何使用 AutoMM 进行文本到文本语义匹配。
如何使用 AutoMM 进行图像到图像语义匹配。
如何使用 AutoMM 进行图像文本语义匹配。
如何使用 AutoMM 进行零样本图像文本语义匹配。
如何使用语义嵌入改进搜索排名性能。
多模态数据 – 分类 / 回归 / NER¶
如何将 AutoMM 应用于包含文本、数值和类别列的多模态数据表。
如何使用 AutoMM 在图像、文本、数值和类别数据上训练模型。
如何使用 AutoMM 训练多模态命名实体识别模型。
高级主题¶
如何利用参数高效微调利用更大的基础模型。在本教程中,我们将结合 IA^3、BitFit 和梯度检查点来微调 FLAN-T5-XL。
如何在 AutoMM 中进行超参数优化。
如何在 AutoMM 中进行知识蒸馏。
如何在 AutoMM 中进行连续训练。
如何自定义 AutoMM 配置。
如何使用 AutoMM 预设。
如何使用基础模型 + SVM 进行少样本学习。
如何使用 AutoMM 处理类别不平衡。
如何使用 TensorRT 加速 AutoMM 模型推理。
AutoGluon 支持的问题类型及其评估指标的综合指南。