TabularPredictor.save_space

TabularPredictor.save_space(remove_data=True, remove_fit_stack=True, requires_save=True, reduce_children=False)[source]

通过删除新数据预测不需要的辅助模型文件来减小预测器的内存和磁盘大小。此函数对推理准确性没有影响。如果唯一的目标是使用训练好的模型进行预测,建议调用此方法。但是,调用 save_space() 后,某些高级功能可能不再可用。

参数:
  • remove_data (bool, 默认值 = True) –

    是否移除原始训练和验证数据的缓存文件。这只会减少磁盘使用,对内存使用没有影响。当原始数据很大时,这尤其有用。这相当于在原始 fit() 调用期间设置了 cache_data=False

    这将禁用所有需要 cache_data=True 的高级功能。

  • remove_fit_stack (bool, 默认值 = True) –

    是否移除拟合新堆叠模型和继续使用新折叠拟合装袋模型所需的信息。这只会减少磁盘使用,对内存使用没有影响。这包括

    折外 (OOF) 预测

    这对于包含许多类别的多类别问题非常有用,因为 OOF 预测在磁盘上会变得非常大(极端情况下每个模型可达 1 GB)。这会禁用堆叠模型的 predictor.refit_full() 方法。

  • requires_save (bool, 默认值 = True) –

    是否移除需要将模型再次保存到磁盘的信息。通常这仅包括对内存或磁盘使用没有显著影响的标志变量,但由于移除了更重要的信息,技术上应该更新这些变量。

    例如,trainer 中的布尔变量 is_data_saved,如果设置了 remove_data=True,则应更新为 False

  • reduce_children (bool, 默认值 = False) – 是否将缩减规则应用于装袋集成子模型。这些是为装袋集成的每个折叠训练的模型。这通常应保持为 False,因为最重要的内存和磁盘缩减技术在原始 fit() 调用期间已自动应用于这些模型。