autogluon.core.TabularDataset

class autogluon.core.TabularDataset(data, **kwargs)[source]

表格格式的数据集(行 = 样本,列 = 特征/变量)。此类在初始化时返回 pd.DataFrame,并且所有现有的 pandas 方法都可应用于它。有关方法/属性的完整列表,请参阅 pandas Dataframe 文档:https://pandas.ac.cn/pandas-docs/stable/reference/api/pandas.DataFrame.html

此类旨在提供一种易于使用的简写方式,用于加载 pandas DataFrame 以在 AutoGluon 中使用。

参数:

data (str, pd.DataFrame, np.ndarray, Iterable, or dict) – 如果是 str,则为数据文件(CSV 或 Parquet 格式)的路径。如果您已有 pd.DataFrame 格式的数据,可以在此处指定。在这种情况下,将返回相同的 DataFrame,没有任何更改。

示例

>>> import pandas as pd
>>> from autogluon.common import TabularDataset
>>> train_data = TabularDataset("https://autogluon.s3.amazonaws.com/datasets/Inc/train.csv")
>>> train_data_pd = pd.read_csv("https://autogluon.s3.amazonaws.com/datasets/Inc/train.csv")
>>> assert isinstance(train_data, pd.DataFrame)  # True
>>> assert train_data.equals(train_data_pd)  # True
>>> assert type(train_data) == type(train_data_pd)  # True
__init__()

方法