MultiModalPredictor.extract_embedding

MultiModalPredictor.extract_embedding(data: DataFrame | dict | list, id_mappings: Dict[str, Dict] | Dict[str, Series] | None = None, return_masks: bool | None = False, as_tensor: bool | None = False, as_pandas: bool | None = False, realtime: bool | None = False, signature: str | None = None)[源]

提取每个样本的特征,即所提供的 pd.DataFrame data 中的一行。

参数:
  • data – 要提取嵌入的数据。应包含与训练数据集相同的列名,并遵循相同的格式(除了 label 列)。

  • id_mappings – ID 到内容的映射。内容可以是文本、图像等。当数据包含查询/响应标识符而不是其内容时使用此参数。

  • return_masks – 如果为 True,则返回一个掩码字典,其键与特征字典中的键相同。如果样本在特征列 image_0 中有空输入,则该样本在键 image_0 下的掩码为 0。

  • as_tensor – 是否返回 Pytorch 张量。

  • as_pandas – 是否将输出返回为 pandas DataFrame (True) 或 numpy array (False)。

  • realtime – 是否进行实时推理,这对于小数据高效(默认为 False)。如果提供 None,我们将根据数据模态和样本数量进行推断。

  • signature – 使用匹配器时,可以是 query 或 response。

返回值:

  • 嵌入数组,对应于给定数据中的每一行。

  • 其形状为 (#样本数, D),其中嵌入维度 D 由

  • 神经网络的架构决定。