NVIDIA-Merlin · karlhigley · Mar 21, 2023 · Mar 10, 2023 · Mar 10, 2023 · Mar 10, 2023
diff --git a/nvtabular/workflow/workflow.py b/nvtabular/workflow/workflow.py
@@ -21,7 +21,7 @@
 import time
 import types
 import warnings
-from typing import TYPE_CHECKING, Optional
+from typing import TYPE_CHECKING, Optional, Union
 
 import cloudpickle
 import fsspec
@@ -78,7 +78,9 @@ def __init__(self, output_node: WorkflowNode, client: Optional["distributed.Clie
         self.graph = Graph(output_node)
         self.executor = DaskExecutor(client)
 
-    def transform(self, dataset: Dataset) -> Dataset:
+    def transform(
+        self, dataset: Union[Dataset, "cudf.DataFrame", pd.DataFrame]
+    ) -> Union[Dataset, "cudf.DataFrame", pd.DataFrame]:
         """Transforms the dataset by applying the graph of operators to it. Requires the ``fit``
         method to have already been called, or calculated statistics to be loaded from disk
 
@@ -96,7 +98,15 @@ def transform(self, dataset: Dataset) -> Dataset:
         Dataset
             Transformed Dataset with the workflow graph applied to it
         """
-        return self._transform_impl(dataset)
+        if isinstance(dataset, Dataset):
+            return self._transform_impl(dataset)
+        elif isinstance(dataset, pd.DataFrame) or (cudf and isinstance(dataset, cudf.DataFrame)):
+            return self._transform_df(dataset)
+        else:
+            raise ValueError(
+                "Workflow.transform received an unsupported type: {type(dataset)} "
+                "Supported types are a `merlin.io.Dataset` or DataFrame (pandas or cudf)"
+            )
 
     def fit_schema(self, input_schema: Schema):
         """Computes input and output schemas for each node in the Workflow graph

diff --git a/tests/unit/workflow/test_workflow.py b/tests/unit/workflow/test_workflow.py
@@ -53,6 +53,15 @@ def test_workflow_double_fit():
         workflow.transform(df_event).to_ddf().compute()
 
 
+def test_workflow_transform_df():
+    df = make_df({"user_session": ["1", "2", "4", "4", "5"]})
+    ops = ["user_session"] >> nvt.ops.Categorify()
+    dataset = nvt.Dataset(df)
+    workflow = nvt.Workflow(ops)
+    workflow.fit(dataset)
+    assert isinstance(workflow.transform(df), type(df))
+
+
 @pytest.mark.parametrize("engine", ["parquet"])
 def test_workflow_fit_op_rename(tmpdir, dataset, engine):
     # NVT