Orca: Add 2 NCF PyTorch examples with data_loader or XShards as inputs. #5691

zpeng1898 · 2022-09-08T10:55:41Z

Add NCF pytorch examples : train_data_loader.py and train_xshards.py to the NCF directory, with a shared NCF-model model.py.

1.The train_data_loader.py example takes data_loader as the input of the model, supporting fitting the estimator with ray or spark backend:

# create the estimator
est = Estimator.from_torch(model=model_creator, optimizer=optimizer_creator,loss=loss_function, metrics=[Accuracy()],backend=Config["backend"])# backend="ray" or "spark"
# fit the estimator
est.fit(data=train_loader_func, epochs=1)

2.The train_xshards.py example takes XShards as the input of the model, supporting fitting the estimator with ray or spark backend:

# create the estimator
est = Estimator.from_torch(model=model_creator, optimizer=optimizer_creator,loss=loss_function, metrics=[Accuracy()],backend=Config["backend"])# backend="ray" or "spark"
# fit the estimator
est.fit(data=train_shards, epochs=1,batch_size=Config["batch_size"],feature_cols=["x"],label_cols =["y"])

hkvision · 2022-09-13T13:26:34Z

#5738 can remove model_dir after this PR merges.

lalalapotter · 2022-09-19T03:10:05Z

python/orca/tutorial/pytorch/NCF/train_data_loader.py

+
+#Step 0: Parameters And Configuration
+
+Config={  


Can we use command line option and arguments instead of config dict?

lalalapotter · 2022-09-19T03:10:52Z

python/orca/tutorial/pytorch/NCF/train_data_loader.py

+    "model_dir": "./model_dir/",
+}
+
+Config["train_rating"]=Config["main_path"]+ Config["dataset"]+".train.rating"


Pls check code style. (space between operators.)

lalalapotter · 2022-09-19T03:13:31Z

python/orca/src/bigdl/orca/data/pandas/preprocessing.py

+    invalidInputError(isinstance(right, SparkXShards), "right should be a SparkXShards")
+
+    from bigdl.orca.data.utils import spark_df_to_pd_sparkxshards   
+    left_df, right_df=left.to_spark_df(), right.to_spark_df()


Pls check code style.

lalalapotter · 2022-09-19T03:18:10Z

Can we merge three train_*.py files?

hkvision · 2022-09-19T03:23:16Z

Can we merge three train_*.py files?

To demonstrate different inputs, clearer to use separate scripts.

hkvision · 2022-10-21T03:26:15Z

python/orca/tutorial/pytorch/NCF/train_xshards.py

+    # transform dataset into dict
+    #train_data = train_data.to_numpy()
+    #test_data = test_data.to_numpy()
+    #train_data = {"x": train_data[:, : -1].astype(np.int64),
+    #    "y": train_data[:, -1].astype(np.float)}
+    #test_data = {"x": test_data[:, : -1].astype(np.int64),
+    #    "y": test_data[:, -1].astype(np.float)}


remove these comments?

hkvision · 2022-10-21T07:12:42Z

python/orca/tutorial/pytorch/NCF/model.py

+    def forward(self, *args):
+        user, item = args[0], args[1]


put user, item in the args directly?

hkvision · 2022-10-21T07:35:55Z

python/orca/tutorial/pytorch/NCF/train_data_loader.py

+
+import numpy as np
+import pandas as pd
+import scipy.sparse as sp


move import scipy to local?

hkvision · 2022-10-21T07:38:11Z

python/orca/tutorial/pytorch/NCF/train_data_loader.py

+    train_data, _ = train_test_split(data_X, test_size=0.1, random_state=100)
+
+    train_dataset = NCFData(train_data, item_num=item_num, train_mat=train_mat, num_ng=4, is_training=True)
+    train_loader = data.DataLoader(train_dataset, batch_size=256, shuffle=True, num_workers=0)


num_workers=4 in the original code?

batch_size=batch_size, and put 256 in fit

hkvision · 2022-10-21T07:39:41Z

python/orca/tutorial/pytorch/NCF/train_data_loader.py

+    _, test_data = train_test_split(data_X, test_size=0.1, random_state=100)
+
+    test_dataset = NCFData(test_data)
+    test_loader = data.DataLoader(test_dataset, shuffle=False, num_workers=0)


missing batch_size

hkvision · 2022-10-21T07:40:51Z

python/orca/tutorial/pytorch/NCF/train_data_loader.py

+    loss=loss_function, metrics=[Accuracy()], backend=backend)
+
+# Fit the estimator
+est.fit(data=train_loader_func, epochs=1)


the original script trains for 20 epochs?

batch_size=256

hkvision · 2022-10-21T07:41:09Z

python/orca/tutorial/pytorch/NCF/train_data_loader.py

+# Step 5: Save and Load the Model
+
+# Evaluate the model
+result = est.evaluate(data=test_loader_func)


Add one more print to say it is evaluation results?

hkvision · 2022-10-21T07:41:20Z

python/orca/tutorial/pytorch/NCF/train_xshards.py

+
+import numpy as np
+import pandas as pd
+import scipy.sparse as sp


same as above

hkvision · 2022-10-21T07:41:48Z

python/orca/tutorial/pytorch/NCF/train_xshards.py

+
+# Step 2: Define Dataset
+
+from bigdl.orca.data import XShards


is this import necessary?

hkvision · 2022-10-21T07:42:14Z

python/orca/tutorial/pytorch/NCF/train_xshards.py

+    return data_XY
+
+
+def transform_to_dict(data):


rename this func

python/orca/tutorial/pytorch/NCF/train_xshards.py

hkvision · 2022-10-21T07:44:02Z

python/orca/tutorial/pytorch/NCF/train_xshards.py

+    data_XY["y"] = labels_fill
+    data_XY["y"] = data_XY["y"].astype(np.float)


use label as the column name?

python/orca/tutorial/pytorch/NCF/train_data_loader.py

python/orca/tutorial/pytorch/NCF/train_xshards.py

zpeng1898 added 9 commits September 8, 2022 00:38

Add files via upload

84e2887

Merge branch 'intel-analytics:main' into zypbranch

45a0b16

Delete backend_ray.py

64e9826

Delete backend_spark.py

617eb05

Delete model.py

dcae8fb

Add files via upload

bd1b747

Merge branch 'intel-analytics:main' into zypbranch

ec2085d

Delete train_xshards.py

7a9734c

Add files via upload

35d4abc

zpeng1898 added 16 commits September 13, 2022 22:48

Delete train_data_loader.py

c7a1302

Merge branch 'intel-analytics:main' into zypbranch

616ae22

Delete train_xshards.py

995fb38

Add files via upload

89af496

Add files via upload

2dd3145

Delete train_data_loader.py

01a15b6

Delete train_xshards.py

c023cad

Merge branch 'intel-analytics:main' into zypbranch

4fb75d3

Add files via upload

4a12f12

Merge branch 'intel-analytics:main' into zypbranch

c307b67

Update train_xshards.py

98a5704

Update train_xshards.py

c3e38a8

Merge branch 'intel-analytics:main' into zypbranch

d161990

Update __init__.py

84eef4e

Update preprocessing.py

2d9f565

Add files via upload

7eae073

lalalapotter requested changes Sep 19, 2022

View reviewed changes

Merge branch 'intel-analytics:main' into zypbranch

6ce1214

Update model.py

0b6964a

hkvision reviewed Oct 21, 2022

View reviewed changes

python/orca/tutorial/pytorch/NCF/train_xshards.py Outdated

return data_XY

def transform_to_dict(data):

Copy link

Contributor

hkvision Oct 21, 2022

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

rename this func

hkvision reviewed Oct 21, 2022

View reviewed changes

python/orca/tutorial/pytorch/NCF/train_xshards.py Show resolved Hide resolved

hkvision reviewed Oct 21, 2022

View reviewed changes

python/orca/tutorial/pytorch/NCF/train_data_loader.py Outdated Show resolved Hide resolved

hkvision reviewed Oct 21, 2022

View reviewed changes

python/orca/tutorial/pytorch/NCF/train_xshards.py Show resolved Hide resolved

zpeng1898 added 10 commits October 21, 2022 18:10

Update train_xshards.py

eaa0623

Update train_data_loader.py

fc86575

Update model.py

dc6bea6

Update train_data_loader.py

328bea3

Update train_xshards.py

63e7278

Update train_data_loader.py

4854b52

Update train_data_loader.py

05a6dd5

Update model.py

6330bb9

Update train_data_loader.py

cd47319

Update train_xshards.py

85b8fe0

hkvision reviewed Nov 3, 2022

View reviewed changes

python/orca/tutorial/pytorch/NCF/train_xshards.py Outdated Show resolved Hide resolved

zpeng1898 added 3 commits November 3, 2022 19:00

Update model.py

84b5c61

Update train_data_loader.py

15bd60e

Update train_xshards.py

8fd7f9f

hkvision merged commit a8119fc into intel-analytics:main Nov 3, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Orca: Add 2 NCF PyTorch examples with data_loader or XShards as inputs. #5691

Orca: Add 2 NCF PyTorch examples with data_loader or XShards as inputs. #5691

zpeng1898 commented Sep 8, 2022 •

edited

Loading

hkvision commented Sep 13, 2022

lalalapotter Sep 19, 2022

lalalapotter Sep 19, 2022

lalalapotter Sep 19, 2022

lalalapotter commented Sep 19, 2022

hkvision commented Sep 19, 2022 •

edited

Loading

hkvision Oct 21, 2022

hkvision Oct 21, 2022

hkvision Oct 21, 2022

hkvision Oct 21, 2022

hkvision Oct 21, 2022

hkvision Oct 21, 2022

hkvision Oct 21, 2022

hkvision Oct 21, 2022

hkvision Oct 21, 2022

hkvision Oct 21, 2022

hkvision Oct 21, 2022

hkvision Oct 21, 2022

hkvision Oct 21, 2022

		data_XY["y"] = labels_fill
		data_XY["y"] = data_XY["y"].astype(np.float)

Orca: Add 2 NCF PyTorch examples with data_loader or XShards as inputs. #5691

Orca: Add 2 NCF PyTorch examples with data_loader or XShards as inputs. #5691

Conversation

zpeng1898 commented Sep 8, 2022 • edited Loading

hkvision commented Sep 13, 2022

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

lalalapotter commented Sep 19, 2022

hkvision commented Sep 19, 2022 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

zpeng1898 commented Sep 8, 2022 •

edited

Loading

hkvision commented Sep 19, 2022 •

edited

Loading