feat: process multiple partitions in parallel #288

AzulGarza · 2024-04-08T03:28:03Z

currently, we have the num_partitions parameter for heavy requests that allows users to partition their data into chunks of time series. this process, however, is being done sequentially, which can ve slow in some cases. a good option might be to parallelize these multiple requests. to make sequential partitioned requests we used the following decorator:

nixtla/nixtlats/nixtla_client.py

Lines 748 to 773 in 7a3e52a

    
           def partition_by_uid(func): 
        
               def wrapper(self, num_partitions, **kwargs): 
        
                   if num_partitions is None or num_partitions == 1: 
        
                       return func(self, **kwargs, num_partitions=1) 
        
                   df = kwargs.pop("df") 
        
                   X_df = kwargs.pop("X_df", None) 
        
                   id_col = kwargs["id_col"] 
        
                   uids = df["unique_id"].unique() 
        
                   results_df = [] 
        
                   for uids_split in np.array_split(uids, num_partitions): 
        
                       df_uids = df.query("unique_id in @uids_split") 
        
                       if X_df is not None: 
        
                           X_df_uids = X_df.query("unique_id in @uids_split") 
        
                       else: 
        
                           X_df_uids = None 
        
                       df_uids = remove_unused_categories(df_uids, col=id_col) 
        
                       X_df_uids = remove_unused_categories(X_df_uids, col=id_col) 
        
                       kwargs_uids = {"df": df_uids, **kwargs} 
        
                       if X_df_uids is not None: 
        
                           kwargs_uids["X_df"] = X_df_uids 
        
                       results_uids = func(self, **kwargs_uids, num_partitions=1) 
        
                       results_df.append(results_uids) 
        
                   results_df = pd.concat(results_df).reset_index(drop=True) 
        
                   return results_df 
        
               return wrapper

instead of calling the methods using a for loop, this process can be optimized to call them in parallel using concurrent.future.ThreadPoolExecutor (since the process is I/O and CPU bound) or multiprocess.Pool (the election of the method should be based on empirical performance).

the election of the number of parallel processes should be elected using min(num_partitions, os.cpu_count()); this behavior must be documented in the corresponding docstrings. ideally, the pr should include before and after processing time.

The text was updated successfully, but these errors were encountered:

AzulGarza assigned elephaint Apr 8, 2024

elephaint mentioned this issue Apr 8, 2024

[FEAT] Process multiple partitions in parallel #289

Closed

elephaint mentioned this issue Apr 18, 2024

[FEAT] Process multiple partitions in parallel #296

Merged

elephaint linked a pull request Apr 18, 2024 that will close this issue

[FEAT] Process multiple partitions in parallel #296

Merged

AzulGarza closed this as completed in #296 Apr 19, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: process multiple partitions in parallel #288

feat: process multiple partitions in parallel #288

AzulGarza commented Apr 8, 2024 •

edited

Loading

feat: process multiple partitions in parallel #288

feat: process multiple partitions in parallel #288

Comments

AzulGarza commented Apr 8, 2024 • edited Loading

AzulGarza commented Apr 8, 2024 •

edited

Loading