pangeo-data · bradyrx · Feb 4, 2020 · Dec 29, 2019 · Dec 29, 2019 · Dec 29, 2019
diff --git a/.github/PULL_REQUEST_TEMPLATE.md b/.github/PULL_REQUEST_TEMPLATE.md
@@ -2,7 +2,7 @@
 
 Please include a summary of the change and which issue is fixed. Please also include relevant motivation and context. List any dependencies that are required for this change.
 
-Fixes # (issue)
+Closes #(issue)
 
 ## Type of change
 

diff --git a/CHANGELOG.rst b/CHANGELOG.rst
@@ -58,6 +58,14 @@ Documentation
 - Update `terminology page <terminology.html>`_ with more information on metrics
   terminology. (:pr:`283`) `Riley X. Brady`_
 
+New Features
+------------
+
+- speed-up in bootstrap functions: (:pr:`2xx`) `Aaron Spring`_.
+  - `xr.quantile` exchanged for `dask.map_blocks(np.percentile)`
+  - properly implemented handling for lazy results when chunked inputs
+  - user gets warned when chunking potentially (un)-necessary
+
 climpred v1.2.0 (2019-12-17)
 ============================
 

diff --git a/asv_bench/asv.conf.json b/asv_bench/asv.conf.json
@@ -80,7 +80,7 @@
       "numpy": [""],
       "xarray": [""],
       "dask": [""],
-      "xskillscore": [""],
+      "xskillscore": ["0.0.9"],
     },
 
     // Combinations of libraries/python versions can be excluded/included

diff --git a/asv_bench/benchmarks/benchmarks_perfect_model.py b/asv_bench/benchmarks/benchmarks_perfect_model.py
@@ -2,17 +2,28 @@
 # See "Writing benchmarks" in the asv docs for more information.
 
 
-import xarray as xr
+import dask
 import numpy as np
-from . import randn, parameterized
+import xarray as xr
 
-from climpred.prediction import compute_perfect_model
 from climpred.bootstrap import bootstrap_perfect_model
-from climpred.constants import PM_COMPARISONS, PM_METRICS
+from climpred.prediction import compute_perfect_model
+
+from . import parameterized, randn, requires_dask
+
+# faster than
+# from climpred.constants import PM_COMPARISONS, PM_METRICS as METRICS
+METRICS = ['rmse', 'pearson_r', 'crpss']
+PM_COMPARISONS = ['m2m', 'm2c']
 
-# faster
-PM_METRICS = ['rmse', 'pearson_r', 'crpss']
-# PM_COMPARISONS = ['m2e', 'e2c']
+bootstrap = 4
+
+
+def _ensure_loaded(res):
+    """Compute no lazy results."""
+    if dask.is_dask_collection(res):
+        res = res.compute()
+    return res
 
 
 class Generate:
@@ -25,13 +36,13 @@ class Generate:
 
     def make_ds(self):
 
-        # ds
+        # ds and control mimick smaller MPI perfect-model experiment
         self.ds = xr.Dataset()
         self.nmember = 3
         self.ninit = 4
         self.nlead = 3
-        self.nx = 90  # 4 deg
-        self.ny = 45  # 4 deg
+        self.nx = 64
+        self.ny = 64
         self.control_start = 3000
         self.control_end = 3300
         self.ntime = 300
@@ -95,29 +106,55 @@ class Compute(Generate):
     def setup(self, *args, **kwargs):
         self.make_ds()
 
-    @parameterized(['metric', 'comparison'], (PM_METRICS, PM_COMPARISONS))
+    @parameterized(['metric', 'comparison'], (METRICS, PM_COMPARISONS))
     def time_compute_perfect_model(self, metric, comparison):
         """Take time for compute_perfect_model."""
-        compute_perfect_model(
-            self.ds, self.control, metric=metric, comparison=comparison
+        _ensure_loaded(
+            compute_perfect_model(
+                self.ds, self.control, metric=metric, comparison=comparison
+            )
         )
 
-    @parameterized(['metric', 'comparison'], (['pearson_r', 'crpss'], PM_COMPARISONS))
+    @parameterized(['metric', 'comparison'], (METRICS, PM_COMPARISONS))
     def peakmem_compute_perfect_model(self, metric, comparison):
         """Take memory peak for compute_perfect_model for all comparisons."""
-        compute_perfect_model(
-            self.ds, self.control, metric=metric, comparison=comparison
+        _ensure_loaded(
+            compute_perfect_model(
+                self.ds, self.control, metric=metric, comparison=comparison
+            )
         )
 
-    def time_bootstrap_perfect_model(self):
+    @parameterized(['metric', 'comparison'], (METRICS, PM_COMPARISONS))
+    def time_bootstrap_perfect_model(self, metric, comparison):
         """Take time for bootstrap_perfect_model for one metric."""
-        bootstrap_perfect_model(
-            self.ds, self.control, metric='mae', comparison='e2c', bootstrap=5
+        _ensure_loaded(
+            bootstrap_perfect_model(
+                self.ds,
+                self.control,
+                metric=metric,
+                comparison=comparison,
+                bootstrap=bootstrap,
+            )
         )
 
-    @parameterized(['metric', 'comparison'], (['pearson_r', 'crpss'], PM_COMPARISONS))
+    @parameterized(['metric', 'comparison'], (METRICS, PM_COMPARISONS))
     def peakmem_bootstrap_perfect_model(self, metric, comparison):
         """Take memory peak for bootstrap_perfect_model."""
-        bootstrap_perfect_model(
-            self.ds, self.control, metric=metric, comparison=comparison, bootstrap=5
+        _ensure_loaded(
+            bootstrap_perfect_model(
+                self.ds,
+                self.control,
+                metric=metric,
+                comparison=comparison,
+                bootstrap=bootstrap,
+            )
         )
+
+
+class ComputeDask(Compute):
+    def setup(self, *args, **kwargs):
+        requires_dask()
+        super().setup(**kwargs)
+        # chunk along a spatial dimension to enable embarrasingly parallel computation
+        self.ds = self.ds.chunk({'lon': self.nx // bootstrap})
+        self.control = self.control.chunk({'lon': self.nx // bootstrap})
diff --git a/ci/environment-dev-3.6.yml b/ci/environment-dev-3.6.yml
@@ -12,6 +12,7 @@ dependencies:
   # IDE
   - ipywidgets
   - jupyterlab
+  - nb_conda_kernels
   # Input/Output
   - netcdf4
   # Miscellaneous