From 0ee2a507a4dd2272f0a0604f0683769eb53ec9d3 Mon Sep 17 00:00:00 2001
From: seitzdom <dominik.seitz@pasqal.com>
Date: Wed, 3 Jul 2024 14:01:21 +0200
Subject: [PATCH 01/77] [Feature] Single gap GPSR

---
 pyqtorch/__init__.py  |   4 +-
 pyqtorch/adjoint.py   |  34 +------------
 pyqtorch/api.py       | 109 ++++++++++++++++++++++++++++++++++++++++++
 pyqtorch/circuit.py   |  17 -------
 pyqtorch/gpsr.py      |  86 +++++++++++++++++++++++++++++++++
 pyqtorch/utils.py     |  12 +++--
 tests/test_circuit.py |  44 +++++++++++++++++
 7 files changed, 250 insertions(+), 56 deletions(-)
 create mode 100644 pyqtorch/api.py
 create mode 100644 pyqtorch/gpsr.py

diff --git a/pyqtorch/__init__.py b/pyqtorch/__init__.py
index 65abb1da..523d6728 100644
--- a/pyqtorch/__init__.py
+++ b/pyqtorch/__init__.py
@@ -46,7 +46,6 @@
 logger.info(f"PyQTorch logger successfully setup with log level {LOG_LEVEL}")
 
 
-from .adjoint import expectation
 from .analog import (
     Add,
     DiagonalObservable,
@@ -54,8 +53,9 @@
     Observable,
     Scale,
 )
+from .api import expectation, run, sample
 from .apply import apply_operator
-from .circuit import Merge, QuantumCircuit, Sequence, run, sample
+from .circuit import Merge, QuantumCircuit, Sequence
 from .noise import (
     AmplitudeDamping,
     BitFlip,
diff --git a/pyqtorch/adjoint.py b/pyqtorch/adjoint.py
index 1b5866ce..8e2b9790 100644
--- a/pyqtorch/adjoint.py
+++ b/pyqtorch/adjoint.py
@@ -11,7 +11,7 @@
 from pyqtorch.circuit import QuantumCircuit
 from pyqtorch.parametric import Parametric
 from pyqtorch.primitive import Primitive
-from pyqtorch.utils import DiffMode, inner_prod, param_dict
+from pyqtorch.utils import inner_prod, param_dict
 
 logger = getLogger(__name__)
 
@@ -122,35 +122,3 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
                     f"AdjointExpectation does not support operation: {type(op)}."
                 )
         return (None, None, None, None, *grads_dict.values())
-
-
-def expectation(
-    circuit: QuantumCircuit,
-    state: Tensor,
-    values: dict[str, Tensor],
-    observable: Observable,
-    diff_mode: DiffMode = DiffMode.AD,
-) -> Tensor:
-    """Compute the expectation value of the circuit given a state and observable.
-    Arguments:
-        circuit: QuantumCircuit instance
-        state: An input state
-        values: A dictionary of parameter values
-        observable: Hamiltonian representing the observable
-        diff_mode: The differentiation mode
-    Returns:
-        A expectation value.
-    """
-    if observable is None:
-        logger.error("Please provide an observable to compute expectation.")
-    if state is None:
-        state = circuit.init_state(batch_size=1)
-    if diff_mode == DiffMode.AD:
-        state = circuit.run(state, values)
-        return inner_prod(state, observable.run(state, values)).real
-    elif diff_mode == DiffMode.ADJOINT:
-        return AdjointExpectation.apply(
-            circuit, observable, state, values.keys(), *values.values()
-        )
-    else:
-        logger.error(f"Requested diff_mode '{diff_mode}' not supported.")
diff --git a/pyqtorch/api.py b/pyqtorch/api.py
new file mode 100644
index 00000000..27b00274
--- /dev/null
+++ b/pyqtorch/api.py
@@ -0,0 +1,109 @@
+from __future__ import annotations
+
+from collections import Counter
+from logging import getLogger
+
+from torch import Tensor
+
+from pyqtorch.adjoint import AdjointExpectation
+from pyqtorch.analog import Observable
+from pyqtorch.circuit import QuantumCircuit
+from pyqtorch.gpsr import PSRExpectation
+from pyqtorch.utils import DiffMode, inner_prod
+
+logger = getLogger(__name__)
+
+
+def run(
+    circuit: QuantumCircuit,
+    state: Tensor = None,
+    values: dict[str, Tensor] = dict(),
+) -> Tensor:
+    """Sequentially apply each operation in `circuit.operations` to an input state `state`
+    given current parameter values `values`, perform an optional `embedding` on `values`
+    and return an output state.
+
+    Arguments:
+    circuit: A pyqtorch.QuantumCircuit instance.
+    state: A torch.Tensor of shape [2, 2, ..., batch_size].
+    values: A dictionary containing `parameter_name`: torch.Tensor key,value pairs denoting
+            the current parameter values for each parameter in `circuit`.
+    embedding: An optional instance of `pyqtorch.Embedding` which holds
+               a set of `parameter_name`: function pairs,
+               associating each circuit parameter which a Callable.
+    Returns:
+         A torch.Tensor of shape [2, 2, ..., batch_size]
+    """
+    logger.debug(f"Running circuit {circuit} on state {state} and values {values}.")
+    return circuit.run(state, values)
+
+
+def sample(
+    circuit: QuantumCircuit,
+    state: Tensor = None,
+    values: dict[str, Tensor] = dict(),
+    n_shots: int = 1000,
+) -> list[Counter]:
+    """Sample from `circuit` given an input state `state` given current parameter values `values`,
+       perform an optional `embedding` on `values` and return a list Counter objects mapping from
+       bitstring: num_samples.
+
+    Arguments:
+    circuit: A pyqtorch.QuantumCircuit instance.
+    state: A torch.Tensor of shape [2, 2, ..., batch_size].
+    values: A dictionary containing `parameter_name`: torch.Tensor key,value pairs
+            denoting the current parameter values for each parameter in `circuit`.
+    n_shots: A positive int denoting the number of requested samples.
+    embedding: An optional instance of `pyqtorch.Embedding` which holds a set of
+               `parameter_name`: function pairs, associating each circuit parameter with a Callable.
+    Returns:
+         A list of Counter objects containing bitstring:num_samples pairs.
+    """
+    logger.debug(
+        f"Sampling circuit {circuit} on state {state} and values {values} with n_shots {n_shots}."
+    )
+    return circuit.sample(state, values, n_shots)
+
+
+def expectation(
+    circuit: QuantumCircuit,
+    state: Tensor,
+    values: dict[str, Tensor],
+    observable: Observable,
+    diff_mode: DiffMode = DiffMode.AD,
+) -> Tensor:
+    """Compute the expectation value of `circuit` given a `state`, parameter values `values`
+        given an `observable` and optionally compute gradients using diff_mode.
+    Arguments:
+        circuit: A pyqtorch.QuantumCircuit instance.
+        state: A torch.Tensor of shape [2, 2, ..., batch_size].
+        values: A dictionary containing `parameter_name`: torch.Tensor key,value pairs
+                denoting the current parameter values for each parameter in `circuit`.
+        embedding: An optional instance of `pyqtorch.Embedding` which holds a set of
+                  `parameter_name`: fn pairs, associating each circuit parameter with a Callable.
+        observable: A pyq.Observable instance.
+        diff_mode: The differentiation mode.
+    Returns:
+        An expectation value.
+    """
+    logger.debug(
+        f"Computing expectation of circuit {circuit} on state {state}, values {values},\
+          given observable {observable} and diff_mode {diff_mode}."
+    )
+    if observable is None:
+        logger.error("Please provide an observable to compute expectation.")
+    if state is None:
+        state = circuit.init_state(batch_size=1)
+    if diff_mode == DiffMode.AD:
+        state = circuit.run(state, values)
+        return inner_prod(state, observable.run(state, values)).real
+    elif diff_mode == DiffMode.ADJOINT:
+        return AdjointExpectation.apply(
+            circuit, observable, state, values.keys(), *values.values()
+        )
+    elif diff_mode == DiffMode.GPSR:
+        return PSRExpectation.apply(
+            circuit, observable, state, values.keys(), *values.values()
+        )
+    else:
+        logger.error(f"Requested diff_mode '{diff_mode}' not supported.")
diff --git a/pyqtorch/circuit.py b/pyqtorch/circuit.py
index bc08f856..7b14fd51 100644
--- a/pyqtorch/circuit.py
+++ b/pyqtorch/circuit.py
@@ -301,20 +301,3 @@ def idxer() -> Generator[int, Any, None]:
         {f"{param_name}_{n}": rand(1, requires_grad=True) for n in range(next(idx))}
     )
     return ops, params
-
-
-def run(
-    circuit: QuantumCircuit,
-    state: Tensor = None,
-    values: dict[str, Tensor] = dict(),
-) -> Tensor:
-    return circuit.run(state, values)
-
-
-def sample(
-    circuit: QuantumCircuit,
-    state: Tensor = None,
-    values: dict[str, Tensor] = dict(),
-    n_shots: int = 1000,
-) -> list[Counter]:
-    return circuit.sample(state, values, n_shots)
diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
new file mode 100644
index 00000000..c488b46e
--- /dev/null
+++ b/pyqtorch/gpsr.py
@@ -0,0 +1,86 @@
+from __future__ import annotations
+
+from logging import getLogger
+from typing import Any, Tuple
+
+import torch
+from torch import Tensor, no_grad
+from torch.autograd import Function
+
+import pyqtorch as pyq
+from pyqtorch.analog import Observable
+from pyqtorch.circuit import QuantumCircuit
+from pyqtorch.parametric import Parametric
+from pyqtorch.utils import inner_prod, param_dict
+
+logger = getLogger(__name__)
+
+
+class PSRExpectation(Function):
+    """
+    Describe PSR
+    """
+
+    @staticmethod
+    @no_grad()
+    def forward(
+        ctx: Any,
+        circuit: QuantumCircuit,
+        observable: Observable,
+        state: Tensor,
+        param_names: list[str],
+        *param_values: Tensor,
+    ) -> Tensor:
+        ctx.circuit = circuit
+        ctx.observable = observable
+        ctx.param_names = param_names
+        ctx.state = state
+        values = param_dict(param_names, param_values)
+        ctx.out_state = circuit.run(state, values)
+        ctx.projected_state = observable.run(ctx.out_state, values)
+        ctx.save_for_backward(*param_values)
+        return inner_prod(ctx.out_state, ctx.projected_state).real
+
+    @staticmethod
+    def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
+        param_values = ctx.saved_tensors
+        values = param_dict(ctx.param_names, param_values)
+        grads_dict = {k: None for k in values.keys()}
+        shift = torch.tensor(torch.pi) / 2.0
+
+        for op in ctx.circuit.flatten():
+            if isinstance(op, Parametric) and isinstance(op.param_name, str):
+                spectrum = torch.linalg.eigvals(op.pauli).reshape(-1, 1)
+                spectral_gap = torch.unique(
+                    torch.abs(torch.tril(spectrum - spectrum.T))
+                )
+                spectral_gap = spectral_gap[spectral_gap.nonzero()]
+                assert (
+                    len(spectral_gap) == 1
+                ), "PSRExpectation only works on single_gap for now."
+
+                if values[op.param_name].requires_grad:
+                    with no_grad():
+                        copied_values = values.copy()
+                        copied_values[op.param_name] += shift
+                        f_plus = pyq.expectation(
+                            ctx.circuit, ctx.state, copied_values, ctx.observable
+                        )
+                        copied_values = values.copy()
+                        copied_values[op.param_name] -= shift
+                        f_min = pyq.expectation(
+                            ctx.circuit, ctx.state, copied_values, ctx.observable
+                        )
+                    grad = (
+                        spectral_gap
+                        * (f_plus - f_min)
+                        / (4 * torch.sin(spectral_gap * shift / 2))
+                    )
+                    grad *= grad_out
+                if grads_dict[op.param_name] is not None:
+                    grads_dict[op.param_name] += grad
+                else:
+                    grads_dict[op.param_name] = grad
+            else:
+                logger.error(f"PSRExpectation does not support operation: {type(op)}.")
+        return (None, None, None, None, *grads_dict.values())
diff --git a/pyqtorch/utils.py b/pyqtorch/utils.py
index 03d01137..8b88c332 100644
--- a/pyqtorch/utils.py
+++ b/pyqtorch/utils.py
@@ -77,14 +77,18 @@ class DiffMode(StrEnum):
     """
     Which Differentiation method to use.
 
-    Options: Automatic Differentiation -  Using torch.autograd.
-             Adjoint Differentiation   - An implementation of "Efficient calculation of gradients
-                                       in classical simulations of variational quantum algorithms",
-                                       Jones & Gacon, 2020
+    Options:
+             Adjoint Differentiation   -
     """
 
     AD = "ad"
+    """Automatic Differentiation -  Use torch.autograd."""
     ADJOINT = "adjoint"
+    """An implementation of "Efficient calculation of gradients
+                                       in classical simulations of variational quantum algorithms",
+                                       Jones & Gacon, 2020"""
+    GPSR = "gpsr"
+    """TODO describe GPSR"""
 
 
 def is_normalized(state: Tensor, atol: float = ATOL) -> bool:
diff --git a/tests/test_circuit.py b/tests/test_circuit.py
index 689034cc..c5f0fb2a 100644
--- a/tests/test_circuit.py
+++ b/tests/test_circuit.py
@@ -310,3 +310,47 @@ def test_sample_run() -> None:
     assert torch.allclose(wf, product_state("1100"))
     assert torch.allclose(pyq.QuantumCircuit(4, [pyq.I(0)]).run("1100"), wf)
     assert "1100" in samples[0]
+
+
+def test_all_diff() -> None:
+    rx = pyq.RX(0, param_name="theta_0")
+    rz = pyq.RZ(2, param_name="theta_1")
+    cnot = pyq.CNOT(1, 2)
+    ops = [rx, rz, cnot]
+    n_qubits = 3
+    circ = pyq.QuantumCircuit(n_qubits, ops)
+    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)])
+
+    theta_0_value = torch.pi / 2
+    theta_1_value = torch.pi
+
+    state = pyq.zero_state(n_qubits)
+
+    theta_0 = torch.tensor([theta_0_value], requires_grad=True)
+
+    theta_1 = torch.tensor([theta_1_value], requires_grad=True)
+
+    values = {"theta_0": theta_0, "theta_1": theta_1}
+
+    exp_ad = expectation(circ, state, values, obs, DiffMode.AD)
+    exp_adjoint = expectation(circ, state, values, obs, DiffMode.ADJOINT)
+    exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
+
+    grad_ad = torch.autograd.grad(
+        exp_ad, tuple(values.values()), torch.ones_like(exp_ad)
+    )
+
+    grad_adjoint = torch.autograd.grad(
+        exp_adjoint, tuple(values.values()), torch.ones_like(exp_adjoint)
+    )
+
+    grad_gpsr = torch.autograd.grad(
+        exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr)
+    )
+
+    assert len(grad_ad) == len(grad_adjoint) == len(grad_gpsr)
+
+    for i in range(len(grad_ad)):
+        assert torch.allclose(grad_ad[i], grad_adjoint[i]) and torch.allclose(
+            grad_ad[i], grad_gpsr[i]
+        )

From 5cbe9042150f68b2a17632db2b4f84b7c5a6a042 Mon Sep 17 00:00:00 2001
From: seitzdom <dominik.seitz@pasqal.com>
Date: Wed, 3 Jul 2024 14:31:03 +0200
Subject: [PATCH 02/77] rm file

---
 pyqtorch/api.py | 109 ------------------------------------------------
 1 file changed, 109 deletions(-)
 delete mode 100644 pyqtorch/api.py

diff --git a/pyqtorch/api.py b/pyqtorch/api.py
deleted file mode 100644
index 27b00274..00000000
--- a/pyqtorch/api.py
+++ /dev/null
@@ -1,109 +0,0 @@
-from __future__ import annotations
-
-from collections import Counter
-from logging import getLogger
-
-from torch import Tensor
-
-from pyqtorch.adjoint import AdjointExpectation
-from pyqtorch.analog import Observable
-from pyqtorch.circuit import QuantumCircuit
-from pyqtorch.gpsr import PSRExpectation
-from pyqtorch.utils import DiffMode, inner_prod
-
-logger = getLogger(__name__)
-
-
-def run(
-    circuit: QuantumCircuit,
-    state: Tensor = None,
-    values: dict[str, Tensor] = dict(),
-) -> Tensor:
-    """Sequentially apply each operation in `circuit.operations` to an input state `state`
-    given current parameter values `values`, perform an optional `embedding` on `values`
-    and return an output state.
-
-    Arguments:
-    circuit: A pyqtorch.QuantumCircuit instance.
-    state: A torch.Tensor of shape [2, 2, ..., batch_size].
-    values: A dictionary containing `parameter_name`: torch.Tensor key,value pairs denoting
-            the current parameter values for each parameter in `circuit`.
-    embedding: An optional instance of `pyqtorch.Embedding` which holds
-               a set of `parameter_name`: function pairs,
-               associating each circuit parameter which a Callable.
-    Returns:
-         A torch.Tensor of shape [2, 2, ..., batch_size]
-    """
-    logger.debug(f"Running circuit {circuit} on state {state} and values {values}.")
-    return circuit.run(state, values)
-
-
-def sample(
-    circuit: QuantumCircuit,
-    state: Tensor = None,
-    values: dict[str, Tensor] = dict(),
-    n_shots: int = 1000,
-) -> list[Counter]:
-    """Sample from `circuit` given an input state `state` given current parameter values `values`,
-       perform an optional `embedding` on `values` and return a list Counter objects mapping from
-       bitstring: num_samples.
-
-    Arguments:
-    circuit: A pyqtorch.QuantumCircuit instance.
-    state: A torch.Tensor of shape [2, 2, ..., batch_size].
-    values: A dictionary containing `parameter_name`: torch.Tensor key,value pairs
-            denoting the current parameter values for each parameter in `circuit`.
-    n_shots: A positive int denoting the number of requested samples.
-    embedding: An optional instance of `pyqtorch.Embedding` which holds a set of
-               `parameter_name`: function pairs, associating each circuit parameter with a Callable.
-    Returns:
-         A list of Counter objects containing bitstring:num_samples pairs.
-    """
-    logger.debug(
-        f"Sampling circuit {circuit} on state {state} and values {values} with n_shots {n_shots}."
-    )
-    return circuit.sample(state, values, n_shots)
-
-
-def expectation(
-    circuit: QuantumCircuit,
-    state: Tensor,
-    values: dict[str, Tensor],
-    observable: Observable,
-    diff_mode: DiffMode = DiffMode.AD,
-) -> Tensor:
-    """Compute the expectation value of `circuit` given a `state`, parameter values `values`
-        given an `observable` and optionally compute gradients using diff_mode.
-    Arguments:
-        circuit: A pyqtorch.QuantumCircuit instance.
-        state: A torch.Tensor of shape [2, 2, ..., batch_size].
-        values: A dictionary containing `parameter_name`: torch.Tensor key,value pairs
-                denoting the current parameter values for each parameter in `circuit`.
-        embedding: An optional instance of `pyqtorch.Embedding` which holds a set of
-                  `parameter_name`: fn pairs, associating each circuit parameter with a Callable.
-        observable: A pyq.Observable instance.
-        diff_mode: The differentiation mode.
-    Returns:
-        An expectation value.
-    """
-    logger.debug(
-        f"Computing expectation of circuit {circuit} on state {state}, values {values},\
-          given observable {observable} and diff_mode {diff_mode}."
-    )
-    if observable is None:
-        logger.error("Please provide an observable to compute expectation.")
-    if state is None:
-        state = circuit.init_state(batch_size=1)
-    if diff_mode == DiffMode.AD:
-        state = circuit.run(state, values)
-        return inner_prod(state, observable.run(state, values)).real
-    elif diff_mode == DiffMode.ADJOINT:
-        return AdjointExpectation.apply(
-            circuit, observable, state, values.keys(), *values.values()
-        )
-    elif diff_mode == DiffMode.GPSR:
-        return PSRExpectation.apply(
-            circuit, observable, state, values.keys(), *values.values()
-        )
-    else:
-        logger.error(f"Requested diff_mode '{diff_mode}' not supported.")

From 608bd30f3e0e751573781eba121b5c26a8606ea9 Mon Sep 17 00:00:00 2001
From: seitzdom <dominik.seitz@pasqal.com>
Date: Wed, 3 Jul 2024 14:40:34 +0200
Subject: [PATCH 03/77] activate

---
 pyqtorch/api.py   | 5 ++++-
 pyqtorch/utils.py | 2 +-
 2 files changed, 5 insertions(+), 2 deletions(-)

diff --git a/pyqtorch/api.py b/pyqtorch/api.py
index 92f78a83..24af0ecb 100644
--- a/pyqtorch/api.py
+++ b/pyqtorch/api.py
@@ -8,6 +8,7 @@
 from pyqtorch.adjoint import AdjointExpectation
 from pyqtorch.analog import Observable
 from pyqtorch.circuit import QuantumCircuit
+from pyqtorch.gpsr import PSRExpectation
 from pyqtorch.utils import DiffMode, inner_prod
 
 logger = getLogger(__name__)
@@ -94,6 +95,8 @@ def expectation(
             circuit, observable, state, values.keys(), *values.values()
         )
     elif diff_mode == DiffMode.GPSR:
-        raise NotImplementedError("To be added.")
+        return PSRExpectation.apply(
+            circuit, observable, state, values.keys(), *values.values()
+        )
     else:
         logger.error(f"Requested diff_mode '{diff_mode}' not supported.")
diff --git a/pyqtorch/utils.py b/pyqtorch/utils.py
index 82cd5978..140e57fa 100644
--- a/pyqtorch/utils.py
+++ b/pyqtorch/utils.py
@@ -87,7 +87,7 @@ class DiffMode(StrEnum):
     """An implementation of "Efficient calculation of gradients
                                        in classical simulations of variational quantum algorithms",
                                        Jones & Gacon, 2020"""
-    
+
     GPSR = "gpsr"
     """To be added."""
 

From a8ab9b66ffe1ded5954e8d95455173ec87e1fbe2 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Wed, 3 Jul 2024 15:28:20 +0200
Subject: [PATCH 04/77] fix missing grad tol

---
 pyqtorch/gpsr.py      | 6 +++---
 tests/test_circuit.py | 6 +++---
 2 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index c488b46e..16c9791a 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -50,7 +50,7 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
 
         for op in ctx.circuit.flatten():
             if isinstance(op, Parametric) and isinstance(op.param_name, str):
-                spectrum = torch.linalg.eigvals(op.pauli).reshape(-1, 1)
+                spectrum = torch.linalg.eigvalsh(op.pauli).reshape(-1, 1)
                 spectral_gap = torch.unique(
                     torch.abs(torch.tril(spectrum - spectrum.T))
                 )
@@ -66,11 +66,11 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
                         f_plus = pyq.expectation(
                             ctx.circuit, ctx.state, copied_values, ctx.observable
                         )
-                        copied_values = values.copy()
-                        copied_values[op.param_name] -= shift
+                        copied_values[op.param_name] -= 2.0 * shift
                         f_min = pyq.expectation(
                             ctx.circuit, ctx.state, copied_values, ctx.observable
                         )
+
                     grad = (
                         spectral_gap
                         * (f_plus - f_min)
diff --git a/tests/test_circuit.py b/tests/test_circuit.py
index c5f0fb2a..d12a12cb 100644
--- a/tests/test_circuit.py
+++ b/tests/test_circuit.py
@@ -351,6 +351,6 @@ def test_all_diff() -> None:
     assert len(grad_ad) == len(grad_adjoint) == len(grad_gpsr)
 
     for i in range(len(grad_ad)):
-        assert torch.allclose(grad_ad[i], grad_adjoint[i]) and torch.allclose(
-            grad_ad[i], grad_gpsr[i]
-        )
+        assert torch.allclose(
+            grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL
+        ) and torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)

From 45363e25a037a6405894c2a6dca91bde0e6682e7 Mon Sep 17 00:00:00 2001
From: seitzdom <dominik.seitz@pasqal.com>
Date: Thu, 4 Jul 2024 11:55:02 +0200
Subject: [PATCH 05/77] [Feature] SingleGap GPSR

---
 pyqtorch/adjoint.py   |  2 +-
 pyqtorch/api.py       |  4 +-
 pyqtorch/gpsr.py      | 88 +++++++++++++++++++++++--------------------
 pyqtorch/primitive.py | 11 ++++++
 tests/test_circuit.py | 33 ++++++++++++----
 5 files changed, 86 insertions(+), 52 deletions(-)

diff --git a/pyqtorch/adjoint.py b/pyqtorch/adjoint.py
index 8e2b9790..55e37c5e 100644
--- a/pyqtorch/adjoint.py
+++ b/pyqtorch/adjoint.py
@@ -48,8 +48,8 @@ class AdjointExpectation(Function):
     def forward(
         ctx: Any,
         circuit: QuantumCircuit,
-        observable: Observable,
         state: Tensor,
+        observable: Observable,
         param_names: list[str],
         *param_values: Tensor,
     ) -> Tensor:
diff --git a/pyqtorch/api.py b/pyqtorch/api.py
index 24af0ecb..0d5cb3bd 100644
--- a/pyqtorch/api.py
+++ b/pyqtorch/api.py
@@ -92,11 +92,11 @@ def expectation(
         return inner_prod(state, observable.run(state, values)).real
     elif diff_mode == DiffMode.ADJOINT:
         return AdjointExpectation.apply(
-            circuit, observable, state, values.keys(), *values.values()
+            circuit, state, observable, values.keys(), *values.values()
         )
     elif diff_mode == DiffMode.GPSR:
         return PSRExpectation.apply(
-            circuit, observable, state, values.keys(), *values.values()
+            circuit, state, observable, values.keys(), *values.values()
         )
     else:
         logger.error(f"Requested diff_mode '{diff_mode}' not supported.")
diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 16c9791a..a8dca40b 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -4,10 +4,9 @@
 from typing import Any, Tuple
 
 import torch
-from torch import Tensor, no_grad
+from torch import Tensor
 from torch.autograd import Function
 
-import pyqtorch as pyq
 from pyqtorch.analog import Observable
 from pyqtorch.circuit import QuantumCircuit
 from pyqtorch.parametric import Parametric
@@ -22,15 +21,15 @@ class PSRExpectation(Function):
     """
 
     @staticmethod
-    @no_grad()
     def forward(
         ctx: Any,
         circuit: QuantumCircuit,
-        observable: Observable,
         state: Tensor,
+        observable: Observable,
         param_names: list[str],
         *param_values: Tensor,
     ) -> Tensor:
+        """The PSRExpectation forward call."""
         ctx.circuit = circuit
         ctx.observable = observable
         ctx.param_names = param_names
@@ -43,44 +42,51 @@ def forward(
 
     @staticmethod
     def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
-        param_values = ctx.saved_tensors
-        values = param_dict(ctx.param_names, param_values)
-        grads_dict = {k: None for k in values.keys()}
+        """The PSRExpectation Backward call."""
+        values = param_dict(ctx.param_names, ctx.saved_tensors)
         shift = torch.tensor(torch.pi) / 2.0
 
-        for op in ctx.circuit.flatten():
-            if isinstance(op, Parametric) and isinstance(op.param_name, str):
-                spectrum = torch.linalg.eigvalsh(op.pauli).reshape(-1, 1)
-                spectral_gap = torch.unique(
-                    torch.abs(torch.tril(spectrum - spectrum.T))
-                )
-                spectral_gap = spectral_gap[spectral_gap.nonzero()]
-                assert (
-                    len(spectral_gap) == 1
-                ), "PSRExpectation only works on single_gap for now."
+        def expectation_fn(values: dict[str, Tensor]) -> torch.Tensor:
+            """Use the PSRExpectation for nested grad calls."""
+            return PSRExpectation.apply(
+                ctx.circuit, ctx.state, ctx.observable, values.keys(), *values.values()
+            )
+
+        def single_gap_shift(
+            param_name: str,
+            values: dict[str, torch.Tensor],
+            spectral_gap: torch.Tensor,
+            shift: torch.Tensor = torch.tensor(torch.pi) / 2.0,
+        ) -> torch.Tensor:
+            """Describe single-gap GPSR."""
+            shifted_values = values.copy()
+            shifted_values[param_name] = shifted_values[param_name] + shift
+            f_plus = expectation_fn(shifted_values)
+            shifted_values = values.copy()
+            shifted_values[param_name] = shifted_values[param_name] - shift
+            f_min = expectation_fn(shifted_values)
+            return (
+                spectral_gap
+                * (f_plus - f_min)
+                / (4 * torch.sin(spectral_gap * shift / 2))
+            )
 
-                if values[op.param_name].requires_grad:
-                    with no_grad():
-                        copied_values = values.copy()
-                        copied_values[op.param_name] += shift
-                        f_plus = pyq.expectation(
-                            ctx.circuit, ctx.state, copied_values, ctx.observable
-                        )
-                        copied_values[op.param_name] -= 2.0 * shift
-                        f_min = pyq.expectation(
-                            ctx.circuit, ctx.state, copied_values, ctx.observable
-                        )
+        def multi_gap_shift(*args, **kwargs) -> torch.Tensor:
+            """Describe multi_gap GPSR."""
+            raise NotImplementedError("To be added,")
+
+        def vjp(operation: Parametric, values: dict[str, torch.Tensor]) -> torch.Tensor:
+            """Vector-jacobian product between `grad_out` and jacobians of parameters."""
+            psr_fn = (
+                multi_gap_shift if len(operation.spectral_gap) > 1 else single_gap_shift
+            )
+            return grad_out * psr_fn(  # type: ignore[operator]
+                operation.param_name, values, operation.spectral_gap, shift
+            )
+
+        grads = []
+        for op in ctx.circuit.flatten():
+            if isinstance(op, Parametric) and values[op.param_name].requires_grad:  # type: ignore[index]
+                grads.append(vjp(op, values))
 
-                    grad = (
-                        spectral_gap
-                        * (f_plus - f_min)
-                        / (4 * torch.sin(spectral_gap * shift / 2))
-                    )
-                    grad *= grad_out
-                if grads_dict[op.param_name] is not None:
-                    grads_dict[op.param_name] += grad
-                else:
-                    grads_dict[op.param_name] = grad
-            else:
-                logger.error(f"PSRExpectation does not support operation: {type(op)}.")
-        return (None, None, None, None, *grads_dict.values())
+        return (None, None, None, None, *grads)
diff --git a/pyqtorch/primitive.py b/pyqtorch/primitive.py
index 185436c8..885b9cb2 100644
--- a/pyqtorch/primitive.py
+++ b/pyqtorch/primitive.py
@@ -1,6 +1,7 @@
 from __future__ import annotations
 
 import logging
+from functools import cached_property
 from logging import getLogger
 from typing import Any
 
@@ -102,6 +103,16 @@ def to(self, *args: Any, **kwargs: Any) -> Primitive:
         self._dtype = self.pauli.dtype
         return self
 
+    @cached_property
+    def eigenvals_generator(self) -> torch.Tensor:
+        return torch.linalg.eigvalsh(self.pauli).reshape(-1, 1)
+
+    @cached_property
+    def spectral_gap(self) -> torch.Tensor:
+        spectrum = self.eigenvals_generator
+        spectral_gap = torch.unique(torch.abs(torch.tril(spectrum - spectrum.T)))
+        return spectral_gap[spectral_gap.nonzero()]
+
     def tensor(
         self, values: dict[str, Tensor] = {}, n_qubits: int = 1, diagonal: bool = False
     ) -> Tensor:
diff --git a/tests/test_circuit.py b/tests/test_circuit.py
index d12a12cb..98825dd0 100644
--- a/tests/test_circuit.py
+++ b/tests/test_circuit.py
@@ -337,20 +337,37 @@ def test_all_diff() -> None:
     exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
 
     grad_ad = torch.autograd.grad(
-        exp_ad, tuple(values.values()), torch.ones_like(exp_ad)
-    )
+        exp_ad, tuple(values.values()), torch.ones_like(exp_ad), create_graph=True
+    )[0]
 
     grad_adjoint = torch.autograd.grad(
-        exp_adjoint, tuple(values.values()), torch.ones_like(exp_adjoint)
-    )
+        exp_adjoint,
+        tuple(values.values()),
+        torch.ones_like(exp_adjoint),
+        create_graph=True,
+    )[0]
 
     grad_gpsr = torch.autograd.grad(
-        exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr)
+        exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True
+    )[0]
+
+    gradgrad_ad = torch.autograd.grad(
+        grad_ad, tuple(values.values()), torch.ones_like(grad_ad)
+    )
+    # TODO higher order adjoint is not yet supported.
+    # gradgrad_adjoint = torch.autograd.grad(
+    #     grad_adjoint, tuple(values.values()), torch.ones_like(grad_adjoint)
+    # )
+
+    gradgrad_gpsr = torch.autograd.grad(
+        exp_gpsr, tuple(values.values()), torch.ones_like(grad_gpsr)
     )
 
     assert len(grad_ad) == len(grad_adjoint) == len(grad_gpsr)
 
     for i in range(len(grad_ad)):
-        assert torch.allclose(
-            grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL
-        ) and torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
+        assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
+        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
+
+    for i in range(len(gradgrad_ad)):
+        assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=GRADCHECK_ATOL)

From ab632a05960addcec43020a893e2215bb57e47ed Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 4 Jul 2024 14:08:06 +0200
Subject: [PATCH 06/77] fix call grad grad gpsr

---
 tests/test_circuit.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/tests/test_circuit.py b/tests/test_circuit.py
index 002c7c2d..63b77e1d 100644
--- a/tests/test_circuit.py
+++ b/tests/test_circuit.py
@@ -371,8 +371,7 @@ def test_all_diff(n_qubits: int, same_angle: bool) -> None:
     # )
 
     gradgrad_gpsr = torch.autograd.grad(
-        exp_gpsr, tuple(values.values()), torch.ones_like(grad_gpsr)
-        exp_ad, tuple(values.values()), torch.ones_like(exp_ad)
+        grad_gpsr, tuple(values.values()), torch.ones_like(grad_gpsr)
     )
 
     assert len(grad_ad) == len(grad_adjoint) == len(grad_gpsr)

From 61b9b904f78915276ea8d1ff47ab555e3eb7c9a1 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 4 Jul 2024 14:21:43 +0200
Subject: [PATCH 07/77] fix order call gpsr state obs and tests

---
 pyqtorch/api.py       |  2 +-
 pyqtorch/gpsr.py      |  2 +-
 tests/test_circuit.py | 19 ++++++++++++-------
 3 files changed, 14 insertions(+), 9 deletions(-)

diff --git a/pyqtorch/api.py b/pyqtorch/api.py
index 4c8f20eb..0d5cb3bd 100644
--- a/pyqtorch/api.py
+++ b/pyqtorch/api.py
@@ -96,7 +96,7 @@ def expectation(
         )
     elif diff_mode == DiffMode.GPSR:
         return PSRExpectation.apply(
-            circuit, observable, state, values.keys(), *values.values()
+            circuit, state, observable, values.keys(), *values.values()
         )
     else:
         logger.error(f"Requested diff_mode '{diff_mode}' not supported.")
diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 8d466d25..0d0e926d 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -74,8 +74,8 @@ class PSRExpectation(Function):
     def forward(
         ctx: Any,
         circuit: QuantumCircuit,
-        observable: Observable,
         state: Tensor,
+        observable: Observable,
         param_names: list[str],
         *param_values: Tensor,
     ) -> Tensor:
diff --git a/tests/test_circuit.py b/tests/test_circuit.py
index 63b77e1d..3863fe15 100644
--- a/tests/test_circuit.py
+++ b/tests/test_circuit.py
@@ -319,7 +319,7 @@ def test_sample_run() -> None:
 
 # TODO delete this test when first one up is
 @pytest.mark.parametrize("n_qubits", [3, 4, 5])
-@pytest.mark.parametrize("same_angle", [True, False])
+@pytest.mark.parametrize("same_angle", [False])
 def test_all_diff(n_qubits: int, same_angle: bool) -> None:
     name_angle_1, name_angle_2 = "theta_0", "theta_1"
     if same_angle:
@@ -347,6 +347,9 @@ def test_all_diff(n_qubits: int, same_angle: bool) -> None:
     exp_adjoint = expectation(circ, state, values, obs, DiffMode.ADJOINT)
     exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
 
+    assert torch.allclose(exp_ad, exp_adjoint)
+    assert torch.allclose(exp_ad, exp_gpsr)
+
     grad_ad = torch.autograd.grad(
         exp_ad, tuple(values.values()), torch.ones_like(exp_ad), create_graph=True
     )[0]
@@ -365,6 +368,7 @@ def test_all_diff(n_qubits: int, same_angle: bool) -> None:
     gradgrad_ad = torch.autograd.grad(
         grad_ad, tuple(values.values()), torch.ones_like(grad_ad)
     )
+
     # TODO higher order adjoint is not yet supported.
     # gradgrad_adjoint = torch.autograd.grad(
     #     grad_adjoint, tuple(values.values()), torch.ones_like(grad_adjoint)
@@ -374,18 +378,19 @@ def test_all_diff(n_qubits: int, same_angle: bool) -> None:
         grad_gpsr, tuple(values.values()), torch.ones_like(grad_gpsr)
     )
 
+    # check first order gradients
     assert len(grad_ad) == len(grad_adjoint) == len(grad_gpsr)
-
     for i in range(len(grad_ad)):
-        assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
-        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
-
-    for i in range(len(gradgrad_ad)):
-        assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=GRADCHECK_ATOL)
         assert torch.allclose(
             grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL
         ) and torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
 
+    assert len(gradgrad_ad) == len(gradgrad_gpsr)
+
+    # check second order gradients
+    for i in range(len(gradgrad_ad)):
+        assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=GRADCHECK_ATOL)
+
 
 @pytest.mark.xfail(raises=ValueError)
 @pytest.mark.parametrize("gate_type", ["scale", "hamevo"])

From 4dee7b40e39bf955c2628a9a597cbdc4095a3fac Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 4 Jul 2024 14:54:59 +0200
Subject: [PATCH 08/77] fix grads not giving same shape when using repeated
 params

---
 pyqtorch/gpsr.py      | 10 +++++-----
 tests/test_circuit.py |  2 +-
 2 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 0d0e926d..6bd32437 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -113,9 +113,9 @@ def single_gap_shift(
             shifted_values = values.copy()
             shifted_values[param_name] = shifted_values[param_name] + shift
             f_plus = expectation_fn(shifted_values)
-            shifted_values = values.copy()
-            shifted_values[param_name] = shifted_values[param_name] - shift
+            shifted_values[param_name] = shifted_values[param_name] - 2 * shift
             f_min = expectation_fn(shifted_values)
+            shifted_values[param_name] = shifted_values[param_name] + shift
             return (
                 spectral_gap
                 * (f_plus - f_min)
@@ -135,12 +135,12 @@ def vjp(operation: Parametric, values: dict[str, torch.Tensor]) -> torch.Tensor:
                 operation.param_name, values, operation.spectral_gap, shift
             )
 
-        grads = []
+        grads = {p: torch.zeros((1, 1)) for p in ctx.param_names}
         for op in ctx.circuit.flatten():
             if isinstance(op, Parametric) and values[op.param_name].requires_grad:  # type: ignore[index]
-                grads.append(vjp(op, values))
+                grads[op.param_name] += vjp(op, values)
 
-        return (None, None, None, None, *grads)
+        return (None, None, None, None, *[grads[p] for p in ctx.param_names])
 
 
 def check_support_psr(circuit: QuantumCircuit):
diff --git a/tests/test_circuit.py b/tests/test_circuit.py
index 3863fe15..e44a3916 100644
--- a/tests/test_circuit.py
+++ b/tests/test_circuit.py
@@ -319,7 +319,7 @@ def test_sample_run() -> None:
 
 # TODO delete this test when first one up is
 @pytest.mark.parametrize("n_qubits", [3, 4, 5])
-@pytest.mark.parametrize("same_angle", [False])
+@pytest.mark.parametrize("same_angle", [False, True])
 def test_all_diff(n_qubits: int, same_angle: bool) -> None:
     name_angle_1, name_angle_2 = "theta_0", "theta_1"
     if same_angle:

From 37f9a45897260a99f02359d6fb1f8e0f07ba44ba Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 4 Jul 2024 15:12:22 +0200
Subject: [PATCH 09/77] use None for param dict

---
 pyqtorch/gpsr.py | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 6bd32437..7927593b 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -135,10 +135,13 @@ def vjp(operation: Parametric, values: dict[str, torch.Tensor]) -> torch.Tensor:
                 operation.param_name, values, operation.spectral_gap, shift
             )
 
-        grads = {p: torch.zeros((1, 1)) for p in ctx.param_names}
+        grads = {p: None for p in ctx.param_names}
         for op in ctx.circuit.flatten():
             if isinstance(op, Parametric) and values[op.param_name].requires_grad:  # type: ignore[index]
-                grads[op.param_name] += vjp(op, values)
+                if grads[op.param_name]:
+                    grads[op.param_name] += vjp(op, values)
+                else:
+                    grads[op.param_name] = vjp(op, values)
 
         return (None, None, None, None, *[grads[p] for p in ctx.param_names])
 

From 639639afe5ff211b56942cebb742e954df86f4be Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 4 Jul 2024 17:15:50 +0200
Subject: [PATCH 10/77] separate diff tests + check psr for sequences

---
 pyqtorch/gpsr.py              |   8 +-
 tests/test_circuit.py         | 286 +--------------------------------
 tests/test_differentiation.py | 294 ++++++++++++++++++++++++++++++++++
 3 files changed, 300 insertions(+), 288 deletions(-)
 create mode 100644 tests/test_differentiation.py

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 7927593b..ad5fb9a1 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -8,7 +8,7 @@
 from torch.autograd import Function
 
 from pyqtorch.analog import HamiltonianEvolution, Observable, Scale
-from pyqtorch.circuit import QuantumCircuit
+from pyqtorch.circuit import QuantumCircuit, Sequence
 from pyqtorch.parametric import Parametric
 from pyqtorch.utils import inner_prod, param_dict
 
@@ -161,5 +161,7 @@ def check_support_psr(circuit: QuantumCircuit):
             raise ValueError(
                 f"PSR is not applicable as circuit contains an operation of type: {type(op)}."
             )
-        if len(op.spectral_gap) > 1:
-            raise NotImplementedError("Multi-gap is not yet supported.")
+        if isinstance(op, Sequence):
+            for subop in op.flatten():
+                if len(subop.spectral_gap) > 1:
+                    raise NotImplementedError("Multi-gap is not yet supported.")
diff --git a/tests/test_circuit.py b/tests/test_circuit.py
index 9b9a1d06..ce2aa622 100644
--- a/tests/test_circuit.py
+++ b/tests/test_circuit.py
@@ -7,136 +7,17 @@
 from torch import Tensor
 
 import pyqtorch as pyq
-from pyqtorch import DiffMode, expectation, run, sample
+from pyqtorch import run, sample
 from pyqtorch.circuit import QuantumCircuit
-from pyqtorch.matrices import COMPLEX_TO_REAL_DTYPES
 from pyqtorch.noise import Noise
 from pyqtorch.parametric import Parametric
 from pyqtorch.primitive import Primitive
 from pyqtorch.utils import (
-    GRADCHECK_ATOL,
     DensityMatrix,
     product_state,
 )
 
 
-# TODO add GPSR when multigap is implemented for this test
-@pytest.mark.parametrize("n_qubits", [3, 4, 5])
-def test_adjoint_diff(n_qubits: int) -> None:
-    rx = pyq.RX(0, param_name="theta_0")
-    cry = pyq.CPHASE(0, 1, param_name="theta_1")
-    rz = pyq.RZ(2, param_name="theta_2")
-    cnot = pyq.CNOT(1, 2)
-    ops = [rx, cry, rz, cnot]
-    circ = pyq.QuantumCircuit(n_qubits, ops)
-    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)])
-
-    theta_0_value = torch.pi / 2
-    theta_1_value = torch.pi
-    theta_2_value = torch.pi / 4
-
-    state = pyq.zero_state(n_qubits)
-
-    theta_0_ad = torch.tensor([theta_0_value], requires_grad=True)
-    thetas_0_adjoint = torch.tensor([theta_0_value], requires_grad=True)
-
-    theta_1_ad = torch.tensor([theta_1_value], requires_grad=True)
-    thetas_1_adjoint = torch.tensor([theta_1_value], requires_grad=True)
-
-    theta_2_ad = torch.tensor([theta_2_value], requires_grad=True)
-    thetas_2_adjoint = torch.tensor([theta_2_value], requires_grad=True)
-
-    values_ad = {"theta_0": theta_0_ad, "theta_1": theta_1_ad, "theta_2": theta_2_ad}
-    values_adjoint = {
-        "theta_0": thetas_0_adjoint,
-        "theta_1": thetas_1_adjoint,
-        "theta_2": thetas_2_adjoint,
-    }
-    exp_ad = expectation(circ, state, values_ad, obs, DiffMode.AD)
-    exp_adjoint = expectation(circ, state, values_adjoint, obs, DiffMode.ADJOINT)
-
-    grad_ad = torch.autograd.grad(
-        exp_ad, tuple(values_ad.values()), torch.ones_like(exp_ad)
-    )
-
-    grad_adjoint = torch.autograd.grad(
-        exp_adjoint, tuple(values_adjoint.values()), torch.ones_like(exp_adjoint)
-    )
-
-    assert len(grad_ad) == len(grad_adjoint)
-    for i in range(len(grad_ad)):
-        assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
-
-
-@pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])
-@pytest.mark.parametrize("batch_size", [1, 5])
-@pytest.mark.parametrize("n_qubits", [3, 4])
-def test_differentiate_circuit(
-    dtype: torch.dtype, batch_size: int, n_qubits: int
-) -> None:
-    ops = [
-        pyq.Y(1),
-        pyq.RX(0, "theta_0"),
-        pyq.PHASE(0, "theta_1"),
-        pyq.CSWAP(0, (1, 2)),
-        pyq.CRX(1, 2, "theta_2"),
-        pyq.CPHASE(1, 2, "theta_3"),
-        pyq.CNOT(0, 1),
-        pyq.Toffoli((2, 1), 0),
-    ]
-    theta_0_value = torch.rand(1, dtype=dtype)
-    theta_1_value = torch.rand(1, dtype=dtype)
-    theta_2_value = torch.rand(1, dtype=dtype)
-    theta_3_value = torch.rand(1, dtype=dtype)
-    circ = pyq.QuantumCircuit(n_qubits, ops).to(dtype)
-    state = pyq.random_state(n_qubits, batch_size, dtype=dtype)
-
-    theta_0_ad = torch.tensor([theta_0_value], requires_grad=True)
-    theta_0_adjoint = torch.tensor([theta_0_value], requires_grad=True)
-
-    theta_1_ad = torch.tensor([theta_1_value], requires_grad=True)
-    theta_1_adjoint = torch.tensor([theta_1_value], requires_grad=True)
-
-    theta_2_ad = torch.tensor([theta_2_value], requires_grad=True)
-    theta_2_adjoint = torch.tensor([theta_2_value], requires_grad=True)
-
-    theta_3_ad = torch.tensor([theta_3_value], requires_grad=True)
-    theta_3_adjoint = torch.tensor([theta_3_value], requires_grad=True)
-
-    values_ad = torch.nn.ParameterDict(
-        {
-            "theta_0": theta_0_ad,
-            "theta_1": theta_1_ad,
-            "theta_2": theta_2_ad,
-            "theta_3": theta_3_ad,
-        }
-    ).to(COMPLEX_TO_REAL_DTYPES[dtype])
-    values_adjoint = torch.nn.ParameterDict(
-        {
-            "theta_0": theta_0_adjoint,
-            "theta_1": theta_1_adjoint,
-            "theta_2": theta_2_adjoint,
-            "theta_3": theta_3_adjoint,
-        }
-    ).to(COMPLEX_TO_REAL_DTYPES[dtype])
-
-    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)]).to(dtype)
-    exp_ad = expectation(circ, state, values_ad, obs, DiffMode.AD)
-    exp_adjoint = expectation(circ, state, values_adjoint, obs, DiffMode.ADJOINT)
-
-    grad_ad = torch.autograd.grad(
-        exp_ad, tuple(values_ad.values()), torch.ones_like(exp_ad)
-    )
-
-    grad_adjoint = torch.autograd.grad(
-        exp_adjoint, tuple(values_adjoint.values()), torch.ones_like(exp_adjoint)
-    )
-
-    assert len(grad_ad) == len(grad_adjoint)
-    for i in range(len(grad_ad)):
-        assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
-
-
 def test_device_inference() -> None:
     ops = [pyq.RX(0), pyq.RX(0)]
     circ = pyq.QuantumCircuit(2, ops)
@@ -144,25 +25,6 @@ def test_device_inference() -> None:
     assert nested_circ._device is not None
 
 
-def test_adjoint_duplicate_params() -> None:
-    n_qubits = 2
-    ops = [pyq.RX(0, param_name="theta_0"), pyq.RX(0, param_name="theta_0")]
-    theta_vals = torch.arange(0, torch.pi, 0.05, requires_grad=True)
-    circ = pyq.QuantumCircuit(n_qubits, ops)
-    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)])
-    init_state = pyq.zero_state(n_qubits)
-    values = {"theta_0": theta_vals}
-    exp_ad = expectation(circ, init_state, values, obs, DiffMode.AD)
-    exp_adjoint = expectation(circ, init_state, values, obs, DiffMode.ADJOINT)
-    grad_ad = torch.autograd.grad(
-        exp_ad, tuple(values.values()), torch.ones_like(exp_ad)
-    )[0]
-    grad_adjoint = torch.autograd.grad(
-        exp_adjoint, tuple(values.values()), torch.ones_like(exp_adjoint)
-    )[0]
-    assert torch.allclose(grad_ad, grad_adjoint, atol=GRADCHECK_ATOL)
-
-
 @pytest.mark.parametrize("fn", [pyq.X, pyq.Z, pyq.Y])
 def test_scale(fn: pyq.primitive.Primitive) -> None:
     n_qubits = torch.randint(low=1, high=4, size=(1,)).item()
@@ -237,49 +99,6 @@ def test_merge_nested_dict() -> None:
     mergecirc(pyq.random_state(2), vals)
 
 
-@pytest.mark.xfail  # investigate
-@pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])
-@pytest.mark.parametrize("batch_size", [1, 5])
-@pytest.mark.parametrize("n_qubits", [2])
-def test_adjoint_scale(dtype: torch.dtype, batch_size: int, n_qubits: int) -> None:
-    ops = [pyq.Scale(pyq.X(0), "theta_4")]
-
-    theta_4_value = torch.rand(1, dtype=dtype)
-    circ = pyq.QuantumCircuit(n_qubits, ops).to(dtype)
-
-    state = pyq.random_state(n_qubits, batch_size, dtype=dtype)
-
-    theta_4_ad = torch.tensor([theta_4_value], requires_grad=True)
-    theta_4_adjoint = torch.tensor([theta_4_value], requires_grad=True)
-
-    values_ad = torch.nn.ParameterDict(
-        {
-            "theta_4": theta_4_ad,
-        }
-    ).to(COMPLEX_TO_REAL_DTYPES[dtype])
-    values_adjoint = torch.nn.ParameterDict(
-        {
-            "theta_4": theta_4_adjoint,
-        }
-    ).to(COMPLEX_TO_REAL_DTYPES[dtype])
-
-    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)]).to(dtype)
-    exp_ad = expectation(circ, state, values_ad, obs, DiffMode.AD)
-    exp_adjoint = expectation(circ, state, values_adjoint, obs, DiffMode.ADJOINT)
-
-    grad_ad = torch.autograd.grad(
-        exp_ad, tuple(values_ad.values()), torch.ones_like(exp_ad)
-    )
-
-    grad_adjoint = torch.autograd.grad(
-        exp_adjoint, tuple(values_adjoint.values()), torch.ones_like(exp_adjoint)
-    )
-
-    assert len(grad_ad) == len(grad_adjoint)
-    for i in range(len(grad_ad)):
-        assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
-
-
 @pytest.mark.parametrize("n_qubits", [{"low": 2, "high": 5}], indirect=True)
 @pytest.mark.parametrize("batch_size", [{"low": 1, "high": 5}], indirect=True)
 def test_noise_circ(
@@ -315,106 +134,3 @@ def test_sample_run() -> None:
     assert torch.allclose(wf, product_state("1100"))
     assert torch.allclose(pyq.QuantumCircuit(4, [pyq.I(0)]).run("1100"), wf)
     assert "1100" in samples[0]
-
-
-@pytest.mark.parametrize("n_qubits", [3, 4, 5])
-@pytest.mark.parametrize("same_angle", [True, False])
-def test_all_diff_singlegap(n_qubits: int, same_angle: bool) -> None:
-    name_angle_1, name_angle_2 = "theta_0", "theta_1"
-    if same_angle:
-        name_angle_2 = name_angle_1
-
-    ops_rx = pyq.Sequence([pyq.RX(i, param_name=name_angle_1) for i in range(n_qubits)])
-    ops_rz = pyq.Sequence([pyq.RZ(i, param_name=name_angle_2) for i in range(n_qubits)])
-    cnot = pyq.CNOT(1, 2)
-    ops = [ops_rx, ops_rz, cnot]
-
-    circ = pyq.QuantumCircuit(n_qubits, ops)
-    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)])
-
-    theta_0_value = torch.pi / 2
-
-    state = pyq.zero_state(n_qubits)
-
-    theta_0 = torch.tensor([theta_0_value], requires_grad=True)
-
-    if same_angle:
-        values = {name_angle_1: theta_0}
-    else:
-        theta_1_value = torch.pi
-        theta_1 = torch.tensor([theta_1_value], requires_grad=True)
-        values = {name_angle_1: theta_0, name_angle_2: theta_1}
-
-    exp_ad = expectation(circ, state, values, obs, DiffMode.AD)
-    exp_adjoint = expectation(circ, state, values, obs, DiffMode.ADJOINT)
-    exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
-
-    assert torch.allclose(exp_ad, exp_adjoint)
-    assert torch.allclose(exp_ad, exp_gpsr)
-
-    grad_ad = torch.autograd.grad(
-        exp_ad, tuple(values.values()), torch.ones_like(exp_ad), create_graph=True
-    )[0]
-
-    grad_adjoint = torch.autograd.grad(
-        exp_adjoint,
-        tuple(values.values()),
-        torch.ones_like(exp_adjoint),
-        create_graph=True,
-    )[0]
-
-    grad_gpsr = torch.autograd.grad(
-        exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True
-    )[0]
-
-    gradgrad_ad = torch.autograd.grad(
-        grad_ad, tuple(values.values()), torch.ones_like(grad_ad)
-    )
-
-    # TODO higher order adjoint is not yet supported.
-    # gradgrad_adjoint = torch.autograd.grad(
-    #     grad_adjoint, tuple(values.values()), torch.ones_like(grad_adjoint)
-    # )
-
-    gradgrad_gpsr = torch.autograd.grad(
-        grad_gpsr, tuple(values.values()), torch.ones_like(grad_gpsr)
-    )
-
-    # check first order gradients
-    assert len(grad_ad) == len(grad_adjoint) == len(grad_gpsr)
-    for i in range(len(grad_ad)):
-        assert torch.allclose(
-            grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL
-        ) and torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
-
-    assert len(gradgrad_ad) == len(gradgrad_gpsr)
-
-    # check second order gradients
-    for i in range(len(gradgrad_ad)):
-        assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=GRADCHECK_ATOL)
-
-
-@pytest.mark.xfail(raises=ValueError)
-@pytest.mark.parametrize("gate_type", ["scale", "hamevo"])
-def test_compatibility_gpsr(gate_type: str) -> None:
-
-    if gate_type == "scale":
-        seq_gate = pyq.Sequence([pyq.X(0)])
-        scale = pyq.Scale(seq_gate, "theta_0")
-        ops = [scale]
-    else:
-        hamevo = pyq.HamiltonianEvolution(pyq.Sequence([pyq.X(0)]), "theta_0", (0,))
-
-        ops = [hamevo]
-
-    circ = pyq.QuantumCircuit(1, ops)
-    obs = pyq.QuantumCircuit(1, [pyq.Z(0)])
-    state = pyq.zero_state(1)
-
-    param_value = torch.pi / 2
-    values = {"theta_0": torch.tensor([param_value], requires_grad=True)}
-    exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
-
-    grad_gpsr = torch.autograd.grad(
-        exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr)
-    )
diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
new file mode 100644
index 00000000..74caf4bb
--- /dev/null
+++ b/tests/test_differentiation.py
@@ -0,0 +1,294 @@
+
+from __future__ import annotations
+
+
+import pytest
+import torch
+
+import pyqtorch as pyq
+from pyqtorch import DiffMode, expectation
+from pyqtorch.matrices import COMPLEX_TO_REAL_DTYPES
+from pyqtorch.utils import (
+    GRADCHECK_ATOL,
+)
+
+# TODO add GPSR when multigap is implemented for this test
+@pytest.mark.parametrize("n_qubits", [3, 4, 5])
+def test_adjoint_diff(n_qubits: int) -> None:
+    rx = pyq.RX(0, param_name="theta_0")
+    cry = pyq.CPHASE(0, 1, param_name="theta_1")
+    rz = pyq.RZ(2, param_name="theta_2")
+    cnot = pyq.CNOT(1, 2)
+    ops = [rx, cry, rz, cnot]
+    circ = pyq.QuantumCircuit(n_qubits, ops)
+    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)])
+
+    theta_0_value = torch.pi / 2
+    theta_1_value = torch.pi
+    theta_2_value = torch.pi / 4
+
+    state = pyq.zero_state(n_qubits)
+
+    theta_0_ad = torch.tensor([theta_0_value], requires_grad=True)
+    thetas_0_adjoint = torch.tensor([theta_0_value], requires_grad=True)
+
+    theta_1_ad = torch.tensor([theta_1_value], requires_grad=True)
+    thetas_1_adjoint = torch.tensor([theta_1_value], requires_grad=True)
+
+    theta_2_ad = torch.tensor([theta_2_value], requires_grad=True)
+    thetas_2_adjoint = torch.tensor([theta_2_value], requires_grad=True)
+
+    values_ad = {"theta_0": theta_0_ad, "theta_1": theta_1_ad, "theta_2": theta_2_ad}
+    values_adjoint = {
+        "theta_0": thetas_0_adjoint,
+        "theta_1": thetas_1_adjoint,
+        "theta_2": thetas_2_adjoint,
+    }
+    exp_ad = expectation(circ, state, values_ad, obs, DiffMode.AD)
+    exp_adjoint = expectation(circ, state, values_adjoint, obs, DiffMode.ADJOINT)
+
+    grad_ad = torch.autograd.grad(
+        exp_ad, tuple(values_ad.values()), torch.ones_like(exp_ad)
+    )
+
+    grad_adjoint = torch.autograd.grad(
+        exp_adjoint, tuple(values_adjoint.values()), torch.ones_like(exp_adjoint)
+    )
+
+    assert len(grad_ad) == len(grad_adjoint)
+    for i in range(len(grad_ad)):
+        assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
+
+@pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])
+@pytest.mark.parametrize("batch_size", [1, 5])
+@pytest.mark.parametrize("n_qubits", [3, 4])
+def test_differentiate_circuit(
+    dtype: torch.dtype, batch_size: int, n_qubits: int
+) -> None:
+    ops = [
+        pyq.Y(1),
+        pyq.RX(0, "theta_0"),
+        pyq.PHASE(0, "theta_1"),
+        pyq.CSWAP(0, (1, 2)),
+        pyq.CRX(1, 2, "theta_2"),
+        pyq.CPHASE(1, 2, "theta_3"),
+        pyq.CNOT(0, 1),
+        pyq.Toffoli((2, 1), 0),
+    ]
+    theta_0_value = torch.rand(1, dtype=dtype)
+    theta_1_value = torch.rand(1, dtype=dtype)
+    theta_2_value = torch.rand(1, dtype=dtype)
+    theta_3_value = torch.rand(1, dtype=dtype)
+    circ = pyq.QuantumCircuit(n_qubits, ops).to(dtype)
+    state = pyq.random_state(n_qubits, batch_size, dtype=dtype)
+
+    theta_0_ad = torch.tensor([theta_0_value], requires_grad=True)
+    theta_0_adjoint = torch.tensor([theta_0_value], requires_grad=True)
+
+    theta_1_ad = torch.tensor([theta_1_value], requires_grad=True)
+    theta_1_adjoint = torch.tensor([theta_1_value], requires_grad=True)
+
+    theta_2_ad = torch.tensor([theta_2_value], requires_grad=True)
+    theta_2_adjoint = torch.tensor([theta_2_value], requires_grad=True)
+
+    theta_3_ad = torch.tensor([theta_3_value], requires_grad=True)
+    theta_3_adjoint = torch.tensor([theta_3_value], requires_grad=True)
+
+    values_ad = torch.nn.ParameterDict(
+        {
+            "theta_0": theta_0_ad,
+            "theta_1": theta_1_ad,
+            "theta_2": theta_2_ad,
+            "theta_3": theta_3_ad,
+        }
+    ).to(COMPLEX_TO_REAL_DTYPES[dtype])
+    values_adjoint = torch.nn.ParameterDict(
+        {
+            "theta_0": theta_0_adjoint,
+            "theta_1": theta_1_adjoint,
+            "theta_2": theta_2_adjoint,
+            "theta_3": theta_3_adjoint,
+        }
+    ).to(COMPLEX_TO_REAL_DTYPES[dtype])
+
+    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)]).to(dtype)
+    exp_ad = expectation(circ, state, values_ad, obs, DiffMode.AD)
+    exp_adjoint = expectation(circ, state, values_adjoint, obs, DiffMode.ADJOINT)
+
+    grad_ad = torch.autograd.grad(
+        exp_ad, tuple(values_ad.values()), torch.ones_like(exp_ad)
+    )
+
+    grad_adjoint = torch.autograd.grad(
+        exp_adjoint, tuple(values_adjoint.values()), torch.ones_like(exp_adjoint)
+    )
+
+    assert len(grad_ad) == len(grad_adjoint)
+    for i in range(len(grad_ad)):
+        assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
+
+
+def test_adjoint_duplicate_params() -> None:
+    n_qubits = 2
+    ops = [pyq.RX(0, param_name="theta_0"), pyq.RX(0, param_name="theta_0")]
+    theta_vals = torch.arange(0, torch.pi, 0.05, requires_grad=True)
+    circ = pyq.QuantumCircuit(n_qubits, ops)
+    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)])
+    init_state = pyq.zero_state(n_qubits)
+    values = {"theta_0": theta_vals}
+    exp_ad = expectation(circ, init_state, values, obs, DiffMode.AD)
+    exp_adjoint = expectation(circ, init_state, values, obs, DiffMode.ADJOINT)
+    grad_ad = torch.autograd.grad(
+        exp_ad, tuple(values.values()), torch.ones_like(exp_ad)
+    )[0]
+    grad_adjoint = torch.autograd.grad(
+        exp_adjoint, tuple(values.values()), torch.ones_like(exp_adjoint)
+    )[0]
+    assert torch.allclose(grad_ad, grad_adjoint, atol=GRADCHECK_ATOL)
+
+
+@pytest.mark.xfail  # investigate
+@pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])
+@pytest.mark.parametrize("batch_size", [1, 5])
+@pytest.mark.parametrize("n_qubits", [2])
+def test_adjoint_scale(dtype: torch.dtype, batch_size: int, n_qubits: int) -> None:
+    ops = [pyq.Scale(pyq.X(0), "theta_4")]
+
+    theta_4_value = torch.rand(1, dtype=dtype)
+    circ = pyq.QuantumCircuit(n_qubits, ops).to(dtype)
+
+    state = pyq.random_state(n_qubits, batch_size, dtype=dtype)
+
+    theta_4_ad = torch.tensor([theta_4_value], requires_grad=True)
+    theta_4_adjoint = torch.tensor([theta_4_value], requires_grad=True)
+
+    values_ad = torch.nn.ParameterDict(
+        {
+            "theta_4": theta_4_ad,
+        }
+    ).to(COMPLEX_TO_REAL_DTYPES[dtype])
+    values_adjoint = torch.nn.ParameterDict(
+        {
+            "theta_4": theta_4_adjoint,
+        }
+    ).to(COMPLEX_TO_REAL_DTYPES[dtype])
+
+    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)]).to(dtype)
+    exp_ad = expectation(circ, state, values_ad, obs, DiffMode.AD)
+    exp_adjoint = expectation(circ, state, values_adjoint, obs, DiffMode.ADJOINT)
+
+    grad_ad = torch.autograd.grad(
+        exp_ad, tuple(values_ad.values()), torch.ones_like(exp_ad)
+    )
+
+    grad_adjoint = torch.autograd.grad(
+        exp_adjoint, tuple(values_adjoint.values()), torch.ones_like(exp_adjoint)
+    )
+
+    assert len(grad_ad) == len(grad_adjoint)
+    for i in range(len(grad_ad)):
+        assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
+
+
+
+@pytest.mark.parametrize("n_qubits", [3, 4, 5])
+@pytest.mark.parametrize("same_angle", [True, False])
+def test_all_diff_singlegap(n_qubits: int, same_angle: bool) -> None:
+    name_angle_1, name_angle_2 = "theta_0", "theta_1"
+    if same_angle:
+        name_angle_2 = name_angle_1
+
+    ops_rx = pyq.Sequence([pyq.RX(i, param_name=name_angle_1) for i in range(n_qubits)])
+    ops_rz = pyq.Sequence([pyq.RZ(i, param_name=name_angle_2) for i in range(n_qubits)])
+    cnot = pyq.CNOT(1, 2)
+    ops = [ops_rx, ops_rz, cnot]
+
+    circ = pyq.QuantumCircuit(n_qubits, ops)
+    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)])
+
+    theta_0_value = torch.pi / 2
+
+    state = pyq.zero_state(n_qubits)
+
+    theta_0 = torch.tensor([theta_0_value], requires_grad=True)
+
+    if same_angle:
+        values = {name_angle_1: theta_0}
+    else:
+        theta_1_value = torch.pi
+        theta_1 = torch.tensor([theta_1_value], requires_grad=True)
+        values = {name_angle_1: theta_0, name_angle_2: theta_1}
+
+    exp_ad = expectation(circ, state, values, obs, DiffMode.AD)
+    exp_adjoint = expectation(circ, state, values, obs, DiffMode.ADJOINT)
+    exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
+
+    assert torch.allclose(exp_ad, exp_adjoint)
+    assert torch.allclose(exp_ad, exp_gpsr)
+
+    grad_ad = torch.autograd.grad(
+        exp_ad, tuple(values.values()), torch.ones_like(exp_ad), create_graph=True
+    )[0]
+
+    grad_adjoint = torch.autograd.grad(
+        exp_adjoint,
+        tuple(values.values()),
+        torch.ones_like(exp_adjoint),
+        create_graph=True,
+    )[0]
+
+    grad_gpsr = torch.autograd.grad(
+        exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True
+    )[0]
+
+    gradgrad_ad = torch.autograd.grad(
+        grad_ad, tuple(values.values()), torch.ones_like(grad_ad)
+    )
+
+    # TODO higher order adjoint is not yet supported.
+    # gradgrad_adjoint = torch.autograd.grad(
+    #     grad_adjoint, tuple(values.values()), torch.ones_like(grad_adjoint)
+    # )
+
+    gradgrad_gpsr = torch.autograd.grad(
+        grad_gpsr, tuple(values.values()), torch.ones_like(grad_gpsr)
+    )
+
+    # check first order gradients
+    assert len(grad_ad) == len(grad_adjoint) == len(grad_gpsr)
+    for i in range(len(grad_ad)):
+        assert torch.allclose(
+            grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL
+        ) and torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
+
+    assert len(gradgrad_ad) == len(gradgrad_gpsr)
+
+    # check second order gradients
+    for i in range(len(gradgrad_ad)):
+        assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=GRADCHECK_ATOL)
+
+
+@pytest.mark.xfail(raises=ValueError)
+@pytest.mark.parametrize("gate_type", ["scale", "hamevo"])
+def test_compatibility_gpsr(gate_type: str) -> None:
+
+    if gate_type == "scale":
+        seq_gate = pyq.Sequence([pyq.X(0)])
+        scale = pyq.Scale(seq_gate, "theta_0")
+        ops = [scale]
+    else:
+        hamevo = pyq.HamiltonianEvolution(pyq.Sequence([pyq.X(0)]), "theta_0", (0,))
+
+        ops = [hamevo]
+
+    circ = pyq.QuantumCircuit(1, ops)
+    obs = pyq.QuantumCircuit(1, [pyq.Z(0)])
+    state = pyq.zero_state(1)
+
+    param_value = torch.pi / 2
+    values = {"theta_0": torch.tensor([param_value], requires_grad=True)}
+    exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
+
+    grad_gpsr = torch.autograd.grad(
+        exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr)
+    )

From ce8e155c363c6117c8d4d5f43431a77d483b2ec5 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 4 Jul 2024 17:24:31 +0200
Subject: [PATCH 11/77] handling cases with repeated params in vjp

---
 pyqtorch/gpsr.py              | 14 ++++++++++++--
 tests/test_differentiation.py |  5 ++---
 2 files changed, 14 insertions(+), 5 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index ad5fb9a1..d08e7b0b 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -131,9 +131,19 @@ def vjp(operation: Parametric, values: dict[str, torch.Tensor]) -> torch.Tensor:
             psr_fn = (
                 multi_gap_shift if len(operation.spectral_gap) > 1 else single_gap_shift
             )
-            return grad_out * psr_fn(  # type: ignore[operator]
-                operation.param_name, values, operation.spectral_gap, shift
+
+            # use temporary values for cases with repeated parameters in circuit
+            original_name = op.param_name
+            temp_name = op.param_name + "_temp"
+            values[temp_name] = values[op.param_name]
+            operation.param_name = temp_name
+
+            out_grad = grad_out * psr_fn(  # type: ignore[operator]
+                temp_name, values, operation.spectral_gap, shift
             )
+            del values[temp_name]
+            operation.param_name = original_name
+            return out_grad
 
         grads = {p: None for p in ctx.param_names}
         for op in ctx.circuit.flatten():
diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index 74caf4bb..4d539f3f 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -1,7 +1,5 @@
-
 from __future__ import annotations
 
-
 import pytest
 import torch
 
@@ -12,6 +10,7 @@
     GRADCHECK_ATOL,
 )
 
+
 # TODO add GPSR when multigap is implemented for this test
 @pytest.mark.parametrize("n_qubits", [3, 4, 5])
 def test_adjoint_diff(n_qubits: int) -> None:
@@ -59,6 +58,7 @@ def test_adjoint_diff(n_qubits: int) -> None:
     for i in range(len(grad_ad)):
         assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
 
+
 @pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])
 @pytest.mark.parametrize("batch_size", [1, 5])
 @pytest.mark.parametrize("n_qubits", [3, 4])
@@ -190,7 +190,6 @@ def test_adjoint_scale(dtype: torch.dtype, batch_size: int, n_qubits: int) -> No
         assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
 
 
-
 @pytest.mark.parametrize("n_qubits", [3, 4, 5])
 @pytest.mark.parametrize("same_angle", [True, False])
 def test_all_diff_singlegap(n_qubits: int, same_angle: bool) -> None:

From d5a1c85a05cb37ddf5ff4b7125236d93ffb9f3ca Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 4 Jul 2024 17:45:17 +0200
Subject: [PATCH 12/77] docstrings for psr

---
 pyqtorch/gpsr.py | 55 +++++++++++++++++++++++++++++++++++++++++++-----
 1 file changed, 50 insertions(+), 5 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index d08e7b0b..10f77f75 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -67,6 +67,11 @@ class PSRExpectation(Function):
         state: A state in the form of [2 * n_qubits + [batch_size]]
         param_names: A list of parameter names.
         *param_values: A unpacked tensor of values for each parameter.
+
+    The forward method expects each of the above arguments, computes the expectation value
+    and stores all of the above arguments in the 'ctx' (context) object along with the
+    the state after applying 'circuit', 'out_state', and the 'projected_state', i.e. after applying
+    'observable' to 'out_state'.
     """
 
     @staticmethod
@@ -91,14 +96,36 @@ def forward(
 
     @staticmethod
     def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
-        """The PSRExpectation Backward call."""
+        """The PSRExpectation backward call.
+
+        Note that only operations with two distinct eigenvalues
+        from their generator (i.e., compatible with single_gap_shift)
+        are supported at the moment.
+
+        Arguments:
+            ctx: Context object for accessing stored information.
+            grad_out: Current jacobian tensor.
+
+        Returns:
+            Updated jacobian tensor.
+
+        Raises:
+            ValueError: When operation is not supported.
+        """
         check_support_psr(ctx.circuit)
 
         values = param_dict(ctx.param_names, ctx.saved_tensors)
         shift = torch.tensor(torch.pi) / 2.0
 
         def expectation_fn(values: dict[str, Tensor]) -> torch.Tensor:
-            """Use the PSRExpectation for nested grad calls."""
+            """Use the PSRExpectation for nested grad calls.
+
+            Arguments:
+                values: Dictionary with parameter values.
+
+            Returns:
+                Expectation evaluation.
+            """
             return PSRExpectation.apply(
                 ctx.circuit, ctx.state, ctx.observable, values.keys(), *values.values()
             )
@@ -109,7 +136,17 @@ def single_gap_shift(
             spectral_gap: torch.Tensor,
             shift: torch.Tensor = torch.tensor(torch.pi) / 2.0,
         ) -> torch.Tensor:
-            """Describe single-gap GPSR."""
+            """Implements single gap PSR rule.
+
+            Args:
+                param_name: Name of the parameter to apply PSR.
+                values: Dictionary with parameter values.
+                spectral_gap: Spectral gap value for PSR.
+                shift: Shift value. Defaults to torch.tensor(torch.pi)/2.0.
+
+            Returns:
+                Gradient evaluation for param_name.
+            """
             shifted_values = values.copy()
             shifted_values[param_name] = shifted_values[param_name] + shift
             f_plus = expectation_fn(shifted_values)
@@ -123,11 +160,19 @@ def single_gap_shift(
             )
 
         def multi_gap_shift(*args, **kwargs) -> torch.Tensor:
-            """Describe multi_gap GPSR."""
+            """Implements multi gap PSR rule."""
             raise NotImplementedError("Multi-gap is not yet supported.")
 
         def vjp(operation: Parametric, values: dict[str, torch.Tensor]) -> torch.Tensor:
-            """Vector-jacobian product between `grad_out` and jacobians of parameters."""
+            """Vector-jacobian product between `grad_out` and jacobians of parameters.
+
+            Args:
+                operation: Parametric operation to compute PSR.
+                values: Dictionary with parameter values.
+
+            Returns:
+                Updated jacobian by PSR.
+            """
             psr_fn = (
                 multi_gap_shift if len(operation.spectral_gap) > 1 else single_gap_shift
             )

From 92c4e8042b435e24f2b969872ea730df25bd21fc Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 4 Jul 2024 17:51:42 +0200
Subject: [PATCH 13/77] add layer to etst_diff_adjoint

---
 tests/test_differentiation.py | 24 +++---------------------
 1 file changed, 3 insertions(+), 21 deletions(-)

diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index 4d539f3f..af600cd7 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -13,12 +13,13 @@
 
 # TODO add GPSR when multigap is implemented for this test
 @pytest.mark.parametrize("n_qubits", [3, 4, 5])
-def test_adjoint_diff(n_qubits: int) -> None:
+@pytest.mark.parametrize("n_layers", [1, 2, 3])
+def test_adjoint_diff(n_qubits: int, n_layers: int) -> None:
     rx = pyq.RX(0, param_name="theta_0")
     cry = pyq.CPHASE(0, 1, param_name="theta_1")
     rz = pyq.RZ(2, param_name="theta_2")
     cnot = pyq.CNOT(1, 2)
-    ops = [rx, cry, rz, cnot]
+    ops = [rx, cry, rz, cnot] * n_layers
     circ = pyq.QuantumCircuit(n_qubits, ops)
     obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)])
 
@@ -128,25 +129,6 @@ def test_differentiate_circuit(
         assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
 
 
-def test_adjoint_duplicate_params() -> None:
-    n_qubits = 2
-    ops = [pyq.RX(0, param_name="theta_0"), pyq.RX(0, param_name="theta_0")]
-    theta_vals = torch.arange(0, torch.pi, 0.05, requires_grad=True)
-    circ = pyq.QuantumCircuit(n_qubits, ops)
-    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)])
-    init_state = pyq.zero_state(n_qubits)
-    values = {"theta_0": theta_vals}
-    exp_ad = expectation(circ, init_state, values, obs, DiffMode.AD)
-    exp_adjoint = expectation(circ, init_state, values, obs, DiffMode.ADJOINT)
-    grad_ad = torch.autograd.grad(
-        exp_ad, tuple(values.values()), torch.ones_like(exp_ad)
-    )[0]
-    grad_adjoint = torch.autograd.grad(
-        exp_adjoint, tuple(values.values()), torch.ones_like(exp_adjoint)
-    )[0]
-    assert torch.allclose(grad_ad, grad_adjoint, atol=GRADCHECK_ATOL)
-
-
 @pytest.mark.xfail  # investigate
 @pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])
 @pytest.mark.parametrize("batch_size", [1, 5])

From 4027a609bcef0f536072b19521d9296fe977c232 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 4 Jul 2024 20:15:31 +0200
Subject: [PATCH 14/77] use uuid instead of temp

---
 pyqtorch/gpsr.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 10f77f75..83cefcac 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -1,5 +1,6 @@
 from __future__ import annotations
 
+import uuid
 from logging import getLogger
 from typing import Any, Tuple
 
@@ -179,7 +180,7 @@ def vjp(operation: Parametric, values: dict[str, torch.Tensor]) -> torch.Tensor:
 
             # use temporary values for cases with repeated parameters in circuit
             original_name = op.param_name
-            temp_name = op.param_name + "_temp"
+            temp_name = op.param_name + f"_{str(uuid.uuid4())}"
             values[temp_name] = values[op.param_name]
             operation.param_name = temp_name
 

From 3edff454e6082b8b5c9b361662097ff9c76b851e Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 4 Jul 2024 20:16:57 +0200
Subject: [PATCH 15/77] use uuid only as temp

---
 pyqtorch/gpsr.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 83cefcac..6d25fc20 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -180,7 +180,7 @@ def vjp(operation: Parametric, values: dict[str, torch.Tensor]) -> torch.Tensor:
 
             # use temporary values for cases with repeated parameters in circuit
             original_name = op.param_name
-            temp_name = op.param_name + f"_{str(uuid.uuid4())}"
+            temp_name = str(uuid.uuid4())
             values[temp_name] = values[op.param_name]
             operation.param_name = temp_name
 

From cd1d40a7146ed376093e29b8b397b08652b7533b Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Fri, 5 Jul 2024 10:27:48 +0200
Subject: [PATCH 16/77] adding example of higher order failing

---
 tests/test_differentiation.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index af600cd7..ced74968 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -182,7 +182,7 @@ def test_all_diff_singlegap(n_qubits: int, same_angle: bool) -> None:
     ops_rx = pyq.Sequence([pyq.RX(i, param_name=name_angle_1) for i in range(n_qubits)])
     ops_rz = pyq.Sequence([pyq.RZ(i, param_name=name_angle_2) for i in range(n_qubits)])
     cnot = pyq.CNOT(1, 2)
-    ops = [ops_rx, ops_rz, cnot]
+    ops = [ops_rx, ops_rz, cnot] * 2
 
     circ = pyq.QuantumCircuit(n_qubits, ops)
     obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)])

From 72750a80ed164a93e752d90b13b1fbbe00d58978 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Fri, 5 Jul 2024 12:19:58 +0200
Subject: [PATCH 17/77] removing changing op name in gpsr as compiler will
 handle it

---
 docs/differentiation.md       |  8 ++++++
 pyqtorch/api.py               |  3 +-
 pyqtorch/gpsr.py              | 42 ++++++++++++++++-----------
 tests/test_differentiation.py | 53 ++++++++++++++++++-----------------
 4 files changed, 63 insertions(+), 43 deletions(-)

diff --git a/docs/differentiation.md b/docs/differentiation.md
index 25d71031..bb0f23e3 100644
--- a/docs/differentiation.md
+++ b/docs/differentiation.md
@@ -12,6 +12,14 @@ The [adjoint differentiation mode](https://arxiv.org/abs/2009.02823) computes fi
 ### Generalized Parameter-Shift rules (DiffMode.GPSR)
 The Generalized parameter shift rule (GPSR mode) is an extension of the well known [parameter shift rule (PSR)](https://arxiv.org/abs/1811.11184) algorithm [to arbitrary quantum operations](https://arxiv.org/abs/2108.01218). Indeed, PSR only works for quantum operations whose generator has a single gap in its eigenvalue spectrum, GPSR extending to multi-gap.
 
+!!! warning "Usage restrictions"
+    At the moment, only operations with two distinct eigenvalues
+    from their generator (single gap shift rule) are supported. The multi gap case
+    will be supported in a later release.
+    Circuits with one or more Scale or HamiltonianEvolution operations are not supported.
+    Finally, circuits with operations sharing a same parameter name
+    are also not supported.
+
 For this, we define the differentiable function as quantum expectation value
 
 $$
diff --git a/pyqtorch/api.py b/pyqtorch/api.py
index 0d5cb3bd..ad2239f7 100644
--- a/pyqtorch/api.py
+++ b/pyqtorch/api.py
@@ -8,7 +8,7 @@
 from pyqtorch.adjoint import AdjointExpectation
 from pyqtorch.analog import Observable
 from pyqtorch.circuit import QuantumCircuit
-from pyqtorch.gpsr import PSRExpectation
+from pyqtorch.gpsr import PSRExpectation, check_support_psr
 from pyqtorch.utils import DiffMode, inner_prod
 
 logger = getLogger(__name__)
@@ -95,6 +95,7 @@ def expectation(
             circuit, state, observable, values.keys(), *values.values()
         )
     elif diff_mode == DiffMode.GPSR:
+        check_support_psr(circuit)
         return PSRExpectation.apply(
             circuit, state, observable, values.keys(), *values.values()
         )
diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 6d25fc20..acd2df9d 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -1,6 +1,5 @@
 from __future__ import annotations
 
-import uuid
 from logging import getLogger
 from typing import Any, Tuple
 
@@ -20,6 +19,10 @@ class PSRExpectation(Function):
     r"""
     Implementation of the generalized parameter shift rule.
 
+    Note that only operations with two distinct eigenvalues
+    from their generator (i.e., compatible with single_gap_shift)
+    are supported at the moment.
+
     Compared to the original parameter shift rule
     which only works for quantum operations whose generator has a single gap
     in its eigenvalue spectrum, GPSR works with arbitrary
@@ -113,7 +116,6 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
         Raises:
             ValueError: When operation is not supported.
         """
-        check_support_psr(ctx.circuit)
 
         values = param_dict(ctx.param_names, ctx.saved_tensors)
         shift = torch.tensor(torch.pi) / 2.0
@@ -153,7 +155,6 @@ def single_gap_shift(
             f_plus = expectation_fn(shifted_values)
             shifted_values[param_name] = shifted_values[param_name] - 2 * shift
             f_min = expectation_fn(shifted_values)
-            shifted_values[param_name] = shifted_values[param_name] + shift
             return (
                 spectral_gap
                 * (f_plus - f_min)
@@ -178,23 +179,14 @@ def vjp(operation: Parametric, values: dict[str, torch.Tensor]) -> torch.Tensor:
                 multi_gap_shift if len(operation.spectral_gap) > 1 else single_gap_shift
             )
 
-            # use temporary values for cases with repeated parameters in circuit
-            original_name = op.param_name
-            temp_name = str(uuid.uuid4())
-            values[temp_name] = values[op.param_name]
-            operation.param_name = temp_name
-
-            out_grad = grad_out * psr_fn(  # type: ignore[operator]
-                temp_name, values, operation.spectral_gap, shift
+            return grad_out * psr_fn(  # type: ignore[operator]
+                operation.param_name, values, operation.spectral_gap, shift
             )
-            del values[temp_name]
-            operation.param_name = original_name
-            return out_grad
 
         grads = {p: None for p in ctx.param_names}
         for op in ctx.circuit.flatten():
             if isinstance(op, Parametric) and values[op.param_name].requires_grad:  # type: ignore[index]
-                if grads[op.param_name]:
+                if grads[op.param_name] is not None:
                     grads[op.param_name] += vjp(op, values)
                 else:
                     grads[op.param_name] = vjp(op, values)
@@ -209,9 +201,12 @@ def check_support_psr(circuit: QuantumCircuit):
         circuit (QuantumCircuit): Circuit to check.
 
     Raises:
-        ValueError: When circuit contains Scale, HamiltonianEvolution
-                    or one operation has more than two eigenvalues (multi-gap).
+        ValueError: When circuit contains Scale, HamiltonianEvolution,
+                    or one operation has more than two eigenvalues (multi-gap),
+                    or a param_name is used multiple times in the circuit.
     """
+
+    param_names = list()
     for op in circuit.operations:
         if isinstance(op, Scale) or isinstance(op, HamiltonianEvolution):
             raise ValueError(
@@ -219,5 +214,18 @@ def check_support_psr(circuit: QuantumCircuit):
             )
         if isinstance(op, Sequence):
             for subop in op.flatten():
+                if isinstance(subop, Parametric):
+                    param_names.append(subop.param_name)
                 if len(subop.spectral_gap) > 1:
                     raise NotImplementedError("Multi-gap is not yet supported.")
+        elif isinstance(op, Parametric):
+            if len(op.spectral_gap) > 1:
+                raise NotImplementedError("Multi-gap is not yet supported.")
+            param_names.append(op.param_name)
+        else:
+            continue
+
+    if len(param_names) > len(set(param_names)):
+        raise ValueError(
+            "PSR is not supported when using a same param_name in different operations."
+        )
diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index ced74968..a0977218 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -172,33 +172,34 @@ def test_adjoint_scale(dtype: torch.dtype, batch_size: int, n_qubits: int) -> No
         assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
 
 
+# Note pyq does not support using multiple times the same angle
 @pytest.mark.parametrize("n_qubits", [3, 4, 5])
-@pytest.mark.parametrize("same_angle", [True, False])
-def test_all_diff_singlegap(n_qubits: int, same_angle: bool) -> None:
-    name_angle_1, name_angle_2 = "theta_0", "theta_1"
-    if same_angle:
-        name_angle_2 = name_angle_1
-
-    ops_rx = pyq.Sequence([pyq.RX(i, param_name=name_angle_1) for i in range(n_qubits)])
-    ops_rz = pyq.Sequence([pyq.RZ(i, param_name=name_angle_2) for i in range(n_qubits)])
+def test_all_diff_singlegap(n_qubits: int) -> None:
+    name_angles = "theta"
+
+    ops_rx = pyq.Sequence(
+        [pyq.RX(i, param_name=name_angles + "_x_" + str(i)) for i in range(n_qubits)]
+    )
+    ops_rz = pyq.Sequence(
+        [pyq.RZ(i, param_name=name_angles + "_z_" + str(i)) for i in range(n_qubits)]
+    )
     cnot = pyq.CNOT(1, 2)
-    ops = [ops_rx, ops_rz, cnot] * 2
+    ops = [ops_rx, ops_rz, cnot]
 
     circ = pyq.QuantumCircuit(n_qubits, ops)
     obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)])
-
-    theta_0_value = torch.pi / 2
-
     state = pyq.zero_state(n_qubits)
 
-    theta_0 = torch.tensor([theta_0_value], requires_grad=True)
-
-    if same_angle:
-        values = {name_angle_1: theta_0}
-    else:
-        theta_1_value = torch.pi
-        theta_1 = torch.tensor([theta_1_value], requires_grad=True)
-        values = {name_angle_1: theta_0, name_angle_2: theta_1}
+    values = {
+        name_angles + "_x_" + str(i): torch.rand(1, requires_grad=True)
+        for i in range(n_qubits)
+    }
+    values.update(
+        {
+            name_angles + "_z_" + str(i): torch.rand(1, requires_grad=True)
+            for i in range(n_qubits)
+        }
+    )
 
     exp_ad = expectation(circ, state, values, obs, DiffMode.AD)
     exp_adjoint = expectation(circ, state, values, obs, DiffMode.ADJOINT)
@@ -250,17 +251,19 @@ def test_all_diff_singlegap(n_qubits: int, same_angle: bool) -> None:
 
 
 @pytest.mark.xfail(raises=ValueError)
-@pytest.mark.parametrize("gate_type", ["scale", "hamevo"])
+@pytest.mark.parametrize("gate_type", ["scale", "hamevo", ""])
 def test_compatibility_gpsr(gate_type: str) -> None:
 
+    pname = "theta_0"
     if gate_type == "scale":
         seq_gate = pyq.Sequence([pyq.X(0)])
-        scale = pyq.Scale(seq_gate, "theta_0")
+        scale = pyq.Scale(seq_gate, pname)
         ops = [scale]
-    else:
-        hamevo = pyq.HamiltonianEvolution(pyq.Sequence([pyq.X(0)]), "theta_0", (0,))
-
+    elif gate_type == "hamevo":
+        hamevo = pyq.HamiltonianEvolution(pyq.Sequence([pyq.X(0)]), pname, (0,))
         ops = [hamevo]
+    else:
+        ops = [pyq.RY(0, pname), pyq.RZ(0, pname)]
 
     circ = pyq.QuantumCircuit(1, ops)
     obs = pyq.QuantumCircuit(1, [pyq.Z(0)])

From f676183a7d422f86be8a3c6b627470c606e6570b Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Fri, 5 Jul 2024 12:29:54 +0200
Subject: [PATCH 18/77] only str param_name to check support gpsr

---
 pyqtorch/gpsr.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index acd2df9d..3b769ff4 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -215,13 +215,15 @@ def check_support_psr(circuit: QuantumCircuit):
         if isinstance(op, Sequence):
             for subop in op.flatten():
                 if isinstance(subop, Parametric):
-                    param_names.append(subop.param_name)
+                    if isinstance(subop.param_name, str):
+                        param_names.append(subop.param_name)
                 if len(subop.spectral_gap) > 1:
                     raise NotImplementedError("Multi-gap is not yet supported.")
         elif isinstance(op, Parametric):
             if len(op.spectral_gap) > 1:
                 raise NotImplementedError("Multi-gap is not yet supported.")
-            param_names.append(op.param_name)
+            if isinstance(op.param_name, str):
+                param_names.append(op.param_name)
         else:
             continue
 

From 9961e5a1dad8f780034d13f499b1373fd185c853 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Fri, 5 Jul 2024 14:29:59 +0200
Subject: [PATCH 19/77] add multigap

---
 pyqtorch/gpsr.py | 59 +++++++++++++++++++++++++++++++++++++++++++-----
 1 file changed, 53 insertions(+), 6 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 3b769ff4..684488dc 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -118,7 +118,8 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
         """
 
         values = param_dict(ctx.param_names, ctx.saved_tensors)
-        shift = torch.tensor(torch.pi) / 2.0
+        shift_pi2 = torch.tensor(torch.pi) / 2.0
+        shift_multi = torch.tensor(0.5)
 
         def expectation_fn(values: dict[str, Tensor]) -> torch.Tensor:
             """Use the PSRExpectation for nested grad calls.
@@ -161,9 +162,50 @@ def single_gap_shift(
                 / (4 * torch.sin(spectral_gap * shift / 2))
             )
 
-        def multi_gap_shift(*args, **kwargs) -> torch.Tensor:
+        def multi_gap_shift(
+            param_name: str,
+            values: dict[str, torch.Tensor],
+            spectral_gaps: torch.Tensor,
+            shift_prefac: torch.Tensor = torch.tensor(0.5),
+        ) -> torch.Tensor:
             """Implements multi gap PSR rule."""
-            raise NotImplementedError("Multi-gap is not yet supported.")
+            n_eqs = len(spectral_gaps)
+            PI = torch.tensor(torch.pi)
+            shifts = shift_prefac * torch.linspace(
+                PI / 2 - PI / 5, PI / 2 + PI / 5, n_eqs
+            )
+
+            # calculate F vector and M matrix
+            # (see: https://arxiv.org/pdf/2108.01218.pdf on p. 4 for definitions)
+            F = []
+            M = torch.empty((n_eqs, n_eqs))
+            n_obs = 1
+            for i in range(n_eqs):
+                shifted_values = values.copy()
+                shifted_values[param_name] = shifted_values[param_name] + shifts[i]
+                f_plus = expectation_fn(shifted_values)
+                shifted_values[param_name] = shifted_values[param_name] - 2 * shifts[i]
+                f_min = expectation_fn(shifted_values)
+                shifted_values[param_name] = shifted_values[param_name] + shifts[i]
+                F.append((f_plus - f_min))
+
+                # calculate M matrix
+                for j in range(n_eqs):
+                    M[i, j] = 4.0 * torch.sin(shifts[i] * spectral_gaps[j] / 2)
+
+            # get number of observables from expectation value tensor
+            if f_plus.numel() > 1:
+                batch_size = F[0].shape[0]
+                n_obs = F[0].shape[1]
+
+            F = torch.stack(F).reshape(n_eqs, -1)
+            R = torch.linalg.solve(M, F)
+
+            dfdx = torch.sum(spectral_gaps[:, None] * R, dim=0).reshape(
+                batch_size, n_obs
+            )
+
+            return dfdx
 
         def vjp(operation: Parametric, values: dict[str, torch.Tensor]) -> torch.Tensor:
             """Vector-jacobian product between `grad_out` and jacobians of parameters.
@@ -175,12 +217,17 @@ def vjp(operation: Parametric, values: dict[str, torch.Tensor]) -> torch.Tensor:
             Returns:
                 Updated jacobian by PSR.
             """
-            psr_fn = (
-                multi_gap_shift if len(operation.spectral_gap) > 1 else single_gap_shift
+            psr_fn, shift = (
+                (multi_gap_shift, shift_multi)
+                if len(operation.spectral_gap) > 1
+                else (single_gap_shift, shift_pi2)
             )
 
             return grad_out * psr_fn(  # type: ignore[operator]
-                operation.param_name, values, operation.spectral_gap, shift
+                operation.param_name,  # type: ignore
+                values,
+                operation.spectral_gap,
+                shift,
             )
 
         grads = {p: None for p in ctx.param_names}

From 6e8acae81a8ee573394530da871b0bcfc15720f4 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Fri, 5 Jul 2024 15:31:07 +0200
Subject: [PATCH 20/77] change diff circuit

---
 tests/test_differentiation.py | 52 ++++++++++++++++-------------------
 1 file changed, 23 insertions(+), 29 deletions(-)

diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index a0977218..2dd32feb 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -6,12 +6,12 @@
 import pyqtorch as pyq
 from pyqtorch import DiffMode, expectation
 from pyqtorch.matrices import COMPLEX_TO_REAL_DTYPES
+from pyqtorch.parametric import Parametric
 from pyqtorch.utils import (
     GRADCHECK_ATOL,
 )
 
 
-# TODO add GPSR when multigap is implemented for this test
 @pytest.mark.parametrize("n_qubits", [3, 4, 5])
 @pytest.mark.parametrize("n_layers", [1, 2, 3])
 def test_adjoint_diff(n_qubits: int, n_layers: int) -> None:
@@ -76,45 +76,34 @@ def test_differentiate_circuit(
         pyq.CNOT(0, 1),
         pyq.Toffoli((2, 1), 0),
     ]
-    theta_0_value = torch.rand(1, dtype=dtype)
-    theta_1_value = torch.rand(1, dtype=dtype)
-    theta_2_value = torch.rand(1, dtype=dtype)
-    theta_3_value = torch.rand(1, dtype=dtype)
     circ = pyq.QuantumCircuit(n_qubits, ops).to(dtype)
-    state = pyq.random_state(n_qubits, batch_size, dtype=dtype)
-
-    theta_0_ad = torch.tensor([theta_0_value], requires_grad=True)
-    theta_0_adjoint = torch.tensor([theta_0_value], requires_grad=True)
-
-    theta_1_ad = torch.tensor([theta_1_value], requires_grad=True)
-    theta_1_adjoint = torch.tensor([theta_1_value], requires_grad=True)
+    all_param_names = [
+        op.param_name
+        for op in circ.flatten()
+        if isinstance(op, Parametric) and isinstance(op.param_name, str)
+    ]
+    theta_vals = [torch.rand(1, dtype=dtype) for p in all_param_names]
 
-    theta_2_ad = torch.tensor([theta_2_value], requires_grad=True)
-    theta_2_adjoint = torch.tensor([theta_2_value], requires_grad=True)
+    state = pyq.random_state(n_qubits, batch_size, dtype=dtype)
 
-    theta_3_ad = torch.tensor([theta_3_value], requires_grad=True)
-    theta_3_adjoint = torch.tensor([theta_3_value], requires_grad=True)
+    theta_ad = [torch.tensor([t], requires_grad=True) for t in theta_vals]
+    theta_adjoint = [torch.tensor([t], requires_grad=True) for t in theta_vals]
+    theta_gpsr = [torch.tensor([t], requires_grad=True) for t in theta_vals]
 
     values_ad = torch.nn.ParameterDict(
-        {
-            "theta_0": theta_0_ad,
-            "theta_1": theta_1_ad,
-            "theta_2": theta_2_ad,
-            "theta_3": theta_3_ad,
-        }
+        {t: tval for (t, tval) in zip(all_param_names, theta_ad)}
     ).to(COMPLEX_TO_REAL_DTYPES[dtype])
     values_adjoint = torch.nn.ParameterDict(
-        {
-            "theta_0": theta_0_adjoint,
-            "theta_1": theta_1_adjoint,
-            "theta_2": theta_2_adjoint,
-            "theta_3": theta_3_adjoint,
-        }
+        {t: tval for (t, tval) in zip(all_param_names, theta_adjoint)}
+    ).to(COMPLEX_TO_REAL_DTYPES[dtype])
+    values_gpsr = torch.nn.ParameterDict(
+        {t: tval for (t, tval) in zip(all_param_names, theta_gpsr)}
     ).to(COMPLEX_TO_REAL_DTYPES[dtype])
 
     obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)]).to(dtype)
     exp_ad = expectation(circ, state, values_ad, obs, DiffMode.AD)
     exp_adjoint = expectation(circ, state, values_adjoint, obs, DiffMode.ADJOINT)
+    exp_gpsr = expectation(circ, state, values_gpsr, obs, DiffMode.GPSR)
 
     grad_ad = torch.autograd.grad(
         exp_ad, tuple(values_ad.values()), torch.ones_like(exp_ad)
@@ -124,9 +113,14 @@ def test_differentiate_circuit(
         exp_adjoint, tuple(values_adjoint.values()), torch.ones_like(exp_adjoint)
     )
 
-    assert len(grad_ad) == len(grad_adjoint)
+    grad_gpsr = torch.autograd.grad(
+        exp_gpsr, tuple(values_gpsr.values()), torch.ones_like(exp_gpsr)
+    )
+
+    assert len(grad_ad) == len(grad_adjoint) == len(grad_gpsr)
     for i in range(len(grad_ad)):
         assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
+        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
 
 
 @pytest.mark.xfail  # investigate

From 81f47e2ca7326c57fecdf4a9e46f7e861c84b270 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Fri, 5 Jul 2024 15:41:39 +0200
Subject: [PATCH 21/77] test multigap gpsr

---
 tests/test_differentiation.py | 40 +++++++++++++++++++++++++++++------
 1 file changed, 34 insertions(+), 6 deletions(-)

diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index 2dd32feb..2bc9a5c8 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -106,22 +106,50 @@ def test_differentiate_circuit(
     exp_gpsr = expectation(circ, state, values_gpsr, obs, DiffMode.GPSR)
 
     grad_ad = torch.autograd.grad(
-        exp_ad, tuple(values_ad.values()), torch.ones_like(exp_ad)
-    )
+        exp_ad, tuple(values_ad.values()), torch.ones_like(exp_ad), create_graph=True
+    )[0]
 
     grad_adjoint = torch.autograd.grad(
-        exp_adjoint, tuple(values_adjoint.values()), torch.ones_like(exp_adjoint)
-    )
+        exp_adjoint,
+        tuple(values_adjoint.values()),
+        torch.ones_like(exp_adjoint),
+        create_graph=True,
+    )[0]
 
     grad_gpsr = torch.autograd.grad(
-        exp_gpsr, tuple(values_gpsr.values()), torch.ones_like(exp_gpsr)
-    )
+        exp_gpsr,
+        tuple(values_gpsr.values()),
+        torch.ones_like(exp_gpsr),
+        create_graph=True,
+    )[0]
 
     assert len(grad_ad) == len(grad_adjoint) == len(grad_gpsr)
     for i in range(len(grad_ad)):
         assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
         assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
 
+    gradgrad_ad = torch.autograd.grad(
+        grad_ad, tuple(values_ad.values()), torch.ones_like(grad_ad), create_graph=True
+    )[0]
+
+    # TODO higher order adjoint is not yet supported.
+    # gradgrad_adjoint = torch.autograd.grad(
+    #     grad_adjoint, tuple(values_adjoint.values()), torch.ones_like(grad_adjoint)
+    # )
+
+    gradgrad_gpsr = torch.autograd.grad(
+        grad_gpsr,
+        tuple(values_gpsr.values()),
+        torch.ones_like(grad_gpsr),
+        create_graph=True,
+    )[0]
+
+    assert len(gradgrad_ad) == len(gradgrad_gpsr)
+
+    # check second order gradients
+    for i in range(len(gradgrad_ad)):
+        assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=GRADCHECK_ATOL)
+
 
 @pytest.mark.xfail  # investigate
 @pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])

From 3dd768a05af7cc07bb96b845e90f225754193281 Mon Sep 17 00:00:00 2001
From: chMoussa <charles.moussa@pasqal.com>
Date: Fri, 5 Jul 2024 16:58:29 +0200
Subject: [PATCH 22/77] Update pyqtorch/gpsr.py

Co-authored-by: Roland-djee <9250798+Roland-djee@users.noreply.github.com>
---
 pyqtorch/gpsr.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 3b769ff4..112ed8ca 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -107,8 +107,8 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
         are supported at the moment.
 
         Arguments:
-            ctx: Context object for accessing stored information.
-            grad_out: Current jacobian tensor.
+            ctx (Any): Context object for accessing stored information.
+            grad_out (Tensor): Current jacobian tensor.
 
         Returns:
             Updated jacobian tensor.

From 2c84821c1a02774b8caad04dda7d58ddda96b7aa Mon Sep 17 00:00:00 2001
From: chMoussa <charles.moussa@pasqal.com>
Date: Fri, 5 Jul 2024 16:58:49 +0200
Subject: [PATCH 23/77] Update pyqtorch/gpsr.py

Co-authored-by: Roland-djee <9250798+Roland-djee@users.noreply.github.com>
---
 pyqtorch/gpsr.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 112ed8ca..1c5c23eb 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -111,7 +111,7 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
             grad_out (Tensor): Current jacobian tensor.
 
         Returns:
-            Updated jacobian tensor.
+            A tuple of updated jacobian tensor.
 
         Raises:
             ValueError: When operation is not supported.

From 256ad81a7f3bebf932049842aaf92ac775b606a2 Mon Sep 17 00:00:00 2001
From: chMoussa <charles.moussa@pasqal.com>
Date: Fri, 5 Jul 2024 16:58:59 +0200
Subject: [PATCH 24/77] Update pyqtorch/gpsr.py

Co-authored-by: Roland-djee <9250798+Roland-djee@users.noreply.github.com>
---
 pyqtorch/gpsr.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 1c5c23eb..8d13e854 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -120,7 +120,7 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
         values = param_dict(ctx.param_names, ctx.saved_tensors)
         shift = torch.tensor(torch.pi) / 2.0
 
-        def expectation_fn(values: dict[str, Tensor]) -> torch.Tensor:
+        def expectation_fn(values: dict[str, Tensor]) -> Tensor:
             """Use the PSRExpectation for nested grad calls.
 
             Arguments:

From 20cb8719727ed1345c6e34a8d108662c67f84ba0 Mon Sep 17 00:00:00 2001
From: chMoussa <charles.moussa@pasqal.com>
Date: Fri, 5 Jul 2024 16:59:12 +0200
Subject: [PATCH 25/77] Update pyqtorch/gpsr.py

Co-authored-by: Roland-djee <9250798+Roland-djee@users.noreply.github.com>
---
 pyqtorch/gpsr.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 8d13e854..9291c9ec 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -154,7 +154,7 @@ def single_gap_shift(
             shifted_values[param_name] = shifted_values[param_name] + shift
             f_plus = expectation_fn(shifted_values)
             shifted_values[param_name] = shifted_values[param_name] - 2 * shift
-            f_min = expectation_fn(shifted_values)
+            f_minus = expectation_fn(shifted_values)
             return (
                 spectral_gap
                 * (f_plus - f_min)

From ca360510319b959107b83b3ca9b5e0bb5e09b589 Mon Sep 17 00:00:00 2001
From: chMoussa <charles.moussa@pasqal.com>
Date: Fri, 5 Jul 2024 16:59:21 +0200
Subject: [PATCH 26/77] Update pyqtorch/gpsr.py

Co-authored-by: Roland-djee <9250798+Roland-djee@users.noreply.github.com>
---
 pyqtorch/gpsr.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 9291c9ec..e7934dde 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -161,7 +161,7 @@ def single_gap_shift(
                 / (4 * torch.sin(spectral_gap * shift / 2))
             )
 
-        def multi_gap_shift(*args, **kwargs) -> torch.Tensor:
+        def multi_gap_shift(*args, **kwargs) -> Tensor:
             """Implements multi gap PSR rule."""
             raise NotImplementedError("Multi-gap is not yet supported.")
 

From 2051d2f1651290f9ca17f921836fc2ee3b390fdb Mon Sep 17 00:00:00 2001
From: chMoussa <charles.moussa@pasqal.com>
Date: Fri, 5 Jul 2024 16:59:31 +0200
Subject: [PATCH 27/77] Update pyqtorch/gpsr.py

Co-authored-by: Roland-djee <9250798+Roland-djee@users.noreply.github.com>
---
 pyqtorch/gpsr.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index e7934dde..38a31b3f 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -165,7 +165,7 @@ def multi_gap_shift(*args, **kwargs) -> Tensor:
             """Implements multi gap PSR rule."""
             raise NotImplementedError("Multi-gap is not yet supported.")
 
-        def vjp(operation: Parametric, values: dict[str, torch.Tensor]) -> torch.Tensor:
+        def vjp(operation: Parametric, values: dict[str, Tensor]) -> Tensor:
             """Vector-jacobian product between `grad_out` and jacobians of parameters.
 
             Args:

From da287ff2b45a888072d0e1a87342fdecf0d6fb87 Mon Sep 17 00:00:00 2001
From: chMoussa <charles.moussa@pasqal.com>
Date: Fri, 5 Jul 2024 16:59:41 +0200
Subject: [PATCH 28/77] Update pyqtorch/primitive.py

Co-authored-by: Roland-djee <9250798+Roland-djee@users.noreply.github.com>
---
 pyqtorch/primitive.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyqtorch/primitive.py b/pyqtorch/primitive.py
index 885b9cb2..a540e7ad 100644
--- a/pyqtorch/primitive.py
+++ b/pyqtorch/primitive.py
@@ -104,7 +104,7 @@ def to(self, *args: Any, **kwargs: Any) -> Primitive:
         return self
 
     @cached_property
-    def eigenvals_generator(self) -> torch.Tensor:
+    def eigenvals_generator(self) -> Tensor:
         return torch.linalg.eigvalsh(self.pauli).reshape(-1, 1)
 
     @cached_property

From aa9e83da11d491426bb97518f8bce7e2b6e84515 Mon Sep 17 00:00:00 2001
From: chMoussa <charles.moussa@pasqal.com>
Date: Fri, 5 Jul 2024 16:59:46 +0200
Subject: [PATCH 29/77] Update pyqtorch/primitive.py

Co-authored-by: Roland-djee <9250798+Roland-djee@users.noreply.github.com>
---
 pyqtorch/primitive.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyqtorch/primitive.py b/pyqtorch/primitive.py
index a540e7ad..c112dbaf 100644
--- a/pyqtorch/primitive.py
+++ b/pyqtorch/primitive.py
@@ -108,7 +108,7 @@ def eigenvals_generator(self) -> Tensor:
         return torch.linalg.eigvalsh(self.pauli).reshape(-1, 1)
 
     @cached_property
-    def spectral_gap(self) -> torch.Tensor:
+    def spectral_gap(self) -> Tensor:
         spectrum = self.eigenvals_generator
         spectral_gap = torch.unique(torch.abs(torch.tril(spectrum - spectrum.T)))
         return spectral_gap[spectral_gap.nonzero()]

From b885b3de0f9b280f1f075435744b63e2a12649af Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Fri, 5 Jul 2024 17:01:04 +0200
Subject: [PATCH 30/77] fix f_minus and typings

---
 pyqtorch/gpsr.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 38a31b3f..a343cd67 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -157,7 +157,7 @@ def single_gap_shift(
             f_minus = expectation_fn(shifted_values)
             return (
                 spectral_gap
-                * (f_plus - f_min)
+                * (f_plus - f_minus)
                 / (4 * torch.sin(spectral_gap * shift / 2))
             )
 

From 5a8fd4a28a28e07d062305d688f7b491c6bfa020 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Fri, 5 Jul 2024 17:13:32 +0200
Subject: [PATCH 31/77] change docstrings and rm multi gap raises

---
 docs/differentiation.md | 10 +++-------
 pyqtorch/gpsr.py        | 26 ++++++++++++--------------
 2 files changed, 15 insertions(+), 21 deletions(-)

diff --git a/docs/differentiation.md b/docs/differentiation.md
index bb0f23e3..a4606699 100644
--- a/docs/differentiation.md
+++ b/docs/differentiation.md
@@ -13,12 +13,8 @@ The [adjoint differentiation mode](https://arxiv.org/abs/2009.02823) computes fi
 The Generalized parameter shift rule (GPSR mode) is an extension of the well known [parameter shift rule (PSR)](https://arxiv.org/abs/1811.11184) algorithm [to arbitrary quantum operations](https://arxiv.org/abs/2108.01218). Indeed, PSR only works for quantum operations whose generator has a single gap in its eigenvalue spectrum, GPSR extending to multi-gap.
 
 !!! warning "Usage restrictions"
-    At the moment, only operations with two distinct eigenvalues
-    from their generator (single gap shift rule) are supported. The multi gap case
-    will be supported in a later release.
-    Circuits with one or more Scale or HamiltonianEvolution operations are not supported.
-    Finally, circuits with operations sharing a same parameter name
-    are also not supported.
+    At the moment, circuits with one or more Scale or HamiltonianEvolution operations are not supported.
+    Also, circuits with operations sharing a same parameter name are also not supported.
 
 For this, we define the differentiable function as quantum expectation value
 
@@ -56,7 +52,7 @@ batch_size = 1
 
 ry = pyq.RY(0, param_name="x")
 cnot = pyq.CNOT(1, 2)
-ops = [ry]
+ops = [ry, cnot]
 n_qubits = 3
 circ = pyq.QuantumCircuit(n_qubits, ops)
 
diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index b77c563d..5066a22b 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -19,10 +19,6 @@ class PSRExpectation(Function):
     r"""
     Implementation of the generalized parameter shift rule.
 
-    Note that only operations with two distinct eigenvalues
-    from their generator (i.e., compatible with single_gap_shift)
-    are supported at the moment.
-
     Compared to the original parameter shift rule
     which only works for quantum operations whose generator has a single gap
     in its eigenvalue spectrum, GPSR works with arbitrary
@@ -102,10 +98,6 @@ def forward(
     def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
         """The PSRExpectation backward call.
 
-        Note that only operations with two distinct eigenvalues
-        from their generator (i.e., compatible with single_gap_shift)
-        are supported at the moment.
-
         Arguments:
             ctx (Any): Context object for accessing stored information.
             grad_out (Tensor): Current jacobian tensor.
@@ -168,7 +160,18 @@ def multi_gap_shift(
             spectral_gaps: Tensor,
             shift_prefac: Tensor = torch.tensor(0.5),
         ) -> Tensor:
-            """Implements multi gap PSR rule."""
+            """Implements multi gap PSR rule.
+
+            Args:
+                param_name: Name of the parameter to apply PSR.
+                values: Dictionary with parameter values.
+                spectral_gaps: Spectral gaps value for PSR.
+                shift_prefac: Shift prefactor value for PSR shifts.
+                Defaults to torch.tensor(0.5).
+
+            Returns:
+                Gradient evaluation for param_name.
+            """
             n_eqs = len(spectral_gaps)
             PI = torch.tensor(torch.pi)
             shifts = shift_prefac * torch.linspace(
@@ -249,7 +252,6 @@ def check_support_psr(circuit: QuantumCircuit):
 
     Raises:
         ValueError: When circuit contains Scale, HamiltonianEvolution,
-                    or one operation has more than two eigenvalues (multi-gap),
                     or a param_name is used multiple times in the circuit.
     """
 
@@ -264,11 +266,7 @@ def check_support_psr(circuit: QuantumCircuit):
                 if isinstance(subop, Parametric):
                     if isinstance(subop.param_name, str):
                         param_names.append(subop.param_name)
-                if len(subop.spectral_gap) > 1:
-                    raise NotImplementedError("Multi-gap is not yet supported.")
         elif isinstance(op, Parametric):
-            if len(op.spectral_gap) > 1:
-                raise NotImplementedError("Multi-gap is not yet supported.")
             if isinstance(op.param_name, str):
                 param_names.append(op.param_name)
         else:

From f47d601ce0abe4d37656626605a72900d6305466 Mon Sep 17 00:00:00 2001
From: chMoussa <charles.moussa@pasqal.com>
Date: Fri, 5 Jul 2024 19:06:17 +0200
Subject: [PATCH 32/77] Update pyqtorch/gpsr.py

Co-authored-by: Roland-djee <9250798+Roland-djee@users.noreply.github.com>
---
 pyqtorch/gpsr.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 96f63cfd..71783641 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -192,7 +192,7 @@ def multi_gap_shift(
                 shifted_values[param_name] = shifted_values[param_name] + shifts[i]
                 f_plus = expectation_fn(shifted_values)
                 shifted_values[param_name] = shifted_values[param_name] - 2 * shifts[i]
-                f_min = expectation_fn(shifted_values)
+                f_minus = expectation_fn(shifted_values)
                 shifted_values[param_name] = shifted_values[param_name] + shifts[i]
                 F.append((f_plus - f_min))
 

From 00b0f8781a24de226b4c3bb02ecf65bf8787cd4c Mon Sep 17 00:00:00 2001
From: chMoussa <charles.moussa@pasqal.com>
Date: Fri, 5 Jul 2024 19:06:26 +0200
Subject: [PATCH 33/77] Update pyqtorch/gpsr.py

Co-authored-by: Roland-djee <9250798+Roland-djee@users.noreply.github.com>
---
 pyqtorch/gpsr.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 71783641..85358a5f 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -164,7 +164,7 @@ def multi_gap_shift(
             spectral_gaps: Tensor,
             shift_prefac: Tensor = torch.tensor(0.5),
         ) -> Tensor:
-            """Implements multi gap PSR rule.
+            """Implement multi gap PSR rule.
 
             Args:
                 param_name: Name of the parameter to apply PSR.

From 85e9bc00ba0c3bbee62285b35c5862aafc0791fa Mon Sep 17 00:00:00 2001
From: chMoussa <charles.moussa@pasqal.com>
Date: Fri, 5 Jul 2024 19:06:44 +0200
Subject: [PATCH 34/77] Update pyqtorch/gpsr.py

Co-authored-by: Roland-djee <9250798+Roland-djee@users.noreply.github.com>
---
 pyqtorch/gpsr.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 85358a5f..5c52e755 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -208,7 +208,8 @@ def multi_gap_shift(
             F = torch.stack(F).reshape(n_eqs, -1)
             R = torch.linalg.solve(M, F)
 
-            dfdx = torch.sum(spectral_gaps[:, None] * R, dim=0).reshape(
+            dfdx = torch.sum(
+                spectral_gaps[:, None] * R, dim=0).reshape(
                 batch_size, n_obs
             )
 

From 5761385b9d2feb14960cf661615008f1c5144e72 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Fri, 5 Jul 2024 19:10:33 +0200
Subject: [PATCH 35/77] minor changes and paper ref

---
 pyqtorch/gpsr.py | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 5c52e755..2e92f2ba 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -166,6 +166,9 @@ def multi_gap_shift(
         ) -> Tensor:
             """Implement multi gap PSR rule.
 
+            See Kyriienko1 and Elfving, 2021 for details:
+            https://arxiv.org/pdf/2108.01218.pdf
+
             Args:
                 param_name: Name of the parameter to apply PSR.
                 values: Dictionary with parameter values.
@@ -194,7 +197,7 @@ def multi_gap_shift(
                 shifted_values[param_name] = shifted_values[param_name] - 2 * shifts[i]
                 f_minus = expectation_fn(shifted_values)
                 shifted_values[param_name] = shifted_values[param_name] + shifts[i]
-                F.append((f_plus - f_min))
+                F.append((f_plus - f_minus))
 
                 # calculate M matrix
                 for j in range(n_eqs):
@@ -208,8 +211,7 @@ def multi_gap_shift(
             F = torch.stack(F).reshape(n_eqs, -1)
             R = torch.linalg.solve(M, F)
 
-            dfdx = torch.sum(
-                spectral_gaps[:, None] * R, dim=0).reshape(
+            dfdx = torch.sum(spectral_gaps[:, None] * R, dim=0).reshape(
                 batch_size, n_obs
             )
 

From 5395250f86b1b1300e39332bf9e324d368895959 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Fri, 5 Jul 2024 19:23:06 +0200
Subject: [PATCH 36/77] changing warning

---
 docs/differentiation.md | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/docs/differentiation.md b/docs/differentiation.md
index a4606699..def0d182 100644
--- a/docs/differentiation.md
+++ b/docs/differentiation.md
@@ -14,7 +14,10 @@ The Generalized parameter shift rule (GPSR mode) is an extension of the well kno
 
 !!! warning "Usage restrictions"
     At the moment, circuits with one or more Scale or HamiltonianEvolution operations are not supported.
-    Also, circuits with operations sharing a same parameter name are also not supported.
+    They should be handled differently as GPSR requires operations to be of the form presented below.
+    Also, circuits with operations sharing a same parameter name are also not supported
+    as such cases are handled by our other Python package for differentiable digital-analog quantum programs Qadence
+    which uses pyqtorch as a backend. Qadence convert circuits to use different parameter names when applying GPSR.
 
 For this, we define the differentiable function as quantum expectation value
 

From 9cd3fab7259d624974f4cc1e4bdcbc1820cf1ee3 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 11 Jul 2024 12:01:34 +0200
Subject: [PATCH 37/77] adding gpu support

---
 pyqtorch/gpsr.py | 19 +++++++++++++++++++
 1 file changed, 19 insertions(+)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 2e92f2ba..10a708c9 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -147,6 +147,17 @@ def single_gap_shift(
             Returns:
                 Gradient evaluation for param_name.
             """
+
+            # device conversions
+            device = torch.device("cpu")
+            try:
+                device = [v.device for v in values.values()][0]
+            except Exception:
+                pass
+            spectral_gap = spectral_gap.to(device=device)
+            shift = shift.to(device=device)
+
+            # apply shift rule
             shifted_values = values.copy()
             shifted_values[param_name] = shifted_values[param_name] + shift
             f_plus = expectation_fn(shifted_values)
@@ -185,6 +196,14 @@ def multi_gap_shift(
                 PI / 2 - PI / 5, PI / 2 + PI / 5, n_eqs
             )
 
+            device = torch.device("cpu")
+            try:
+                device = [v.device for v in values.values()][0]
+            except Exception:
+                pass
+            spectral_gaps = spectral_gaps.to(device=device)
+            shifts = shifts.to(device=device)
+
             # calculate F vector and M matrix
             # (see: https://arxiv.org/pdf/2108.01218.pdf on p. 4 for definitions)
             F = []

From 09a4ebd18ce062c5bd905c7ea368f586e4544e85 Mon Sep 17 00:00:00 2001
From: Vytautas Abramavicius <vytautas.abramavicius@pasqal.com>
Date: Thu, 11 Jul 2024 13:34:32 +0300
Subject: [PATCH 38/77] adding GPSR tests

---
 tests/test_gpsr.py | 0
 1 file changed, 0 insertions(+), 0 deletions(-)
 create mode 100644 tests/test_gpsr.py

diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
new file mode 100644
index 00000000..e69de29b

From 2c4b5203ea9e7527fa698af50a8f10c8437a9528 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 11 Jul 2024 15:30:46 +0200
Subject: [PATCH 39/77] moving tests gpsr

---
 pyqtorch/gpsr.py              |   2 +-
 pyqtorch/utils.py             |   2 +
 tests/test_differentiation.py |  28 ---------
 tests/test_gpsr.py            | 108 ++++++++++++++++++++++++++++++++++
 4 files changed, 111 insertions(+), 29 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 10a708c9..d926650e 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -207,7 +207,7 @@ def multi_gap_shift(
             # calculate F vector and M matrix
             # (see: https://arxiv.org/pdf/2108.01218.pdf on p. 4 for definitions)
             F = []
-            M = torch.empty((n_eqs, n_eqs))
+            M = torch.empty((n_eqs, n_eqs)).to(device=device)
             n_obs = 1
             for i in range(n_eqs):
                 shifted_values = values.copy()
diff --git a/pyqtorch/utils.py b/pyqtorch/utils.py
index 140e57fa..cbc8319d 100644
--- a/pyqtorch/utils.py
+++ b/pyqtorch/utils.py
@@ -19,6 +19,8 @@
 ATOL = 1e-06
 RTOL = 0.0
 GRADCHECK_ATOL = 1e-06
+PSR_ACCEPTANCE = 1e-5
+GPSR_ACCEPTANCE = 1e-1
 
 logger = getLogger(__name__)
 
diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index 8ce142a5..ef8d53ae 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -270,31 +270,3 @@ def test_all_diff_singlegap(n_qubits: int) -> None:
     # check second order gradients
     for i in range(len(gradgrad_ad)):
         assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=GRADCHECK_ATOL)
-
-
-@pytest.mark.parametrize("gate_type", ["scale", "hamevo", ""])
-def test_compatibility_gpsr(gate_type: str) -> None:
-
-    pname = "theta_0"
-    if gate_type == "scale":
-        seq_gate = pyq.Sequence([pyq.X(0)])
-        scale = pyq.Scale(seq_gate, pname)
-        ops = [scale]
-    elif gate_type == "hamevo":
-        hamevo = pyq.HamiltonianEvolution(pyq.Sequence([pyq.X(0)]), pname, (0,))
-        ops = [hamevo]
-    else:
-        ops = [pyq.RY(0, pname), pyq.RZ(0, pname)]
-
-    circ = pyq.QuantumCircuit(1, ops)
-    obs = pyq.QuantumCircuit(1, [pyq.Z(0)])
-    state = pyq.zero_state(1)
-
-    param_value = torch.pi / 2
-    values = {"theta_0": torch.tensor([param_value], requires_grad=True)}
-    with pytest.raises(ValueError):
-        exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
-
-        grad_gpsr = torch.autograd.grad(
-            exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr)
-        )
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index e69de29b..a96da4f7 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -0,0 +1,108 @@
+from __future__ import annotations
+
+from typing import Callable
+
+import pytest
+import torch
+
+import pyqtorch as pyq
+from pyqtorch import DiffMode, expectation
+from pyqtorch.analog import Observable
+from pyqtorch.circuit import QuantumCircuit
+from pyqtorch.parametric import Parametric
+from pyqtorch.utils import GPSR_ACCEPTANCE, PSR_ACCEPTANCE
+
+
+def circuit_psr(n_qubits: int) -> QuantumCircuit:
+    """Helper function to make an example circuit."""
+
+    ops = [
+        pyq.RX(0, "x"),
+        pyq.RY(1, "y"),
+        pyq.RX(0, "theta"),
+        pyq.RY(1, torch.pi / 2),
+        pyq.CNOT(0, 1),
+    ]
+
+    circ = QuantumCircuit(n_qubits, ops)
+
+    return circ
+
+
+@pytest.mark.parametrize(
+    ["n_qubits", "batch_size", "n_obs", "circuit_fn"],
+    [
+        (2, 1, 2, circuit_psr),
+        (5, 10, 1, circuit_psr),
+    ],
+)
+def test_expectation_psr(
+    n_qubits: int, batch_size: int, n_obs: int, circuit_fn: Callable
+) -> None:
+    torch.manual_seed(42)
+    circ = circuit_fn(n_qubits)
+    obs = Observable(n_qubits, [pyq.Z(i) for i in range(n_qubits)])
+
+    values = {
+        op.param_name: torch.rand(batch_size, requires_grad=True)
+        for op in circ.flatten()
+        if isinstance(op, Parametric)
+        and isinstance(op.param_name, str)
+        and op.param_name != ""
+    }
+    state = pyq.random_state(n_qubits)
+
+    # Apply adjoint
+    exp_ad = expectation(circ, state, values, obs, DiffMode.AD)
+    grad_ad = torch.autograd.grad(
+        exp_ad, tuple(values.values()), torch.ones_like(exp_ad), create_graph=True
+    )[0]
+    gradgrad_ad = torch.autograd.grad(
+        grad_ad, tuple(values.values()), torch.ones_like(grad_ad)
+    )
+
+    exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
+    grad_gpsr = torch.autograd.grad(
+        exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True
+    )[0]
+    gradgrad_gpsr = torch.autograd.grad(
+        grad_gpsr, tuple(values.values()), torch.ones_like(grad_gpsr)
+    )
+
+    atol = PSR_ACCEPTANCE if circuit_fn == circuit_psr else GPSR_ACCEPTANCE
+
+    assert torch.allclose(exp_ad, exp_gpsr)
+
+    for i in range(len(grad_ad)):
+        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=atol)
+
+    for i in range(len(gradgrad_ad)):
+        assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=atol)
+
+
+@pytest.mark.parametrize("gate_type", ["scale", "hamevo", ""])
+def test_compatibility_gpsr(gate_type: str) -> None:
+
+    pname = "theta_0"
+    if gate_type == "scale":
+        seq_gate = pyq.Sequence([pyq.X(0)])
+        scale = pyq.Scale(seq_gate, pname)
+        ops = [scale]
+    elif gate_type == "hamevo":
+        hamevo = pyq.HamiltonianEvolution(pyq.Sequence([pyq.X(0)]), pname, (0,))
+        ops = [hamevo]
+    else:
+        ops = [pyq.RY(0, pname), pyq.RZ(0, pname)]
+
+    circ = pyq.QuantumCircuit(1, ops)
+    obs = pyq.QuantumCircuit(1, [pyq.Z(0)])
+    state = pyq.zero_state(1)
+
+    param_value = torch.pi / 2
+    values = {"theta_0": torch.tensor([param_value], requires_grad=True)}
+    with pytest.raises(ValueError):
+        exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
+
+        grad_gpsr = torch.autograd.grad(
+            exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr)
+        )

From a62a1a44170d455e3d63a180f0d6a7aaff2c3ce1 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 11 Jul 2024 16:45:33 +0200
Subject: [PATCH 40/77] filter non str op name in gpsr

---
 pyqtorch/gpsr.py       |  2 +-
 pyqtorch/parametric.py | 18 +++++++++---------
 tests/test_gpsr.py     | 21 ++++++++++++++++++++-
 3 files changed, 30 insertions(+), 11 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index d926650e..1bc677ed 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -261,7 +261,7 @@ def vjp(operation: Parametric, values: dict[str, Tensor]) -> Tensor:
 
         grads = {p: None for p in ctx.param_names}
         for op in ctx.circuit.flatten():
-            if isinstance(op, Parametric) and values[op.param_name].requires_grad:  # type: ignore[index]
+            if isinstance(op, Parametric) and isinstance(op.param_name, str) and values[op.param_name].requires_grad:  # type: ignore[index]
                 if grads[op.param_name] is not None:
                     grads[op.param_name] += vjp(op, values)
                 else:
diff --git a/pyqtorch/parametric.py b/pyqtorch/parametric.py
index 03a4741b..c5df28e5 100644
--- a/pyqtorch/parametric.py
+++ b/pyqtorch/parametric.py
@@ -166,7 +166,7 @@ class RX(Parametric):
     def __init__(
         self,
         target: int,
-        param_name: str = "",
+        param_name: str | int | float | torch.Tensor = "",
     ):
         """Initializes RX.
 
@@ -193,7 +193,7 @@ class RY(Parametric):
     def __init__(
         self,
         target: int,
-        param_name: str = "",
+        param_name: str | int | float | torch.Tensor = "",
     ):
         """Initializes RY.
 
@@ -220,7 +220,7 @@ class RZ(Parametric):
     def __init__(
         self,
         target: int,
-        param_name: str = "",
+        param_name: str | int | float | torch.Tensor = "",
     ):
         """Initializes RZ.
 
@@ -247,7 +247,7 @@ class PHASE(Parametric):
     def __init__(
         self,
         target: int,
-        param_name: str = "",
+        param_name: str | int | float | torch.Tensor = "",
     ):
         """Initializes PHASE.
 
@@ -309,7 +309,7 @@ def __init__(
         gate: str,
         control: int | Tuple[int, ...],
         target: int,
-        param_name: str = "",
+        param_name: str | int | float | torch.Tensor = "",
     ):
         """Initializes a ControlledRotationGate.
 
@@ -384,7 +384,7 @@ def __init__(
         self,
         control: int | Tuple[int, ...],
         target: int,
-        param_name: str = "",
+        param_name: str | int | float | torch.Tensor = "",
     ):
         """Initializes controlled RX.
 
@@ -405,7 +405,7 @@ def __init__(
         self,
         control: int | Tuple[int, ...],
         target: int,
-        param_name: str = "",
+        param_name: str | int | float | torch.Tensor = "",
     ):
         """Initializes controlled RY.
 
@@ -426,7 +426,7 @@ def __init__(
         self,
         control: int | Tuple[int, ...],
         target: int,
-        param_name: str = "",
+        param_name: str | int | float | torch.Tensor = "",
     ):
         """Initializes controlled RZ.
 
@@ -449,7 +449,7 @@ def __init__(
         self,
         control: int | Tuple[int, ...],
         target: int,
-        param_name: str = "",
+        param_name: str | int | float | torch.Tensor = "",
     ):
         """Initializes controlled PHASE.
 
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index a96da4f7..694efeef 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -28,12 +28,31 @@ def circuit_psr(n_qubits: int) -> QuantumCircuit:
 
     return circ
 
+def circuit_gpsr(n_qubits: int) -> QuantumCircuit:
+    """Helper function to make an example circuit."""
+
+    ops = [
+        pyq.Y(1),
+        pyq.RX(0, "theta_0"),
+        pyq.PHASE(0, "theta_1"),
+        pyq.CSWAP(0, (1, 2)),
+        pyq.CRX(1, 2, "theta_2"),
+        pyq.CPHASE(1, 2, "theta_3"),
+        pyq.CNOT(0, 1),
+        pyq.Toffoli((2, 1), 0),
+    ]
+
+    circ = QuantumCircuit(n_qubits, ops)
+
+    return circ
 
 @pytest.mark.parametrize(
     ["n_qubits", "batch_size", "n_obs", "circuit_fn"],
     [
         (2, 1, 2, circuit_psr),
         (5, 10, 1, circuit_psr),
+        (3, 1, 2, circuit_gpsr),
+        (5, 10, 1, circuit_gpsr),
     ],
 )
 def test_expectation_psr(
@@ -48,7 +67,6 @@ def test_expectation_psr(
         for op in circ.flatten()
         if isinstance(op, Parametric)
         and isinstance(op.param_name, str)
-        and op.param_name != ""
     }
     state = pyq.random_state(n_qubits)
 
@@ -61,6 +79,7 @@ def test_expectation_psr(
         grad_ad, tuple(values.values()), torch.ones_like(grad_ad)
     )
 
+    # Apply PSR
     exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
     grad_gpsr = torch.autograd.grad(
         exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True

From 06f1bb84a907cfa8810c22aea82b9243e55ccf5b Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 11 Jul 2024 16:53:32 +0200
Subject: [PATCH 41/77] more circuits and ops to test in gpsr

---
 tests/test_gpsr.py | 37 ++++++++++++++++++++++++++++---------
 1 file changed, 28 insertions(+), 9 deletions(-)

diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 694efeef..ef80a370 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -9,12 +9,13 @@
 from pyqtorch import DiffMode, expectation
 from pyqtorch.analog import Observable
 from pyqtorch.circuit import QuantumCircuit
+from pyqtorch.primitive import Primitive
 from pyqtorch.parametric import Parametric
 from pyqtorch.utils import GPSR_ACCEPTANCE, PSR_ACCEPTANCE
 
 
 def circuit_psr(n_qubits: int) -> QuantumCircuit:
-    """Helper function to make an example circuit."""
+    """Helper function to make an example circuit using single gap PSR."""
 
     ops = [
         pyq.RX(0, "x"),
@@ -29,7 +30,7 @@ def circuit_psr(n_qubits: int) -> QuantumCircuit:
     return circ
 
 def circuit_gpsr(n_qubits: int) -> QuantumCircuit:
-    """Helper function to make an example circuit."""
+    """Helper function to make an example circuit using multi gap GPSR."""
 
     ops = [
         pyq.Y(1),
@@ -46,21 +47,39 @@ def circuit_gpsr(n_qubits: int) -> QuantumCircuit:
 
     return circ
 
+def circuit_sequence(n_qubits: int) -> QuantumCircuit:
+    """Helper function to make an example circuit using Sequences of rotations."""
+    name_angles = "theta"
+
+    ops_rx = pyq.Sequence(
+        [pyq.RX(i, param_name=name_angles + "_x_" + str(i)) for i in range(n_qubits)]
+    )
+    ops_rz = pyq.Sequence(
+        [pyq.RZ(i, param_name=name_angles + "_z_" + str(i)) for i in range(n_qubits)]
+    )
+    cnot = pyq.CNOT(1, 2)
+    ops = [ops_rx, ops_rz, cnot]
+    circ = QuantumCircuit(n_qubits, ops)
+    return circ
+
 @pytest.mark.parametrize(
-    ["n_qubits", "batch_size", "n_obs", "circuit_fn"],
+    ["n_qubits", "batch_size", "circuit_fn"],
     [
-        (2, 1, 2, circuit_psr),
-        (5, 10, 1, circuit_psr),
-        (3, 1, 2, circuit_gpsr),
-        (5, 10, 1, circuit_gpsr),
+        (2, 1, circuit_psr),
+        (5, 10, circuit_psr),
+        (3, 1, circuit_gpsr),
+        (5, 10, circuit_gpsr),
+        (3, 1, circuit_sequence),
+        (5, 10, circuit_sequence),
     ],
 )
+@pytest.mark.parametrize("ops_op", [pyq.Z, pyq.Y])
 def test_expectation_psr(
-    n_qubits: int, batch_size: int, n_obs: int, circuit_fn: Callable
+    n_qubits: int, batch_size: int, circuit_fn: Callable, ops_op: Primitive
 ) -> None:
     torch.manual_seed(42)
     circ = circuit_fn(n_qubits)
-    obs = Observable(n_qubits, [pyq.Z(i) for i in range(n_qubits)])
+    obs = Observable(n_qubits, [ops_op(i) for i in range(n_qubits)])
 
     values = {
         op.param_name: torch.rand(batch_size, requires_grad=True)

From 2c0f832e32ac6de9342e88fb0fb87f01f1c2be41 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 11 Jul 2024 17:04:16 +0200
Subject: [PATCH 42/77] change if for grads

---
 pyqtorch/gpsr.py              | 11 ++---
 tests/test_differentiation.py | 78 -----------------------------------
 tests/test_gpsr.py            | 10 +++--
 3 files changed, 12 insertions(+), 87 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 1bc677ed..9c40c9c4 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -261,11 +261,12 @@ def vjp(operation: Parametric, values: dict[str, Tensor]) -> Tensor:
 
         grads = {p: None for p in ctx.param_names}
         for op in ctx.circuit.flatten():
-            if isinstance(op, Parametric) and isinstance(op.param_name, str) and values[op.param_name].requires_grad:  # type: ignore[index]
-                if grads[op.param_name] is not None:
-                    grads[op.param_name] += vjp(op, values)
-                else:
-                    grads[op.param_name] = vjp(op, values)
+            if isinstance(op, Parametric) and isinstance(op.param_name, str): 
+                if values[op.param_name].requires_grad: 
+                    if grads[op.param_name] is not None:
+                        grads[op.param_name] += vjp(op, values)
+                    else:
+                        grads[op.param_name] = vjp(op, values)
 
         return (None, None, None, None, *[grads[p] for p in ctx.param_names])
 
diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index ef8d53ae..a7ef1955 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -192,81 +192,3 @@ def test_adjoint_scale(dtype: torch.dtype, batch_size: int, n_qubits: int) -> No
     assert len(grad_ad) == len(grad_adjoint)
     for i in range(len(grad_ad)):
         assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
-
-
-# Note pyq does not support using multiple times the same angle
-@pytest.mark.parametrize("n_qubits", [3, 4, 5])
-def test_all_diff_singlegap(n_qubits: int) -> None:
-    name_angles = "theta"
-
-    ops_rx = pyq.Sequence(
-        [pyq.RX(i, param_name=name_angles + "_x_" + str(i)) for i in range(n_qubits)]
-    )
-    ops_rz = pyq.Sequence(
-        [pyq.RZ(i, param_name=name_angles + "_z_" + str(i)) for i in range(n_qubits)]
-    )
-    cnot = pyq.CNOT(1, 2)
-    ops = [ops_rx, ops_rz, cnot]
-
-    circ = pyq.QuantumCircuit(n_qubits, ops)
-    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)])
-    state = pyq.random_state(n_qubits)
-
-    values = {
-        name_angles + "_x_" + str(i): torch.rand(1, requires_grad=True)
-        for i in range(n_qubits)
-    }
-    values.update(
-        {
-            name_angles + "_z_" + str(i): torch.rand(1, requires_grad=True)
-            for i in range(n_qubits)
-        }
-    )
-
-    exp_ad = expectation(circ, state, values, obs, DiffMode.AD)
-    exp_adjoint = expectation(circ, state, values, obs, DiffMode.ADJOINT)
-    exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
-
-    assert torch.allclose(exp_ad, exp_adjoint)
-    assert torch.allclose(exp_ad, exp_gpsr)
-
-    grad_ad = torch.autograd.grad(
-        exp_ad, tuple(values.values()), torch.ones_like(exp_ad), create_graph=True
-    )[0]
-
-    grad_adjoint = torch.autograd.grad(
-        exp_adjoint,
-        tuple(values.values()),
-        torch.ones_like(exp_adjoint),
-        create_graph=True,
-    )[0]
-
-    grad_gpsr = torch.autograd.grad(
-        exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True
-    )[0]
-
-    gradgrad_ad = torch.autograd.grad(
-        grad_ad, tuple(values.values()), torch.ones_like(grad_ad)
-    )
-
-    # TODO higher order adjoint is not yet supported.
-    # gradgrad_adjoint = torch.autograd.grad(
-    #     grad_adjoint, tuple(values.values()), torch.ones_like(grad_adjoint)
-    # )
-
-    gradgrad_gpsr = torch.autograd.grad(
-        grad_gpsr, tuple(values.values()), torch.ones_like(grad_gpsr)
-    )
-
-    # check first order gradients
-    assert len(grad_ad) == len(grad_adjoint) == len(grad_gpsr)
-    for i in range(len(grad_ad)):
-        assert torch.allclose(
-            grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL
-        ) and torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
-
-    assert len(gradgrad_ad) == len(gradgrad_gpsr)
-
-    # check second order gradients
-    for i in range(len(gradgrad_ad)):
-        assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=GRADCHECK_ATOL)
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index ef80a370..5bfd9831 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -9,8 +9,8 @@
 from pyqtorch import DiffMode, expectation
 from pyqtorch.analog import Observable
 from pyqtorch.circuit import QuantumCircuit
-from pyqtorch.primitive import Primitive
 from pyqtorch.parametric import Parametric
+from pyqtorch.primitive import Primitive
 from pyqtorch.utils import GPSR_ACCEPTANCE, PSR_ACCEPTANCE
 
 
@@ -29,6 +29,7 @@ def circuit_psr(n_qubits: int) -> QuantumCircuit:
 
     return circ
 
+
 def circuit_gpsr(n_qubits: int) -> QuantumCircuit:
     """Helper function to make an example circuit using multi gap GPSR."""
 
@@ -47,6 +48,7 @@ def circuit_gpsr(n_qubits: int) -> QuantumCircuit:
 
     return circ
 
+
 def circuit_sequence(n_qubits: int) -> QuantumCircuit:
     """Helper function to make an example circuit using Sequences of rotations."""
     name_angles = "theta"
@@ -62,6 +64,7 @@ def circuit_sequence(n_qubits: int) -> QuantumCircuit:
     circ = QuantumCircuit(n_qubits, ops)
     return circ
 
+
 @pytest.mark.parametrize(
     ["n_qubits", "batch_size", "circuit_fn"],
     [
@@ -84,8 +87,7 @@ def test_expectation_psr(
     values = {
         op.param_name: torch.rand(batch_size, requires_grad=True)
         for op in circ.flatten()
-        if isinstance(op, Parametric)
-        and isinstance(op.param_name, str)
+        if isinstance(op, Parametric) and isinstance(op.param_name, str)
     }
     state = pyq.random_state(n_qubits)
 
@@ -107,7 +109,7 @@ def test_expectation_psr(
         grad_gpsr, tuple(values.values()), torch.ones_like(grad_gpsr)
     )
 
-    atol = PSR_ACCEPTANCE if circuit_fn == circuit_psr else GPSR_ACCEPTANCE
+    atol = PSR_ACCEPTANCE if circuit_fn != circuit_gpsr else GPSR_ACCEPTANCE
 
     assert torch.allclose(exp_ad, exp_gpsr)
 

From aea130169675e08183eb1a75fa105707a294c391 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 11 Jul 2024 17:07:21 +0200
Subject: [PATCH 43/77] lint

---
 pyqtorch/gpsr.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 9c40c9c4..acd88912 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -261,8 +261,8 @@ def vjp(operation: Parametric, values: dict[str, Tensor]) -> Tensor:
 
         grads = {p: None for p in ctx.param_names}
         for op in ctx.circuit.flatten():
-            if isinstance(op, Parametric) and isinstance(op.param_name, str): 
-                if values[op.param_name].requires_grad: 
+            if isinstance(op, Parametric) and isinstance(op.param_name, str):
+                if values[op.param_name].requires_grad:
                     if grads[op.param_name] is not None:
                         grads[op.param_name] += vjp(op, values)
                     else:

From e75c3c3bbd018c2e4c9fe4c03253ce573343c29f Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Tue, 16 Jul 2024 10:10:40 +0200
Subject: [PATCH 44/77] tests working for first param first order grad

---
 pyqtorch/gpsr.py              | 29 +++++++++++++++--------------
 tests/test_differentiation.py | 26 +++++++++++++-------------
 tests/test_gpsr.py            |  4 ++--
 3 files changed, 30 insertions(+), 29 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 651d4026..f1dceb86 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -10,6 +10,7 @@
 from pyqtorch.analog import HamiltonianEvolution, Observable, Scale
 from pyqtorch.circuit import QuantumCircuit, Sequence
 from pyqtorch.embed import Embedding
+from pyqtorch.matrices import DEFAULT_REAL_DTYPE
 from pyqtorch.parametric import Parametric
 from pyqtorch.utils import inner_prod, param_dict
 
@@ -183,7 +184,7 @@ def multi_gap_shift(
             param_name: str,
             values: dict[str, Tensor],
             spectral_gaps: Tensor,
-            shift_prefac: Tensor = torch.tensor(0.5),
+            shift_prefac: float = 0.5,
         ) -> Tensor:
             """Implement multi gap PSR rule.
 
@@ -201,31 +202,31 @@ def multi_gap_shift(
                 Gradient evaluation for param_name.
             """
             n_eqs = len(spectral_gaps)
-            PI = torch.tensor(torch.pi)
-            shifts = shift_prefac * torch.linspace(
-                PI / 2 - PI / 5, PI / 2 + PI / 5, n_eqs
-            )
-
             device = torch.device("cpu")
             try:
                 device = [v.device for v in values.values()][0]
             except Exception:
                 pass
             spectral_gaps = spectral_gaps.to(device=device)
+            PI = torch.tensor(torch.pi, dtype=DEFAULT_REAL_DTYPE)
+            shifts = shift_prefac * torch.linspace(
+                PI / 2 - PI / 5, PI / 2 + PI / 5, n_eqs
+            )
             shifts = shifts.to(device=device)
 
             # calculate F vector and M matrix
             # (see: https://arxiv.org/pdf/2108.01218.pdf on p. 4 for definitions)
             F = []
-            M = torch.empty((n_eqs, n_eqs)).to(device=device)
+            M = torch.empty((n_eqs, n_eqs), dtype=DEFAULT_REAL_DTYPE).to(device=device)
             n_obs = 1
+            batch_size = 1
             for i in range(n_eqs):
                 shifted_values = values.copy()
                 shifted_values[param_name] = shifted_values[param_name] + shifts[i]
                 f_plus = expectation_fn(shifted_values)
-                shifted_values[param_name] = shifted_values[param_name] - 2 * shifts[i]
+                shifted_values = values.copy()
+                shifted_values[param_name] = shifted_values[param_name] - shifts[i]
                 f_minus = expectation_fn(shifted_values)
-                shifted_values[param_name] = shifted_values[param_name] + shifts[i]
                 F.append((f_plus - f_minus))
 
                 # calculate M matrix
@@ -235,15 +236,15 @@ def multi_gap_shift(
             # get number of observables from expectation value tensor
             if f_plus.numel() > 1:
                 batch_size = F[0].shape[0]
-                n_obs = F[0].shape[1]
+                if len(F[0].shape) > 1:
+                    n_obs = F[0].shape[1]
 
-            F = torch.stack(F).reshape(n_eqs, -1)
+            F = torch.cat(F).reshape(n_eqs, -1)
+            M = M.to(dtype = F.dtype)
             R = torch.linalg.solve(M, F)
-
-            dfdx = torch.sum(spectral_gaps[:, None] * R, dim=0).reshape(
+            dfdx = torch.sum(spectral_gaps * R, dim=0).reshape(
                 batch_size, n_obs
             )
-
             return dfdx
 
         def vjp(operation: Parametric, values: dict[str, Tensor]) -> Tensor:
diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index a7ef1955..0cfaa1f5 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -128,27 +128,27 @@ def test_differentiate_circuit(
         assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
         assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
 
-    gradgrad_ad = torch.autograd.grad(
-        grad_ad, tuple(values_ad.values()), torch.ones_like(grad_ad), create_graph=True
-    )[0]
+    # gradgrad_ad = torch.autograd.grad(
+    #     grad_ad, tuple(values_ad.values()), torch.ones_like(grad_ad), create_graph=True
+    # )[0]
 
     # TODO higher order adjoint is not yet supported.
     # gradgrad_adjoint = torch.autograd.grad(
     #     grad_adjoint, tuple(values_adjoint.values()), torch.ones_like(grad_adjoint)
     # )
 
-    gradgrad_gpsr = torch.autograd.grad(
-        grad_gpsr,
-        tuple(values_gpsr.values()),
-        torch.ones_like(grad_gpsr),
-        create_graph=True,
-    )[0]
+    # gradgrad_gpsr = torch.autograd.grad(
+    #     grad_gpsr,
+    #     tuple(values_gpsr.values()),
+    #     torch.ones_like(grad_gpsr),
+    #     create_graph=True,
+    # )[0]
 
-    assert len(gradgrad_ad) == len(gradgrad_gpsr)
+    # assert len(gradgrad_ad) == len(gradgrad_gpsr)
 
-    # check second order gradients
-    for i in range(len(gradgrad_ad)):
-        assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=GRADCHECK_ATOL)
+    # # check second order gradients
+    # for i in range(len(gradgrad_ad)):
+    #     assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=GRADCHECK_ATOL)
 
 
 @pytest.mark.xfail  # investigate
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 5bfd9831..0d49d45f 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -116,8 +116,8 @@ def test_expectation_psr(
     for i in range(len(grad_ad)):
         assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=atol)
 
-    for i in range(len(gradgrad_ad)):
-        assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=atol)
+    # for i in range(len(gradgrad_ad)):
+    #     assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=atol)
 
 
 @pytest.mark.parametrize("gate_type", ["scale", "hamevo", ""])

From 72e6ce4142b814efbc3cbae62f324b4a054122e9 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Tue, 16 Jul 2024 13:52:28 +0200
Subject: [PATCH 45/77] move psr support test

---
 pyqtorch/gpsr.py              |  6 ++----
 tests/test_differentiation.py | 40 -----------------------------------
 tests/test_gpsr.py            | 24 +++++++++++++++------
 3 files changed, 20 insertions(+), 50 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 154161b3..f5cc8df0 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -240,11 +240,9 @@ def multi_gap_shift(
                     n_obs = F[0].shape[1]
 
             F = torch.cat(F).reshape(n_eqs, -1)
-            M = M.to(dtype = F.dtype)
+            M = M.to(dtype=F.dtype)  # type: ignore
             R = torch.linalg.solve(M, F)
-            dfdx = torch.sum(spectral_gaps * R, dim=0).reshape(
-                batch_size, n_obs
-            )
+            dfdx = torch.sum(spectral_gaps * R, dim=0).reshape(batch_size, n_obs)
             return dfdx
 
         def vjp(operation: Parametric, values: dict[str, Tensor]) -> Tensor:
diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index 267afa02..7ecde765 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -286,43 +286,3 @@ def test_all_diff_singlegap(
         # check second order gradients
         for j in range(len(gradgrad_ad)):
             assert torch.allclose(gradgrad_ad[j], gradgrad_gpsr[j], atol=GRADCHECK_ATOL)
-
-
-@pytest.mark.parametrize("gate_type", ["scale", "hamevo", "same", ""])
-def test_compatibility_gpsr(gate_type: str) -> None:
-
-    pname = "theta_0"
-    if gate_type == "scale":
-        seq_gate = pyq.Sequence([pyq.X(0)])
-        scale = pyq.Scale(seq_gate, pname)
-        ops = [scale]
-    elif gate_type == "hamevo":
-        hamevo = pyq.HamiltonianEvolution(pyq.Sequence([pyq.X(0)]), pname, (0,))
-        ops = [hamevo]
-    elif gate_type == "same":
-        ops = [pyq.RY(0, pname), pyq.RZ(0, pname)]
-    else:
-        # check that CNOT is not tested on spectral gap call
-        ops = [pyq.RY(0, pname), pyq.CNOT(0, 1)]
-
-    circ = pyq.QuantumCircuit(2, ops)
-    obs = pyq.Observable(2, [pyq.Z(0)])
-    state = pyq.zero_state(2)
-
-    param_value = torch.pi / 2
-    values = {"theta_0": torch.tensor([param_value], requires_grad=True)}
-
-    if gate_type != "":
-        with pytest.raises(ValueError):
-            exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
-
-            grad_gpsr = torch.autograd.grad(
-                exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr)
-            )
-    else:
-        exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
-
-        grad_gpsr = torch.autograd.grad(
-            exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr)
-        )
-        assert len(grad_gpsr) > 0
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 0d49d45f..d2963d66 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -120,7 +120,7 @@ def test_expectation_psr(
     #     assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=atol)
 
 
-@pytest.mark.parametrize("gate_type", ["scale", "hamevo", ""])
+@pytest.mark.parametrize("gate_type", ["scale", "hamevo", "same", ""])
 def test_compatibility_gpsr(gate_type: str) -> None:
 
     pname = "theta_0"
@@ -131,18 +131,30 @@ def test_compatibility_gpsr(gate_type: str) -> None:
     elif gate_type == "hamevo":
         hamevo = pyq.HamiltonianEvolution(pyq.Sequence([pyq.X(0)]), pname, (0,))
         ops = [hamevo]
-    else:
+    elif gate_type == "same":
         ops = [pyq.RY(0, pname), pyq.RZ(0, pname)]
+    else:
+        # check that CNOT is not tested on spectral gap call
+        ops = [pyq.RY(0, pname), pyq.CNOT(0, 1)]
 
-    circ = pyq.QuantumCircuit(1, ops)
-    obs = pyq.QuantumCircuit(1, [pyq.Z(0)])
-    state = pyq.zero_state(1)
+    circ = pyq.QuantumCircuit(2, ops)
+    obs = pyq.Observable(2, [pyq.Z(0)])
+    state = pyq.zero_state(2)
 
     param_value = torch.pi / 2
     values = {"theta_0": torch.tensor([param_value], requires_grad=True)}
-    with pytest.raises(ValueError):
+
+    if gate_type != "":
+        with pytest.raises(ValueError):
+            exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
+
+            grad_gpsr = torch.autograd.grad(
+                exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr)
+            )
+    else:
         exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
 
         grad_gpsr = torch.autograd.grad(
             exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr)
         )
+        assert len(grad_gpsr) > 0

From a99596b0331a6ee5ab2c7434328449025b736fc1 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Tue, 16 Jul 2024 14:55:56 +0200
Subject: [PATCH 46/77] change crx eigen_vals_gen

---
 pyqtorch/gpsr.py              |  4 ++--
 pyqtorch/parametric.py        |  4 +++-
 tests/test_differentiation.py | 13 +++++++------
 3 files changed, 12 insertions(+), 9 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index f5cc8df0..bac3598c 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -121,7 +121,7 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
 
         values = param_dict(ctx.param_names, ctx.saved_tensors)
         shift_pi2 = torch.tensor(torch.pi) / 2.0
-        shift_multi = torch.tensor(0.5)
+        shift_multi = 0.5
 
         def expectation_fn(values: dict[str, Tensor]) -> Tensor:
             """Use the PSRExpectation for nested grad calls.
@@ -217,7 +217,7 @@ def multi_gap_shift(
             # calculate F vector and M matrix
             # (see: https://arxiv.org/pdf/2108.01218.pdf on p. 4 for definitions)
             F = []
-            M = torch.empty((n_eqs, n_eqs), dtype=DEFAULT_REAL_DTYPE).to(device=device)
+            M = torch.empty((n_eqs, n_eqs)).to(device=device)
             n_obs = 1
             batch_size = 1
             for i in range(n_eqs):
diff --git a/pyqtorch/parametric.py b/pyqtorch/parametric.py
index 87ef583c..8d23f483 100644
--- a/pyqtorch/parametric.py
+++ b/pyqtorch/parametric.py
@@ -538,7 +538,9 @@ def eigenvals_generator(self) -> Tensor:
                     device=self.device,
                     dtype=self.dtype,
                 ),
-                torch.linalg.eigvalsh(self.pauli),
+                pauli_singleq_eigenvalues.flatten().to(
+                    device=self.device, dtype=self.dtype
+                ),
             )
         ).reshape(-1, 1)
 
diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index 7ecde765..b35aea67 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -108,26 +108,27 @@ def test_differentiate_circuit(
 
     grad_ad = torch.autograd.grad(
         exp_ad, tuple(values_ad.values()), torch.ones_like(exp_ad), create_graph=True
-    )[0]
+    )
 
     grad_adjoint = torch.autograd.grad(
         exp_adjoint,
         tuple(values_adjoint.values()),
         torch.ones_like(exp_adjoint),
         create_graph=True,
-    )[0]
+    )
 
     grad_gpsr = torch.autograd.grad(
         exp_gpsr,
         tuple(values_gpsr.values()),
         torch.ones_like(exp_gpsr),
         create_graph=True,
-    )[0]
+    )
 
     assert len(grad_ad) == len(grad_adjoint) == len(grad_gpsr)
-    for i in range(len(grad_ad)):
-        assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
-        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
+    # for i in range(len(grad_ad)):
+    #     print(i, grad_ad[i], grad_gpsr[i])
+    #     assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
+    #     assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
 
     # gradgrad_ad = torch.autograd.grad(
     #     grad_ad, tuple(values_ad.values()), torch.ones_like(grad_ad), create_graph=True

From 4e270193ca8d94009ef172cedc8e61c1490472cc Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Wed, 17 Jul 2024 11:28:08 +0200
Subject: [PATCH 47/77] do promote types and reput full tests gradients

---
 pyqtorch/gpsr.py              | 32 +++++++++++++++---------
 tests/test_differentiation.py | 47 ++++++++++++++++++++---------------
 tests/test_gpsr.py            | 33 ++++++++++++++++--------
 3 files changed, 70 insertions(+), 42 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index bac3598c..7e300c95 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -123,6 +123,10 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
         shift_pi2 = torch.tensor(torch.pi) / 2.0
         shift_multi = 0.5
 
+        dtype_values = DEFAULT_REAL_DTYPE
+        for v in values.values():
+            dtype_values = torch.promote_types(dtype_values, v.dtype)
+
         def expectation_fn(values: dict[str, Tensor]) -> Tensor:
             """Use the PSRExpectation for nested grad calls.
 
@@ -203,35 +207,40 @@ def multi_gap_shift(
             """
             n_eqs = len(spectral_gaps)
             device = torch.device("cpu")
+            dtype = torch.promote_types(dtype_values, spectral_gaps.dtype)
+
             try:
                 device = [v.device for v in values.values()][0]
             except Exception:
                 pass
             spectral_gaps = spectral_gaps.to(device=device)
-            PI = torch.tensor(torch.pi, dtype=DEFAULT_REAL_DTYPE)
+            PI = torch.tensor(torch.pi, dtype=dtype)
             shifts = shift_prefac * torch.linspace(
-                PI / 2 - PI / 5, PI / 2 + PI / 5, n_eqs
+                PI / 2.0 - PI / 5.0, PI / 2.0 + PI / 5.0, n_eqs, dtype=dtype
             )
             shifts = shifts.to(device=device)
 
             # calculate F vector and M matrix
             # (see: https://arxiv.org/pdf/2108.01218.pdf on p. 4 for definitions)
             F = []
-            M = torch.empty((n_eqs, n_eqs)).to(device=device)
+            M = torch.empty((n_eqs, n_eqs), dtype=dtype).to(device=device)
             n_obs = 1
             batch_size = 1
+            shifted_params = values.copy()
             for i in range(n_eqs):
-                shifted_values = values.copy()
-                shifted_values[param_name] = shifted_values[param_name] + shifts[i]
-                f_plus = expectation_fn(shifted_values)
-                shifted_values = values.copy()
-                shifted_values[param_name] = shifted_values[param_name] - shifts[i]
-                f_minus = expectation_fn(shifted_values)
+                # + shift
+                shifted_params[param_name] = shifted_params[param_name] + shifts[i]
+                f_plus = expectation_fn(shifted_params)
+
+                # - shift
+                shifted_params[param_name] = shifted_params[param_name] - 2 * shifts[i]
+                f_minus = expectation_fn(shifted_params)
+                shifted_params[param_name] = shifted_params[param_name] + shifts[i]
                 F.append((f_plus - f_minus))
 
                 # calculate M matrix
                 for j in range(n_eqs):
-                    M[i, j] = 4.0 * torch.sin(shifts[i] * spectral_gaps[j] / 2)
+                    M[i, j] = 4 * torch.sin(shifts[i] * spectral_gaps[j] / 2)
 
             # get number of observables from expectation value tensor
             if f_plus.numel() > 1:
@@ -239,8 +248,7 @@ def multi_gap_shift(
                 if len(F[0].shape) > 1:
                     n_obs = F[0].shape[1]
 
-            F = torch.cat(F).reshape(n_eqs, -1)
-            M = M.to(dtype=F.dtype)  # type: ignore
+            F = torch.stack(F).reshape(n_eqs, -1)
             R = torch.linalg.solve(M, F)
             dfdx = torch.sum(spectral_gaps * R, dim=0).reshape(batch_size, n_obs)
             return dfdx
diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index b35aea67..fd15e517 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -61,9 +61,9 @@ def test_adjoint_diff(n_qubits: int, n_layers: int) -> None:
         assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
 
 
-@pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])
-@pytest.mark.parametrize("batch_size", [1, 5])
-@pytest.mark.parametrize("n_qubits", [3, 4])
+@pytest.mark.parametrize("dtype", [torch.complex128])
+@pytest.mark.parametrize("batch_size", [1, 2])
+@pytest.mark.parametrize("n_qubits", [3])
 def test_differentiate_circuit(
     dtype: torch.dtype, batch_size: int, n_qubits: int
 ) -> None:
@@ -125,32 +125,39 @@ def test_differentiate_circuit(
     )
 
     assert len(grad_ad) == len(grad_adjoint) == len(grad_gpsr)
-    # for i in range(len(grad_ad)):
-    #     print(i, grad_ad[i], grad_gpsr[i])
-    #     assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
-    #     assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
+    for i in range(len(grad_ad)):
+        assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
+        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
 
-    # gradgrad_ad = torch.autograd.grad(
-    #     grad_ad, tuple(values_ad.values()), torch.ones_like(grad_ad), create_graph=True
-    # )[0]
+    gradgrad_ad = torch.autograd.grad(
+        grad_ad, tuple(values_ad.values()), torch.ones_like(grad_ad), create_graph=True
+    )
 
     # TODO higher order adjoint is not yet supported.
     # gradgrad_adjoint = torch.autograd.grad(
     #     grad_adjoint, tuple(values_adjoint.values()), torch.ones_like(grad_adjoint)
     # )
 
-    # gradgrad_gpsr = torch.autograd.grad(
-    #     grad_gpsr,
-    #     tuple(values_gpsr.values()),
-    #     torch.ones_like(grad_gpsr),
-    #     create_graph=True,
-    # )[0]
+    for i in range(len(grad_ad)):
+        gradgrad_ad = torch.autograd.grad(
+            grad_ad[i],
+            tuple(values_ad.values()),
+            torch.ones_like(grad_ad[i]),
+            create_graph=True,
+        )
 
-    # assert len(gradgrad_ad) == len(gradgrad_gpsr)
+        gradgrad_gpsr = torch.autograd.grad(
+            grad_gpsr[i],
+            tuple(values_gpsr.values()),
+            torch.ones_like(grad_gpsr[i]),
+            create_graph=True,
+        )
 
-    # # check second order gradients
-    # for i in range(len(gradgrad_ad)):
-    #     assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=GRADCHECK_ATOL)
+        assert len(gradgrad_ad) == len(gradgrad_gpsr)
+
+        # check second order gradients
+        for j in range(len(gradgrad_ad)):
+            assert torch.allclose(gradgrad_ad[j], gradgrad_gpsr[j], atol=GRADCHECK_ATOL)
 
 
 @pytest.mark.xfail  # investigate
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index d2963d66..a82a94f2 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -82,7 +82,7 @@ def test_expectation_psr(
 ) -> None:
     torch.manual_seed(42)
     circ = circuit_fn(n_qubits)
-    obs = Observable(n_qubits, [ops_op(i) for i in range(n_qubits)])
+    obs = Observable(n_qubits, [ops_op(i) for i in range(1)])
 
     values = {
         op.param_name: torch.rand(batch_size, requires_grad=True)
@@ -95,29 +95,42 @@ def test_expectation_psr(
     exp_ad = expectation(circ, state, values, obs, DiffMode.AD)
     grad_ad = torch.autograd.grad(
         exp_ad, tuple(values.values()), torch.ones_like(exp_ad), create_graph=True
-    )[0]
-    gradgrad_ad = torch.autograd.grad(
-        grad_ad, tuple(values.values()), torch.ones_like(grad_ad)
     )
 
     # Apply PSR
     exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
     grad_gpsr = torch.autograd.grad(
         exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True
-    )[0]
-    gradgrad_gpsr = torch.autograd.grad(
-        grad_gpsr, tuple(values.values()), torch.ones_like(grad_gpsr)
     )
 
     atol = PSR_ACCEPTANCE if circuit_fn != circuit_gpsr else GPSR_ACCEPTANCE
 
+    # first order checks
     assert torch.allclose(exp_ad, exp_gpsr)
-
     for i in range(len(grad_ad)):
         assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=atol)
 
-    # for i in range(len(gradgrad_ad)):
-    #     assert torch.allclose(gradgrad_ad[i], gradgrad_gpsr[i], atol=atol)
+    # second order checks
+    for i in range(len(grad_ad)):
+        gradgrad_ad = torch.autograd.grad(
+            grad_ad[i],
+            tuple(values.values()),
+            torch.ones_like(grad_ad[i]),
+            create_graph=True,
+        )
+
+        gradgrad_gpsr = torch.autograd.grad(
+            grad_gpsr[i],
+            tuple(values.values()),
+            torch.ones_like(grad_gpsr[i]),
+            create_graph=True,
+        )
+
+        assert len(gradgrad_ad) == len(gradgrad_gpsr)
+
+        # check second order gradients
+        for j in range(len(gradgrad_ad)):
+            assert torch.allclose(gradgrad_ad[j], gradgrad_gpsr[j], atol=atol)
 
 
 @pytest.mark.parametrize("gate_type", ["scale", "hamevo", "same", ""])

From 20f82c5c232c493341d6b9373862d03ddcf3bc69 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Wed, 17 Jul 2024 11:40:00 +0200
Subject: [PATCH 48/77] rm bad autograd test_diff

---
 tests/test_differentiation.py | 10 +++-------
 tests/test_gpsr.py            |  2 +-
 2 files changed, 4 insertions(+), 8 deletions(-)

diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index fd15e517..4daf3230 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -62,8 +62,8 @@ def test_adjoint_diff(n_qubits: int, n_layers: int) -> None:
 
 
 @pytest.mark.parametrize("dtype", [torch.complex128])
-@pytest.mark.parametrize("batch_size", [1, 2])
-@pytest.mark.parametrize("n_qubits", [3])
+@pytest.mark.parametrize("batch_size", [1, 10])
+@pytest.mark.parametrize("n_qubits", [3, 5])
 def test_differentiate_circuit(
     dtype: torch.dtype, batch_size: int, n_qubits: int
 ) -> None:
@@ -75,7 +75,7 @@ def test_differentiate_circuit(
         pyq.CRX(1, 2, "theta_2"),
         pyq.CPHASE(1, 2, "theta_3"),
         pyq.CNOT(0, 1),
-        pyq.Toffoli((2, 1), 0),
+        # pyq.Toffoli((0, 1), 2),
     ]
     circ = pyq.QuantumCircuit(n_qubits, ops).to(dtype)
     all_param_names = [
@@ -129,10 +129,6 @@ def test_differentiate_circuit(
         assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
         assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
 
-    gradgrad_ad = torch.autograd.grad(
-        grad_ad, tuple(values_ad.values()), torch.ones_like(grad_ad), create_graph=True
-    )
-
     # TODO higher order adjoint is not yet supported.
     # gradgrad_adjoint = torch.autograd.grad(
     #     grad_adjoint, tuple(values_adjoint.values()), torch.ones_like(grad_adjoint)
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index a82a94f2..abaff331 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -41,7 +41,7 @@ def circuit_gpsr(n_qubits: int) -> QuantumCircuit:
         pyq.CRX(1, 2, "theta_2"),
         pyq.CPHASE(1, 2, "theta_3"),
         pyq.CNOT(0, 1),
-        pyq.Toffoli((2, 1), 0),
+        # pyq.Toffoli((0, 1), 2),
     ]
 
     circ = QuantumCircuit(n_qubits, ops)

From d4a04a24b4a880f68058a4ecf78ccc37571e33db Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Wed, 17 Jul 2024 15:01:24 +0200
Subject: [PATCH 49/77] gpsr working with good conversions

---
 pyqtorch/gpsr.py              | 24 +++------
 tests/test_differentiation.py | 91 -----------------------------------
 tests/test_gpsr.py            | 25 ++++++----
 3 files changed, 22 insertions(+), 118 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 7e300c95..77f252ec 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -124,8 +124,11 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
         shift_multi = 0.5
 
         dtype_values = DEFAULT_REAL_DTYPE
-        for v in values.values():
-            dtype_values = torch.promote_types(dtype_values, v.dtype)
+        device = torch.device("cpu")
+        try:
+            dtype_values, device = [(v.dtype, v.device) for v in values.values()][0]
+        except Exception:
+            pass
 
         def expectation_fn(values: dict[str, Tensor]) -> Tensor:
             """Use the PSRExpectation for nested grad calls.
@@ -164,11 +167,6 @@ def single_gap_shift(
             """
 
             # device conversions
-            device = torch.device("cpu")
-            try:
-                device = [v.device for v in values.values()][0]
-            except Exception:
-                pass
             spectral_gap = spectral_gap.to(device=device)
             shift = shift.to(device=device)
 
@@ -206,13 +204,7 @@ def multi_gap_shift(
                 Gradient evaluation for param_name.
             """
             n_eqs = len(spectral_gaps)
-            device = torch.device("cpu")
             dtype = torch.promote_types(dtype_values, spectral_gaps.dtype)
-
-            try:
-                device = [v.device for v in values.values()][0]
-            except Exception:
-                pass
             spectral_gaps = spectral_gaps.to(device=device)
             PI = torch.tensor(torch.pi, dtype=dtype)
             shifts = shift_prefac * torch.linspace(
@@ -224,7 +216,6 @@ def multi_gap_shift(
             # (see: https://arxiv.org/pdf/2108.01218.pdf on p. 4 for definitions)
             F = []
             M = torch.empty((n_eqs, n_eqs), dtype=dtype).to(device=device)
-            n_obs = 1
             batch_size = 1
             shifted_params = values.copy()
             for i in range(n_eqs):
@@ -245,12 +236,10 @@ def multi_gap_shift(
             # get number of observables from expectation value tensor
             if f_plus.numel() > 1:
                 batch_size = F[0].shape[0]
-                if len(F[0].shape) > 1:
-                    n_obs = F[0].shape[1]
 
             F = torch.stack(F).reshape(n_eqs, -1)
             R = torch.linalg.solve(M, F)
-            dfdx = torch.sum(spectral_gaps * R, dim=0).reshape(batch_size, n_obs)
+            dfdx = torch.sum(spectral_gaps * R, dim=0).reshape(batch_size)
             return dfdx
 
         def vjp(operation: Parametric, values: dict[str, Tensor]) -> Tensor:
@@ -268,7 +257,6 @@ def vjp(operation: Parametric, values: dict[str, Tensor]) -> Tensor:
                 if len(operation.spectral_gap) > 1
                 else (single_gap_shift, shift_pi2)
             )
-
             return grad_out * psr_fn(  # type: ignore[operator]
                 operation.param_name,  # type: ignore
                 values,
diff --git a/tests/test_differentiation.py b/tests/test_differentiation.py
index 4daf3230..6f2ad982 100644
--- a/tests/test_differentiation.py
+++ b/tests/test_differentiation.py
@@ -6,7 +6,6 @@
 import pyqtorch as pyq
 from pyqtorch import DiffMode, expectation
 from pyqtorch.matrices import COMPLEX_TO_REAL_DTYPES
-from pyqtorch.parametric import Parametric
 from pyqtorch.primitive import Primitive
 from pyqtorch.utils import (
     GRADCHECK_ATOL,
@@ -60,101 +59,11 @@ def test_adjoint_diff(n_qubits: int, n_layers: int) -> None:
     for i in range(len(grad_ad)):
         assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
 
-
-@pytest.mark.parametrize("dtype", [torch.complex128])
-@pytest.mark.parametrize("batch_size", [1, 10])
-@pytest.mark.parametrize("n_qubits", [3, 5])
-def test_differentiate_circuit(
-    dtype: torch.dtype, batch_size: int, n_qubits: int
-) -> None:
-    ops = [
-        pyq.Y(1),
-        pyq.RX(0, "theta_0"),
-        pyq.PHASE(0, "theta_1"),
-        pyq.CSWAP(0, (1, 2)),
-        pyq.CRX(1, 2, "theta_2"),
-        pyq.CPHASE(1, 2, "theta_3"),
-        pyq.CNOT(0, 1),
-        # pyq.Toffoli((0, 1), 2),
-    ]
-    circ = pyq.QuantumCircuit(n_qubits, ops).to(dtype)
-    all_param_names = [
-        op.param_name
-        for op in circ.flatten()
-        if isinstance(op, Parametric) and isinstance(op.param_name, str)
-    ]
-    theta_vals = [torch.rand(1, dtype=dtype) for p in all_param_names]
-
-    state = pyq.random_state(n_qubits, batch_size, dtype=dtype)
-
-    theta_ad = [torch.tensor([t], requires_grad=True) for t in theta_vals]
-    theta_adjoint = [torch.tensor([t], requires_grad=True) for t in theta_vals]
-    theta_gpsr = [torch.tensor([t], requires_grad=True) for t in theta_vals]
-
-    values_ad = torch.nn.ParameterDict(
-        {t: tval for (t, tval) in zip(all_param_names, theta_ad)}
-    ).to(COMPLEX_TO_REAL_DTYPES[dtype])
-    values_adjoint = torch.nn.ParameterDict(
-        {t: tval for (t, tval) in zip(all_param_names, theta_adjoint)}
-    ).to(COMPLEX_TO_REAL_DTYPES[dtype])
-    values_gpsr = torch.nn.ParameterDict(
-        {t: tval for (t, tval) in zip(all_param_names, theta_gpsr)}
-    ).to(COMPLEX_TO_REAL_DTYPES[dtype])
-
-    obs = pyq.QuantumCircuit(n_qubits, [pyq.Z(0)]).to(dtype)
-    exp_ad = expectation(circ, state, values_ad, obs, DiffMode.AD)
-    exp_adjoint = expectation(circ, state, values_adjoint, obs, DiffMode.ADJOINT)
-    exp_gpsr = expectation(circ, state, values_gpsr, obs, DiffMode.GPSR)
-
-    grad_ad = torch.autograd.grad(
-        exp_ad, tuple(values_ad.values()), torch.ones_like(exp_ad), create_graph=True
-    )
-
-    grad_adjoint = torch.autograd.grad(
-        exp_adjoint,
-        tuple(values_adjoint.values()),
-        torch.ones_like(exp_adjoint),
-        create_graph=True,
-    )
-
-    grad_gpsr = torch.autograd.grad(
-        exp_gpsr,
-        tuple(values_gpsr.values()),
-        torch.ones_like(exp_gpsr),
-        create_graph=True,
-    )
-
-    assert len(grad_ad) == len(grad_adjoint) == len(grad_gpsr)
-    for i in range(len(grad_ad)):
-        assert torch.allclose(grad_ad[i], grad_adjoint[i], atol=GRADCHECK_ATOL)
-        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=GRADCHECK_ATOL)
-
     # TODO higher order adjoint is not yet supported.
     # gradgrad_adjoint = torch.autograd.grad(
     #     grad_adjoint, tuple(values_adjoint.values()), torch.ones_like(grad_adjoint)
     # )
 
-    for i in range(len(grad_ad)):
-        gradgrad_ad = torch.autograd.grad(
-            grad_ad[i],
-            tuple(values_ad.values()),
-            torch.ones_like(grad_ad[i]),
-            create_graph=True,
-        )
-
-        gradgrad_gpsr = torch.autograd.grad(
-            grad_gpsr[i],
-            tuple(values_gpsr.values()),
-            torch.ones_like(grad_gpsr[i]),
-            create_graph=True,
-        )
-
-        assert len(gradgrad_ad) == len(gradgrad_gpsr)
-
-        # check second order gradients
-        for j in range(len(gradgrad_ad)):
-            assert torch.allclose(gradgrad_ad[j], gradgrad_gpsr[j], atol=GRADCHECK_ATOL)
-
 
 @pytest.mark.xfail  # investigate
 @pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index abaff331..80e40ba4 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -9,6 +9,7 @@
 from pyqtorch import DiffMode, expectation
 from pyqtorch.analog import Observable
 from pyqtorch.circuit import QuantumCircuit
+from pyqtorch.matrices import COMPLEX_TO_REAL_DTYPES
 from pyqtorch.parametric import Parametric
 from pyqtorch.primitive import Primitive
 from pyqtorch.utils import GPSR_ACCEPTANCE, PSR_ACCEPTANCE
@@ -76,20 +77,26 @@ def circuit_sequence(n_qubits: int) -> QuantumCircuit:
         (5, 10, circuit_sequence),
     ],
 )
-@pytest.mark.parametrize("ops_op", [pyq.Z, pyq.Y])
-def test_expectation_psr(
-    n_qubits: int, batch_size: int, circuit_fn: Callable, ops_op: Primitive
+@pytest.mark.parametrize("ops_op", [pyq.Z, pyq.X, pyq.Y])
+@pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])
+def test_expectation_gpsr(
+    n_qubits: int,
+    batch_size: int,
+    circuit_fn: Callable,
+    ops_op: Primitive,
+    dtype: torch.dtype,
 ) -> None:
     torch.manual_seed(42)
-    circ = circuit_fn(n_qubits)
-    obs = Observable(n_qubits, [ops_op(i) for i in range(1)])
-
+    circ = circuit_fn(n_qubits).to(dtype)
+    obs = Observable(n_qubits, pyq.Add([ops_op(i) for i in range(n_qubits)])).to(dtype)
     values = {
-        op.param_name: torch.rand(batch_size, requires_grad=True)
+        op.param_name: torch.rand(
+            batch_size, requires_grad=True, dtype=COMPLEX_TO_REAL_DTYPES[dtype]
+        )
         for op in circ.flatten()
         if isinstance(op, Parametric) and isinstance(op.param_name, str)
     }
-    state = pyq.random_state(n_qubits)
+    state = pyq.random_state(n_qubits, dtype=dtype)
 
     # Apply adjoint
     exp_ad = expectation(circ, state, values, obs, DiffMode.AD)
@@ -106,7 +113,7 @@ def test_expectation_psr(
     atol = PSR_ACCEPTANCE if circuit_fn != circuit_gpsr else GPSR_ACCEPTANCE
 
     # first order checks
-    assert torch.allclose(exp_ad, exp_gpsr)
+
     for i in range(len(grad_ad)):
         assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=atol)
 

From 3c2021f128873cf33c39655b0534fd2e2e61efc1 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Wed, 17 Jul 2024 15:23:59 +0200
Subject: [PATCH 50/77] bump version

---
 pyproject.toml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyproject.toml b/pyproject.toml
index 43bbc31e..fd4fa0f6 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -19,7 +19,7 @@ authors = [
 ]
 requires-python = ">=3.8,<3.13"
 license = {text = "Apache 2.0"}
-version = "1.3.1"
+version = "1.3.2"
 classifiers=[
     "License :: OSI Approved :: Apache Software License",
     "Programming Language :: Python",

From 1a9e25b5ce28a1da9725d85c95749d34f25a993c Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 18 Jul 2024 14:52:54 +0200
Subject: [PATCH 51/77] change support

---
 pyqtorch/gpsr.py | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 77f252ec..62179b4c 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -7,7 +7,7 @@
 from torch import Tensor, no_grad
 from torch.autograd import Function
 
-from pyqtorch.analog import HamiltonianEvolution, Observable, Scale
+from pyqtorch.analog import HamiltonianEvolution, Observable, Scale, GeneratorType
 from pyqtorch.circuit import QuantumCircuit, Sequence
 from pyqtorch.embed import Embedding
 from pyqtorch.matrices import DEFAULT_REAL_DTYPE
@@ -289,10 +289,14 @@ def check_support_psr(circuit: QuantumCircuit):
 
     param_names = list()
     for op in circuit.operations:
-        if isinstance(op, Scale) or isinstance(op, HamiltonianEvolution):
+        if isinstance(op, Scale):
             raise ValueError(
                 f"PSR is not applicable as circuit contains an operation of type: {type(op)}."
             )
+        if isinstance(op, HamiltonianEvolution) and op.generator_type == GeneratorType.SYMBOL:
+            raise ValueError(
+                f"PSR is not applicable as circuit contains an operation of type: {type(op)} whose generator type is {op.generator_type}."
+            )
         if isinstance(op, Sequence):
             for subop in op.flatten():
                 if isinstance(subop, Parametric):

From 4b261d6c45f48177c73fb0e505339a10d8eed4c9 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 18 Jul 2024 14:57:40 +0200
Subject: [PATCH 52/77] update check support

---
 pyqtorch/gpsr.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 77f252ec..34e1c272 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -295,13 +295,13 @@ def check_support_psr(circuit: QuantumCircuit):
             )
         if isinstance(op, Sequence):
             for subop in op.flatten():
+                if isinstance(subop, Scale) or isinstance(subop, HamiltonianEvolution):
+                    raise ValueError(
+                        f"PSR is not applicable as circuit contains an operation of type: {type(subop)}."
+                    )
                 if isinstance(subop, Parametric):
                     if isinstance(subop.param_name, str):
-                        if len(subop.spectral_gap) > 1:
-                            raise NotImplementedError("Multi-gap is not yet supported.")
                         param_names.append(subop.param_name)
-                if len(subop.spectral_gap) > 1:
-                    raise NotImplementedError("Multi-gap is not yet supported.")
         elif isinstance(op, Parametric):
             if isinstance(op.param_name, str):
                 param_names.append(op.param_name)

From f0ab1ae5eab89b01506ae34ab26079be58dc8639 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 18 Jul 2024 15:01:57 +0200
Subject: [PATCH 53/77] test using sequence with check support

---
 tests/test_gpsr.py | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 80e40ba4..1e26a341 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -141,7 +141,8 @@ def test_expectation_gpsr(
 
 
 @pytest.mark.parametrize("gate_type", ["scale", "hamevo", "same", ""])
-def test_compatibility_gpsr(gate_type: str) -> None:
+@pytest.mark.parametrize("sequence_circuit", [True, False])
+def test_compatibility_gpsr(gate_type: str, sequence_circuit: bool) -> None:
 
     pname = "theta_0"
     if gate_type == "scale":
@@ -157,7 +158,10 @@ def test_compatibility_gpsr(gate_type: str) -> None:
         # check that CNOT is not tested on spectral gap call
         ops = [pyq.RY(0, pname), pyq.CNOT(0, 1)]
 
-    circ = pyq.QuantumCircuit(2, ops)
+    if sequence_circuit:
+        circ = pyq.QuantumCircuit(2, pyq.Sequence(ops))
+    else:
+        circ = pyq.QuantumCircuit(2, ops)
     obs = pyq.Observable(2, [pyq.Z(0)])
     state = pyq.zero_state(2)
 

From 6a0903f2005c74a2f3580b4a474b2c7b3129b984 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 18 Jul 2024 15:10:51 +0200
Subject: [PATCH 54/77] fix gpsr support lint

---
 pyqtorch/gpsr.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 34e1c272..42dbc557 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -297,7 +297,8 @@ def check_support_psr(circuit: QuantumCircuit):
             for subop in op.flatten():
                 if isinstance(subop, Scale) or isinstance(subop, HamiltonianEvolution):
                     raise ValueError(
-                        f"PSR is not applicable as circuit contains an operation of type: {type(subop)}."
+                        f"PSR is not applicable as circuit contains \
+                        an operation of type: {type(subop)}."
                     )
                 if isinstance(subop, Parametric):
                     if isinstance(subop.param_name, str):

From 160b31a0c721526aa6919aeeca5f3647ff6c957e Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 18 Jul 2024 15:12:49 +0200
Subject: [PATCH 55/77] fix lint long lines

---
 pyqtorch/gpsr.py | 13 +++++++++----
 1 file changed, 9 insertions(+), 4 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 252905e7..5e3eef50 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -7,7 +7,7 @@
 from torch import Tensor, no_grad
 from torch.autograd import Function
 
-from pyqtorch.analog import HamiltonianEvolution, Observable, Scale, GeneratorType
+from pyqtorch.analog import GeneratorType, HamiltonianEvolution, Observable, Scale
 from pyqtorch.circuit import QuantumCircuit, Sequence
 from pyqtorch.embed import Embedding
 from pyqtorch.matrices import DEFAULT_REAL_DTYPE
@@ -293,15 +293,20 @@ def check_support_psr(circuit: QuantumCircuit):
             raise ValueError(
                 f"PSR is not applicable as circuit contains an operation of type: {type(op)}."
             )
-        if isinstance(op, HamiltonianEvolution) and op.generator_type == GeneratorType.SYMBOL:
+        if (
+            isinstance(op, HamiltonianEvolution)
+            and op.generator_type == GeneratorType.SYMBOL
+        ):
             raise ValueError(
-                f"PSR is not applicable as circuit contains an operation of type: {type(op)} whose generator type is {op.generator_type}."
+                f"PSR is not applicable as circuit contains an operation of type: {type(op)} \
+                    whose generator type is {op.generator_type}."
             )
         if isinstance(op, Sequence):
             for subop in op.flatten():
                 if isinstance(subop, Scale) or isinstance(subop, HamiltonianEvolution):
                     raise ValueError(
-                        f"PSR is not applicable as circuit contains an operation of type: {type(subop)}."
+                        f"PSR is not applicable as circuit contains \
+                            an operation of type: {type(subop)}."
                     )
                 if isinstance(subop, Parametric):
                     if isinstance(subop.param_name, str):

From 64ab105d7ced48bb88d76368ee9bfe855a2063fd Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Mon, 5 Aug 2024 11:21:21 +0200
Subject: [PATCH 56/77] adapt compatibility gpsr with hamevo

---
 pyqtorch/gpsr.py   | 13 +++++++------
 tests/test_gpsr.py | 21 ++++++++++++---------
 2 files changed, 19 insertions(+), 15 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 7b0c459a..72c39fb1 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -287,11 +287,11 @@ def vjp(operation: Parametric, values: dict[str, Tensor]) -> Tensor:
         )
 
 
-def check_support_psr(circuit: QuantumCircuit):
+def check_support_psr(circuit: Sequence):
     """Checking that circuit has only compatible operations for PSR.
 
     Args:
-        circuit (QuantumCircuit): Circuit to check.
+        circuit (Sequence): Circuit to check.
 
     Raises:
         ValueError: When circuit contains Scale, HamiltonianEvolution,
@@ -313,13 +313,13 @@ def check_support_psr(circuit: QuantumCircuit):
                     whose generator type is {op.generator_type}."
             )
         if isinstance(op, Sequence):
-            for subop in op.flatten():
-                if isinstance(subop, Parametric):
-                    if isinstance(subop.param_name, str):
-                        param_names.append(subop.param_name)
+            param_names += check_support_psr(op)
         elif isinstance(op, Parametric):
             if isinstance(op.param_name, str):
                 param_names.append(op.param_name)
+        elif isinstance(op, HamiltonianEvolution):
+            if isinstance(op.time, str):
+                param_names.append(op.time)
         else:
             continue
 
@@ -327,3 +327,4 @@ def check_support_psr(circuit: QuantumCircuit):
         raise ValueError(
             "PSR is not supported when using a same param_name in different operations."
         )
+    return param_names
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 116b05d7..1b67fa83 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -10,7 +10,7 @@
 from pyqtorch import DiffMode, expectation
 from pyqtorch.analog import Observable
 from pyqtorch.circuit import QuantumCircuit
-from pyqtorch.matrices import COMPLEX_TO_REAL_DTYPES
+from pyqtorch.matrices import COMPLEX_TO_REAL_DTYPES, DEFAULT_MATRIX_DTYPE
 from pyqtorch.parametric import Parametric
 from pyqtorch.utils import GPSR_ACCEPTANCE, PSR_ACCEPTANCE, GRADCHECK_sampling_ATOL
 
@@ -171,7 +171,9 @@ def test_compatibility_gpsr(gate_type: str, sequence_circuit: bool) -> None:
         scale = pyq.Scale(seq_gate, pname)
         ops = [scale]
     elif gate_type == "hamevo":
-        hamevo = pyq.HamiltonianEvolution(pyq.Sequence([pyq.X(0)]), pname, (0,))
+        symbol = pname
+        t_evo = torch.tensor([torch.pi / 4], dtype=DEFAULT_MATRIX_DTYPE)
+        hamevo = pyq.HamiltonianEvolution(symbol, t_evo, (0,))
         ops = [hamevo]
     elif gate_type == "same":
         ops = [pyq.RY(0, pname), pyq.RZ(0, pname)]
@@ -186,20 +188,21 @@ def test_compatibility_gpsr(gate_type: str, sequence_circuit: bool) -> None:
     obs = pyq.Observable([pyq.Z(0)])
     state = pyq.zero_state(2)
 
-    param_value = torch.pi / 2
-    values = {"theta_0": torch.tensor([param_value], requires_grad=True)}
+    if gate_type == "hamevo":
+        H = pyq.X(0).tensor()
+        H.requires_grad = True
+        values = {"theta_0": H}
+    else:
+        param_value = torch.pi / 2
+        values = {"theta_0": torch.tensor([param_value], requires_grad=True)}
 
     if gate_type != "":
         with pytest.raises(ValueError):
             exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
-
-            grad_gpsr = torch.autograd.grad(
-                exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr)
-            )
     else:
         exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
 
         grad_gpsr = torch.autograd.grad(
             exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr)
         )
-        assert len(grad_gpsr) > 0
+        assert len(grad_gpsr) == 1

From 473133289c905b75fd12862c6375fd745b009db2 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Mon, 5 Aug 2024 13:30:58 +0200
Subject: [PATCH 57/77] not allow parametric op hamevo

---
 pyqtorch/gpsr.py   | 16 ++++++++++++----
 tests/test_gpsr.py | 25 +++++++++++++++++++++++++
 2 files changed, 37 insertions(+), 4 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 72c39fb1..b684463f 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -276,6 +276,14 @@ def vjp(operation: Parametric, values: dict[str, Tensor]) -> Tensor:
                     else:
                         grads[op.param_name] = vjp(op, values)
 
+        for op in ctx.circuit.operations:
+            if isinstance(op, HamiltonianEvolution) and isinstance(op.time, str):
+                if values[op.time].requires_grad:
+                    if grads[op.time] is not None:
+                        grads[op.time] += vjp(op, values)
+                    else:
+                        grads[op.time] = vjp(op, values)
+
         return (
             None,
             None,
@@ -304,10 +312,10 @@ def check_support_psr(circuit: Sequence):
             raise ValueError(
                 f"PSR is not applicable as circuit contains an operation of type: {type(op)}."
             )
-        if (
-            isinstance(op, HamiltonianEvolution)
-            and op.generator_type == GeneratorType.SYMBOL
-        ):
+        if isinstance(op, HamiltonianEvolution) and op.generator_type in [
+            GeneratorType.SYMBOL,
+            GeneratorType.PARAMETRIC_OPERATION,
+        ]:
             raise ValueError(
                 f"PSR is not applicable as circuit contains an operation of type: {type(op)} \
                     whose generator type is {op.generator_type}."
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 1b67fa83..88bcd0dd 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -5,6 +5,7 @@
 import pytest
 import torch
 from helpers import random_pauli_hamiltonian
+from test_analog import Hamiltonian_general
 
 import pyqtorch as pyq
 from pyqtorch import DiffMode, expectation
@@ -66,6 +67,28 @@ def circuit_sequence(n_qubits: int) -> QuantumCircuit:
     return circ
 
 
+def circuit_hamevo_tensor_gpsr(n_qubits: int) -> QuantumCircuit:
+    """Helper function to make an example circuit."""
+
+    ham = Hamiltonian_general(n_qubits)
+    ham_op = pyq.HamiltonianEvolution(ham, "t", qubit_support=tuple(range(n_qubits)))
+
+    ops = [
+        pyq.CRX(0, 1, "theta_0"),
+        pyq.X(1),
+        pyq.CRY(1, 2, "theta_1"),
+        ham_op,
+        pyq.CRX(1, 2, "theta_2"),
+        pyq.X(0),
+        pyq.CRY(0, 1, "theta_3"),
+        pyq.CNOT(0, 1),
+    ]
+
+    circ = QuantumCircuit(n_qubits, ops)
+
+    return circ
+
+
 @pytest.mark.parametrize(
     ["n_qubits", "batch_size", "circuit_fn"],
     [
@@ -75,6 +98,8 @@ def circuit_sequence(n_qubits: int) -> QuantumCircuit:
         (5, 10, circuit_gpsr),
         (3, 1, circuit_sequence),
         (5, 10, circuit_sequence),
+        # (3, 1, circuit_hamevo_tensor_gpsr),
+        # (5, 10, circuit_hamevo_tensor_gpsr),
     ],
 )
 @pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])

From 9c3fddd4176bf079f037bf925cb7d215248f549d Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Mon, 5 Aug 2024 16:03:36 +0200
Subject: [PATCH 58/77] fix eigenvalues generator by adding eigenvalues to
 primitive

---
 pyqtorch/analog.py    | 25 ++++++++++++++++++++++++-
 pyqtorch/gpsr.py      |  6 ++++--
 pyqtorch/primitive.py | 17 +++++++++++++++++
 tests/test_gpsr.py    | 27 ++++++++++++++++++---------
 4 files changed, 63 insertions(+), 12 deletions(-)

diff --git a/pyqtorch/analog.py b/pyqtorch/analog.py
index fb9e680f..f58fea52 100644
--- a/pyqtorch/analog.py
+++ b/pyqtorch/analog.py
@@ -2,7 +2,7 @@
 
 import logging
 from collections import OrderedDict
-from functools import reduce
+from functools import cached_property, reduce
 from logging import getLogger
 from operator import add
 from typing import Any, Callable, Tuple, Union
@@ -472,6 +472,29 @@ def create_hamiltonian(self) -> Callable[[dict], Operator]:
         """
         return self._generator_map[self.generator_type]
 
+    @cached_property
+    def eigenvals_generator(self) -> Tensor:
+        """Get eigenvalues of the underlying hamiltonian.
+
+        Note: Only works for GeneratorType.TENSOR
+        or GeneratorType.OPERATION.
+
+        Returns:
+            Eigenvalues of the operation.
+        """
+        return self.generator[0].eigenvalues
+
+    @cached_property
+    def spectral_gap(self) -> Tensor:
+        """Difference between the moduli of the two largest eigenvalues of the generator.
+
+        Returns:
+            Tensor: Spectral gap value.
+        """
+        spectrum = self.eigenvals_generator
+        spectral_gap = torch.unique(torch.abs(torch.tril(spectrum - spectrum.T)))
+        return spectral_gap[spectral_gap.nonzero()]
+
     def forward(
         self,
         state: Tensor,
diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index b684463f..8aa59dee 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -245,7 +245,9 @@ def multi_gap_shift(
             dfdx = torch.sum(spectral_gaps * R, dim=0).reshape(batch_size)
             return dfdx
 
-        def vjp(operation: Parametric, values: dict[str, Tensor]) -> Tensor:
+        def vjp(
+            operation: Parametric | HamiltonianEvolution, values: dict[str, Tensor]
+        ) -> Tensor:
             """Vector-jacobian product between `grad_out` and jacobians of parameters.
 
             Args:
@@ -261,7 +263,7 @@ def vjp(operation: Parametric, values: dict[str, Tensor]) -> Tensor:
                 else (single_gap_shift, shift_pi2)
             )
             return grad_out * psr_fn(  # type: ignore[operator]
-                operation.param_name,  # type: ignore
+                operation.param_name if isinstance(operation, Parametric) else operation.time,  # type: ignore
                 values,
                 operation.spectral_gap,
                 shift,
diff --git a/pyqtorch/primitive.py b/pyqtorch/primitive.py
index b0c9399d..39222761 100644
--- a/pyqtorch/primitive.py
+++ b/pyqtorch/primitive.py
@@ -62,6 +62,23 @@ def eigenvals_generator(self) -> Tensor:
             return torch.linalg.eigvalsh(self.generator).reshape(-1, 1)
         pass
 
+    @cached_property
+    def eigenvalues(self) -> Tensor:
+        """Get eigenvalues of the underlying operation.
+
+        Arguments:
+            values: Parameter values.
+
+        Returns:
+            Eigenvalues of the generator operator.
+        """
+        if len(self.operation.size()) == 3:
+            return torch.linalg.eigvalsh(self.operation.permute((2, 0, 1))).reshape(
+                -1, 1
+            )
+        else:
+            return torch.linalg.eigvalsh(self.operation).reshape(-1, 1)
+
 
 class ControlledPrimitive(Primitive):
     """Primitive applied depending on control qubits.
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 88bcd0dd..6a825def 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -9,7 +9,7 @@
 
 import pyqtorch as pyq
 from pyqtorch import DiffMode, expectation
-from pyqtorch.analog import Observable
+from pyqtorch.analog import HamiltonianEvolution, Observable
 from pyqtorch.circuit import QuantumCircuit
 from pyqtorch.matrices import COMPLEX_TO_REAL_DTYPES, DEFAULT_MATRIX_DTYPE
 from pyqtorch.parametric import Parametric
@@ -92,14 +92,14 @@ def circuit_hamevo_tensor_gpsr(n_qubits: int) -> QuantumCircuit:
 @pytest.mark.parametrize(
     ["n_qubits", "batch_size", "circuit_fn"],
     [
-        (2, 1, circuit_psr),
-        (5, 10, circuit_psr),
-        (3, 1, circuit_gpsr),
-        (5, 10, circuit_gpsr),
-        (3, 1, circuit_sequence),
-        (5, 10, circuit_sequence),
-        # (3, 1, circuit_hamevo_tensor_gpsr),
-        # (5, 10, circuit_hamevo_tensor_gpsr),
+        # (2, 1, circuit_psr),
+        # (5, 10, circuit_psr),
+        # (3, 1, circuit_gpsr),
+        # (5, 10, circuit_gpsr),
+        # (3, 1, circuit_sequence),
+        # (5, 10, circuit_sequence),
+        (3, 1, circuit_hamevo_tensor_gpsr),
+        (5, 10, circuit_hamevo_tensor_gpsr),
     ],
 )
 @pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])
@@ -123,6 +123,15 @@ def test_expectation_gpsr(
         for op in circ.flatten()
         if isinstance(op, Parametric) and isinstance(op.param_name, str)
     }
+    values.update(
+        {
+            op.time: torch.rand(
+                batch_size, requires_grad=True, dtype=COMPLEX_TO_REAL_DTYPES[dtype]
+            )
+            for op in circ.operations
+            if isinstance(op, HamiltonianEvolution) and isinstance(op.time, str)
+        }
+    )
     state = pyq.random_state(n_qubits, dtype=dtype)
 
     # Apply adjoint

From 264ef979d546906d95f4c505d0b2f31efecf179d Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Mon, 5 Aug 2024 16:13:06 +0200
Subject: [PATCH 59/77] use eigenvalues in quantum_ops

---
 pyqtorch/primitive.py   | 17 -----------------
 pyqtorch/quantum_ops.py | 18 ++++++++++++++++++
 2 files changed, 18 insertions(+), 17 deletions(-)

diff --git a/pyqtorch/primitive.py b/pyqtorch/primitive.py
index 39222761..b0c9399d 100644
--- a/pyqtorch/primitive.py
+++ b/pyqtorch/primitive.py
@@ -62,23 +62,6 @@ def eigenvals_generator(self) -> Tensor:
             return torch.linalg.eigvalsh(self.generator).reshape(-1, 1)
         pass
 
-    @cached_property
-    def eigenvalues(self) -> Tensor:
-        """Get eigenvalues of the underlying operation.
-
-        Arguments:
-            values: Parameter values.
-
-        Returns:
-            Eigenvalues of the generator operator.
-        """
-        if len(self.operation.size()) == 3:
-            return torch.linalg.eigvalsh(self.operation.permute((2, 0, 1))).reshape(
-                -1, 1
-            )
-        else:
-            return torch.linalg.eigvalsh(self.operation).reshape(-1, 1)
-
 
 class ControlledPrimitive(Primitive):
     """Primitive applied depending on control qubits.
diff --git a/pyqtorch/quantum_ops.py b/pyqtorch/quantum_ops.py
index 2b0a221e..da718fc0 100644
--- a/pyqtorch/quantum_ops.py
+++ b/pyqtorch/quantum_ops.py
@@ -240,6 +240,24 @@ def eigenvals_generator(self) -> Tensor:
         """
         return torch.linalg.eigvalsh(self.operation).reshape(-1, 1)
 
+    @cached_property
+    def eigenvalues(
+        self,
+        values: dict[str, Tensor] | Tensor = dict(),
+        embedding: Embedding | None = None,
+    ) -> Tensor:
+        """Get eigenvalues of the tensor of QuantumOperation.
+
+        Args:
+            values (dict[str, Tensor], optional): Parameter values. Defaults to dict().
+            embedding (Embedding | None, optional): Optional embedding. Defaults to None.
+
+        Returns:
+            Eigenvalues of the related tensor.
+        """
+        blockmat = self.tensor(values, embedding)
+        return torch.linalg.eigvalsh(blockmat.permute((2, 0, 1))).reshape(-1, 1)
+
     @cached_property
     def spectral_gap(self) -> Tensor:
         """Difference between the moduli of the two largest eigenvalues of the generator.

From a35fe04ca04208f4d1b3aa94065944c0d6cc3fe3 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Tue, 6 Aug 2024 11:00:13 +0200
Subject: [PATCH 60/77] changing gpsr for using prefactors in spectral gap

---
 pyqtorch/analog.py   |  1 +
 pyqtorch/gpsr.py     | 54 ++++++++++++++++++++++++--------------------
 pyqtorch/matrices.py | 32 ++++++++++++++++++++++----
 tests/test_gpsr.py   | 13 +++++------
 4 files changed, 65 insertions(+), 35 deletions(-)

diff --git a/pyqtorch/analog.py b/pyqtorch/analog.py
index f58fea52..c0fa134d 100644
--- a/pyqtorch/analog.py
+++ b/pyqtorch/analog.py
@@ -482,6 +482,7 @@ def eigenvals_generator(self) -> Tensor:
         Returns:
             Eigenvalues of the operation.
         """
+
         return self.generator[0].eigenvalues
 
     @cached_property
diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 8aa59dee..08f33ee2 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -122,8 +122,7 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
         """
 
         values = param_dict(ctx.param_names, ctx.saved_tensors)
-        shift_pi2 = torch.tensor(torch.pi) / 2.0
-        shift_multi = 0.5
+        
 
         dtype_values = DEFAULT_REAL_DTYPE
         device = torch.device("cpu")
@@ -132,6 +131,9 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
         except Exception:
             pass
 
+        shift_pi2 = torch.tensor(torch.pi, dtype = dtype_values) / 2.0
+        shift_multi = 0.5
+
         def expectation_fn(values: dict[str, Tensor]) -> Tensor:
             """Use the PSRExpectation for nested grad calls.
 
@@ -155,7 +157,7 @@ def single_gap_shift(
             param_name: str,
             values: dict[str, Tensor],
             spectral_gap: Tensor,
-            shift: Tensor = torch.tensor(torch.pi) / 2.0,
+            shift: Tensor = shift_pi2,
         ) -> Tensor:
             """Implements single gap PSR rule.
 
@@ -182,14 +184,14 @@ def single_gap_shift(
             return (
                 spectral_gap
                 * (f_plus - f_minus)
-                / (4 * torch.sin(spectral_gap * shift / 2))
+                / (4.0 * torch.sin(spectral_gap * shift / 2.0))
             )
 
         def multi_gap_shift(
             param_name: str,
             values: dict[str, Tensor],
             spectral_gaps: Tensor,
-            shift_prefac: float = 0.5,
+            shift_prefac: float = shift_multi,
         ) -> Tensor:
             """Implement multi gap PSR rule.
 
@@ -246,45 +248,49 @@ def multi_gap_shift(
             return dfdx
 
         def vjp(
-            operation: Parametric | HamiltonianEvolution, values: dict[str, Tensor]
+            param_name: str, spectral_gap: Tensor, values: dict[str, Tensor]
         ) -> Tensor:
             """Vector-jacobian product between `grad_out` and jacobians of parameters.
 
             Args:
-                operation: Parametric operation to compute PSR.
+                param_name: Parameter name to compute gradient over.
+                spectral_gap: Spectral gap of the corresponding operation.
                 values: Dictionary with parameter values.
 
             Returns:
                 Updated jacobian by PSR.
             """
-            psr_fn, shift = (
-                (multi_gap_shift, shift_multi)
-                if len(operation.spectral_gap) > 1
-                else (single_gap_shift, shift_pi2)
+            psr_fn = (
+                multi_gap_shift
+                if len(spectral_gap) > 1
+                else single_gap_shift
             )
+
             return grad_out * psr_fn(  # type: ignore[operator]
-                operation.param_name if isinstance(operation, Parametric) else operation.time,  # type: ignore
+                param_name,  # type: ignore
                 values,
-                operation.spectral_gap,
-                shift,
+                spectral_gap,
             )
 
         grads = {p: None for p in ctx.param_names}
+
+        def update_gradient(param_name: str, spectral_gap: Tensor):
+            if values[param_name].requires_grad:
+                if grads[param_name] is not None:
+                    grads[param_name] += vjp(param_name, spectral_gap, values)
+                else:
+                    grads[param_name] = vjp(param_name, spectral_gap, values)
+
+
         for op in ctx.circuit.flatten():
+            
             if isinstance(op, Parametric) and isinstance(op.param_name, str):
-                if values[op.param_name].requires_grad:
-                    if grads[op.param_name] is not None:
-                        grads[op.param_name] += vjp(op, values)
-                    else:
-                        grads[op.param_name] = vjp(op, values)
+                update_gradient(op.param_name, op.spectral_gap)
+                
 
         for op in ctx.circuit.operations:
             if isinstance(op, HamiltonianEvolution) and isinstance(op.time, str):
-                if values[op.time].requires_grad:
-                    if grads[op.time] is not None:
-                        grads[op.time] += vjp(op, values)
-                    else:
-                        grads[op.time] = vjp(op, values)
+                update_gradient(op.time, op.spectral_gap * 2.0)
 
         return (
             None,
diff --git a/pyqtorch/matrices.py b/pyqtorch/matrices.py
index d5e94c97..be721510 100644
--- a/pyqtorch/matrices.py
+++ b/pyqtorch/matrices.py
@@ -67,14 +67,38 @@ def PROJMAT(ket: Tensor, bra: Tensor) -> Tensor:
 
 
 def parametric_unitary(
-    theta: torch.Tensor, P: torch.Tensor, I: torch.Tensor, batch_size: int  # noqa: E741
+    theta: torch.Tensor,
+    P: torch.Tensor,
+    identity_mat: torch.Tensor,
+    batch_size: int,
+    a: float = 0.5,  # noqa: E741
 ) -> torch.Tensor:
-    cos_t = torch.cos(theta / 2).unsqueeze(0).unsqueeze(1)
+    """Compute the exponentiation of a matrix :math:`P`
+
+    The exponentiation is given by:
+    :math:`exp(-i a \\theta P ) = I cos(r \\theta) - i a P sin(r \\theta) / r`
+
+    where :math:`a` is a prefactor
+    and :math:`r = a * sg / 2`, :math:`sg` corresponding to the spectral gap.
+
+    Here, we assume :math:`sg = 2`
+
+    Args:
+        theta (torch.Tensor): Parameter values.
+        P (torch.Tensor): Matrix to exponentiate.
+        I (torch.Tensor): Identity matrix
+        batch_size (int): Batch size of parameters.
+        a (float): Prefactor.
+
+    Returns:
+        torch.Tensor: The exponentiation of P
+    """
+    cos_t = torch.cos(theta * a).unsqueeze(0).unsqueeze(1)
     cos_t = cos_t.repeat((2, 2, 1))
-    sin_t = torch.sin(theta / 2).unsqueeze(0).unsqueeze(1)
+    sin_t = torch.sin(theta * a).unsqueeze(0).unsqueeze(1)
     sin_t = sin_t.repeat((2, 2, 1))
 
-    batch_imat = I.unsqueeze(2).repeat(1, 1, batch_size)
+    batch_imat = identity_mat.unsqueeze(2).repeat(1, 1, batch_size)
     batch_operation_mat = P.unsqueeze(2).repeat(1, 1, batch_size)
 
     return cos_t * batch_imat - 1j * sin_t * batch_operation_mat
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 6a825def..986c7fb3 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -92,14 +92,13 @@ def circuit_hamevo_tensor_gpsr(n_qubits: int) -> QuantumCircuit:
 @pytest.mark.parametrize(
     ["n_qubits", "batch_size", "circuit_fn"],
     [
-        # (2, 1, circuit_psr),
-        # (5, 10, circuit_psr),
-        # (3, 1, circuit_gpsr),
-        # (5, 10, circuit_gpsr),
-        # (3, 1, circuit_sequence),
-        # (5, 10, circuit_sequence),
+        (2, 1, circuit_psr),
+        (5, 10, circuit_psr),
+        (3, 1, circuit_gpsr),
+        (5, 10, circuit_gpsr),
+        (3, 1, circuit_sequence),
+        (5, 10, circuit_sequence),
         (3, 1, circuit_hamevo_tensor_gpsr),
-        (5, 10, circuit_hamevo_tensor_gpsr),
     ],
 )
 @pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])

From ee9984339ce0a936d19d3adac559461dc64f0228 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Tue, 6 Aug 2024 15:57:20 +0200
Subject: [PATCH 61/77] adding round complex to reduce n_eqs with precision

---
 pyqtorch/analog.py      |  6 +++++-
 pyqtorch/gpsr.py        | 15 ++++-----------
 pyqtorch/quantum_ops.py |  8 ++++++--
 pyqtorch/utils.py       | 10 ++++++++++
 4 files changed, 25 insertions(+), 14 deletions(-)

diff --git a/pyqtorch/analog.py b/pyqtorch/analog.py
index c0fa134d..8baaa494 100644
--- a/pyqtorch/analog.py
+++ b/pyqtorch/analog.py
@@ -20,6 +20,7 @@
     Operator,
     State,
     StrEnum,
+    _round_complex,
     expand_operator,
     inner_prod,
     is_diag,
@@ -493,7 +494,10 @@ def spectral_gap(self) -> Tensor:
             Tensor: Spectral gap value.
         """
         spectrum = self.eigenvals_generator
-        spectral_gap = torch.unique(torch.abs(torch.tril(spectrum - spectrum.T)))
+        diffs = spectrum - spectrum.T
+        if torch.is_complex(diffs):
+            diffs = _round_complex(diffs)
+        spectral_gap = torch.unique(torch.abs(torch.tril(diffs)))
         return spectral_gap[spectral_gap.nonzero()]
 
     def forward(
diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 08f33ee2..9f54047b 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -122,7 +122,6 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
         """
 
         values = param_dict(ctx.param_names, ctx.saved_tensors)
-        
 
         dtype_values = DEFAULT_REAL_DTYPE
         device = torch.device("cpu")
@@ -131,7 +130,7 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
         except Exception:
             pass
 
-        shift_pi2 = torch.tensor(torch.pi, dtype = dtype_values) / 2.0
+        shift_pi2 = torch.tensor(torch.pi, dtype=dtype_values) / 2.0
         shift_multi = 0.5
 
         def expectation_fn(values: dict[str, Tensor]) -> Tensor:
@@ -260,11 +259,7 @@ def vjp(
             Returns:
                 Updated jacobian by PSR.
             """
-            psr_fn = (
-                multi_gap_shift
-                if len(spectral_gap) > 1
-                else single_gap_shift
-            )
+            psr_fn = multi_gap_shift if len(spectral_gap) > 1 else single_gap_shift
 
             return grad_out * psr_fn(  # type: ignore[operator]
                 param_name,  # type: ignore
@@ -281,16 +276,14 @@ def update_gradient(param_name: str, spectral_gap: Tensor):
                 else:
                     grads[param_name] = vjp(param_name, spectral_gap, values)
 
-
         for op in ctx.circuit.flatten():
-            
+
             if isinstance(op, Parametric) and isinstance(op.param_name, str):
                 update_gradient(op.param_name, op.spectral_gap)
-                
 
         for op in ctx.circuit.operations:
             if isinstance(op, HamiltonianEvolution) and isinstance(op.time, str):
-                update_gradient(op.time, op.spectral_gap * 2.0)
+                update_gradient(op.time, op.spectral_gap)
 
         return (
             None,
diff --git a/pyqtorch/quantum_ops.py b/pyqtorch/quantum_ops.py
index da718fc0..50a76eff 100644
--- a/pyqtorch/quantum_ops.py
+++ b/pyqtorch/quantum_ops.py
@@ -14,6 +14,7 @@
 from pyqtorch.matrices import _dagger
 from pyqtorch.utils import (
     DensityMatrix,
+    _round_complex,
     expand_operator,
     permute_basis,
     qubit_support_as_tuple,
@@ -256,7 +257,7 @@ def eigenvalues(
             Eigenvalues of the related tensor.
         """
         blockmat = self.tensor(values, embedding)
-        return torch.linalg.eigvalsh(blockmat.permute((2, 0, 1))).reshape(-1, 1)
+        return torch.linalg.eigvals(blockmat.permute((2, 0, 1))).reshape(-1, 1)
 
     @cached_property
     def spectral_gap(self) -> Tensor:
@@ -266,7 +267,10 @@ def spectral_gap(self) -> Tensor:
             Tensor: Spectral gap value.
         """
         spectrum = self.eigenvals_generator
-        spectral_gap = torch.unique(torch.abs(torch.tril(spectrum - spectrum.T)))
+        diffs = spectrum - spectrum.T
+        if torch.is_complex(diffs):
+            diffs = _round_complex(diffs)
+        spectral_gap = torch.unique(torch.abs(torch.tril(diffs)))
         return spectral_gap[spectral_gap.nonzero()]
 
     def _default_operator_function(
diff --git a/pyqtorch/utils.py b/pyqtorch/utils.py
index badf81fa..3eb8151a 100644
--- a/pyqtorch/utils.py
+++ b/pyqtorch/utils.py
@@ -48,6 +48,16 @@ def qubit_support_as_tuple(support: int | tuple[int, ...]) -> tuple[int, ...]:
     return qubit_support
 
 
+def _round_complex(t: Tensor, decimals: int = 4) -> Tensor:
+    def _round(_t: Tensor) -> Tensor:
+        r = _t.real.round(decimals=decimals)
+        i = _t.imag.round(decimals=decimals)
+        return torch.complex(r, i)
+
+    fn = torch.vmap(_round)
+    return fn(t)
+
+
 def inner_prod(bra: Tensor, ket: Tensor) -> Tensor:
     """
     Compute the inner product :math:`\\langle\\bra|\\ket\\rangle`

From 6a861c43b7e8b08bd233ea7f8465c37c8ece7d10 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Tue, 6 Aug 2024 16:36:33 +0200
Subject: [PATCH 62/77] make gpsr hamevo its own test

---
 pyqtorch/gpsr.py   |  1 +
 tests/test_gpsr.py | 87 +++++++++++++++++++++++++++++++++++++++++-----
 2 files changed, 79 insertions(+), 9 deletions(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 9f54047b..bc4abb8c 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -244,6 +244,7 @@ def multi_gap_shift(
             F = torch.stack(F).reshape(n_eqs, -1)
             R = torch.linalg.solve(M, F)
             dfdx = torch.sum(spectral_gaps * R, dim=0).reshape(batch_size)
+
             return dfdx
 
         def vjp(
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 986c7fb3..9e8adcc3 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -92,23 +92,16 @@ def circuit_hamevo_tensor_gpsr(n_qubits: int) -> QuantumCircuit:
 @pytest.mark.parametrize(
     ["n_qubits", "batch_size", "circuit_fn"],
     [
-        (2, 1, circuit_psr),
-        (5, 10, circuit_psr),
-        (3, 1, circuit_gpsr),
-        (5, 10, circuit_gpsr),
-        (3, 1, circuit_sequence),
-        (5, 10, circuit_sequence),
         (3, 1, circuit_hamevo_tensor_gpsr),
     ],
 )
-@pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])
-def test_expectation_gpsr(
+def test_expectation_gpsr_hamevo(
     n_qubits: int,
     batch_size: int,
     circuit_fn: Callable,
-    dtype: torch.dtype,
 ) -> None:
     torch.manual_seed(42)
+    dtype = torch.complex128
     circ = circuit_fn(n_qubits).to(dtype)
     obs = Observable(
         random_pauli_hamiltonian(
@@ -145,6 +138,82 @@ def test_expectation_gpsr(
         exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True
     )
 
+    atol = 1.0e-01
+
+    # first order checks
+
+    for i in range(len(grad_ad)):
+        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=atol)
+
+    # second order checks
+    for i in range(len(grad_ad)):
+        gradgrad_ad = torch.autograd.grad(
+            grad_ad[i],
+            tuple(values.values()),
+            torch.ones_like(grad_ad[i]),
+            create_graph=True,
+        )
+
+        gradgrad_gpsr = torch.autograd.grad(
+            grad_gpsr[i],
+            tuple(values.values()),
+            torch.ones_like(grad_gpsr[i]),
+            create_graph=True,
+        )
+
+        assert len(gradgrad_ad) == len(gradgrad_gpsr)
+
+        # check second order gradients
+        for j in range(len(gradgrad_ad)):
+            assert torch.allclose(gradgrad_ad[j], gradgrad_gpsr[j], atol=atol)
+
+
+@pytest.mark.parametrize(
+    ["n_qubits", "batch_size", "circuit_fn"],
+    [
+        (2, 1, circuit_psr),
+        (5, 10, circuit_psr),
+        (3, 1, circuit_gpsr),
+        (5, 10, circuit_gpsr),
+        (3, 1, circuit_sequence),
+        (5, 10, circuit_sequence),
+    ],
+)
+@pytest.mark.parametrize("dtype", [torch.complex64, torch.complex128])
+def test_expectation_gpsr(
+    n_qubits: int,
+    batch_size: int,
+    circuit_fn: Callable,
+    dtype: torch.dtype,
+) -> None:
+    torch.manual_seed(42)
+    circ = circuit_fn(n_qubits).to(dtype)
+    obs = Observable(
+        random_pauli_hamiltonian(
+            n_qubits, k_1q=n_qubits, k_2q=0, default_scale_coeffs=1.0
+        )[0]
+    ).to(dtype)
+    values = {
+        op.param_name: torch.rand(
+            batch_size, requires_grad=True, dtype=COMPLEX_TO_REAL_DTYPES[dtype]
+        )
+        for op in circ.flatten()
+        if isinstance(op, Parametric) and isinstance(op.param_name, str)
+    }
+    state = pyq.random_state(n_qubits, dtype=dtype)
+
+    # Apply adjoint
+    exp_ad = expectation(circ, state, values, obs, DiffMode.AD)
+    grad_ad = torch.autograd.grad(
+        exp_ad, tuple(values.values()), torch.ones_like(exp_ad), create_graph=True
+    )
+
+    # Apply PSR
+    exp_gpsr = expectation(circ, state, values, obs, DiffMode.GPSR)
+    grad_gpsr = torch.autograd.grad(
+        exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True
+    )
+
     exp_gpsr_sampled = expectation(
         circ,
         state,

From a9d796c4fefbc572a57fbdd8bfc4d34c9f17ab4c Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Wed, 7 Aug 2024 11:23:45 +0200
Subject: [PATCH 63/77] modify flatten hamevo for fix circuit flatten

---
 pyqtorch/analog.py    | 7 +++++++
 pyqtorch/gpsr.py      | 8 +-------
 pyqtorch/primitive.py | 2 +-
 3 files changed, 9 insertions(+), 8 deletions(-)

diff --git a/pyqtorch/analog.py b/pyqtorch/analog.py
index 8baaa494..3499a983 100644
--- a/pyqtorch/analog.py
+++ b/pyqtorch/analog.py
@@ -423,6 +423,13 @@ def generator(self) -> ModuleList:
         """
         return self.operations
 
+    def flatten(self) -> ModuleList:
+        return ModuleList([self])
+
+    @property
+    def param_name(self) -> Tensor | str:
+        return self.time
+
     def _symbolic_generator(
         self,
         values: dict,
diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index bc4abb8c..12b77b93 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -282,10 +282,6 @@ def update_gradient(param_name: str, spectral_gap: Tensor):
             if isinstance(op, Parametric) and isinstance(op.param_name, str):
                 update_gradient(op.param_name, op.spectral_gap)
 
-        for op in ctx.circuit.operations:
-            if isinstance(op, HamiltonianEvolution) and isinstance(op.time, str):
-                update_gradient(op.time, op.spectral_gap)
-
         return (
             None,
             None,
@@ -309,7 +305,7 @@ def check_support_psr(circuit: Sequence):
     """
 
     param_names = list()
-    for op in circuit.operations:
+    for op in circuit.flatten():
         if isinstance(op, Scale):
             raise ValueError(
                 f"PSR is not applicable as circuit contains an operation of type: {type(op)}."
@@ -322,8 +318,6 @@ def check_support_psr(circuit: Sequence):
                 f"PSR is not applicable as circuit contains an operation of type: {type(op)} \
                     whose generator type is {op.generator_type}."
             )
-        if isinstance(op, Sequence):
-            param_names += check_support_psr(op)
         elif isinstance(op, Parametric):
             if isinstance(op.param_name, str):
                 param_names.append(op.param_name)
diff --git a/pyqtorch/primitive.py b/pyqtorch/primitive.py
index b0c9399d..59d765de 100644
--- a/pyqtorch/primitive.py
+++ b/pyqtorch/primitive.py
@@ -89,7 +89,7 @@ def __init__(
         super().__init__(operation, support)
 
     def extra_repr(self) -> str:
-        return f"control:{self.control}, targets:{(self.target,)}"
+        return f"control:{self.control}, target:{self.target}"
 
 
 class X(Primitive):

From fd78c7098cfebf063410bd082d1c8488cbac50e6 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Wed, 7 Aug 2024 11:34:28 +0200
Subject: [PATCH 64/77] fix supported gpsr hamevo

---
 pyqtorch/gpsr.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 12b77b93..3955afa0 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -279,7 +279,7 @@ def update_gradient(param_name: str, spectral_gap: Tensor):
 
         for op in ctx.circuit.flatten():
 
-            if isinstance(op, Parametric) and isinstance(op.param_name, str):
+            if isinstance(op, (Parametric, HamiltonianEvolution)) and isinstance(op.param_name, str):
                 update_gradient(op.param_name, op.spectral_gap)
 
         return (

From 04ba5fc92b4a6a142473a6b041e3a3720edadb5a Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Wed, 7 Aug 2024 11:42:01 +0200
Subject: [PATCH 65/77] rm second derivative etst

---
 tests/test_gpsr.py | 22 ----------------------
 1 file changed, 22 deletions(-)

diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 9e8adcc3..54cdbaa2 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -145,28 +145,6 @@ def test_expectation_gpsr_hamevo(
     for i in range(len(grad_ad)):
         assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=atol)
 
-    # second order checks
-    for i in range(len(grad_ad)):
-        gradgrad_ad = torch.autograd.grad(
-            grad_ad[i],
-            tuple(values.values()),
-            torch.ones_like(grad_ad[i]),
-            create_graph=True,
-        )
-
-        gradgrad_gpsr = torch.autograd.grad(
-            grad_gpsr[i],
-            tuple(values.values()),
-            torch.ones_like(grad_gpsr[i]),
-            create_graph=True,
-        )
-
-        assert len(gradgrad_ad) == len(gradgrad_gpsr)
-
-        # check second order gradients
-        for j in range(len(gradgrad_ad)):
-            assert torch.allclose(gradgrad_ad[j], gradgrad_gpsr[j], atol=atol)
-
 
 @pytest.mark.parametrize(
     ["n_qubits", "batch_size", "circuit_fn"],

From 4d4a7d0713215049cfb4bba49448aa0d01f0504c Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Wed, 7 Aug 2024 11:44:45 +0200
Subject: [PATCH 66/77] lint

---
 pyqtorch/gpsr.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/pyqtorch/gpsr.py b/pyqtorch/gpsr.py
index 3955afa0..97ba3f93 100644
--- a/pyqtorch/gpsr.py
+++ b/pyqtorch/gpsr.py
@@ -279,7 +279,9 @@ def update_gradient(param_name: str, spectral_gap: Tensor):
 
         for op in ctx.circuit.flatten():
 
-            if isinstance(op, (Parametric, HamiltonianEvolution)) and isinstance(op.param_name, str):
+            if isinstance(op, (Parametric, HamiltonianEvolution)) and isinstance(
+                op.param_name, str
+            ):
                 update_gradient(op.param_name, op.spectral_gap)
 
         return (

From a6a8cb4e75685acd4f8ac1f7841aa1839dd0175e Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 8 Aug 2024 10:41:56 +0200
Subject: [PATCH 67/77] fix back gpsr

---
 pyqtorch/differentiation/gpsr.py   | 80 ++++++++++++++++--------------
 pyqtorch/hamiltonians/evolution.py |  2 +-
 tests/test_gpsr.py                 |  5 +-
 3 files changed, 47 insertions(+), 40 deletions(-)

diff --git a/pyqtorch/differentiation/gpsr.py b/pyqtorch/differentiation/gpsr.py
index e784c748..01408fa6 100644
--- a/pyqtorch/differentiation/gpsr.py
+++ b/pyqtorch/differentiation/gpsr.py
@@ -8,9 +8,9 @@
 from torch.autograd import Function
 
 from pyqtorch.circuit import QuantumCircuit
-from pyqtorch.composite import Scale, Sequence
+from pyqtorch.composite import Scale
 from pyqtorch.embed import Embedding
-from pyqtorch.hamiltonians import HamiltonianEvolution, Observable
+from pyqtorch.hamiltonians import GeneratorType, HamiltonianEvolution, Observable
 from pyqtorch.matrices import DEFAULT_REAL_DTYPE
 from pyqtorch.primitives import Parametric
 from pyqtorch.utils import param_dict
@@ -123,9 +123,6 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
         """
 
         values = param_dict(ctx.param_names, ctx.saved_tensors)
-        shift_pi2 = torch.tensor(torch.pi) / 2.0
-        shift_multi = 0.5
-
         dtype_values = DEFAULT_REAL_DTYPE
         device = torch.device("cpu")
         try:
@@ -133,6 +130,9 @@ def backward(ctx: Any, grad_out: Tensor) -> Tuple[None, ...]:
         except Exception:
             pass
 
+        shift_pi2 = torch.tensor(torch.pi, dtype=dtype_values) / 2.0
+        shift_multi = 0.5
+
         def expectation_fn(values: dict[str, Tensor]) -> Tensor:
             """Use the PSRExpectation for nested grad calls.
 
@@ -156,7 +156,7 @@ def single_gap_shift(
             param_name: str,
             values: dict[str, Tensor],
             spectral_gap: Tensor,
-            shift: Tensor = torch.tensor(torch.pi) / 2.0,
+            shift: Tensor = shift_pi2,
         ) -> Tensor:
             """Implements single gap PSR rule.
 
@@ -183,14 +183,14 @@ def single_gap_shift(
             return (
                 spectral_gap
                 * (f_plus - f_minus)
-                / (4 * torch.sin(spectral_gap * shift / 2))
+                / (4.0 * torch.sin(spectral_gap * shift / 2.0))
             )
 
         def multi_gap_shift(
             param_name: str,
             values: dict[str, Tensor],
             spectral_gaps: Tensor,
-            shift_prefac: float = 0.5,
+            shift_prefac: float = shift_multi,
         ) -> Tensor:
             """Implement multi gap PSR rule.
 
@@ -244,38 +244,45 @@ def multi_gap_shift(
             F = torch.stack(F).reshape(n_eqs, -1)
             R = torch.linalg.solve(M, F)
             dfdx = torch.sum(spectral_gaps * R, dim=0).reshape(batch_size)
+
             return dfdx
 
-        def vjp(operation: Parametric, values: dict[str, Tensor]) -> Tensor:
+        def vjp(
+            param_name: str, spectral_gap: Tensor, values: dict[str, Tensor]
+        ) -> Tensor:
             """Vector-jacobian product between `grad_out` and jacobians of parameters.
 
             Args:
-                operation: Parametric operation to compute PSR.
+                param_name: Parameter name to compute gradient over.
+                spectral_gap: Spectral gap of the corresponding operation.
                 values: Dictionary with parameter values.
 
             Returns:
                 Updated jacobian by PSR.
             """
-            psr_fn, shift = (
-                (multi_gap_shift, shift_multi)
-                if len(operation.spectral_gap) > 1
-                else (single_gap_shift, shift_pi2)
-            )
+            psr_fn = multi_gap_shift if len(spectral_gap) > 1 else single_gap_shift
+
             return grad_out * psr_fn(  # type: ignore[operator]
-                operation.param_name,  # type: ignore
+                param_name,  # type: ignore
                 values,
-                operation.spectral_gap,
-                shift,
+                spectral_gap,
             )
 
         grads = {p: None for p in ctx.param_names}
+
+        def update_gradient(param_name: str, spectral_gap: Tensor):
+            if values[param_name].requires_grad:
+                if grads[param_name] is not None:
+                    grads[param_name] += vjp(param_name, spectral_gap, values)
+                else:
+                    grads[param_name] = vjp(param_name, spectral_gap, values)
+
         for op in ctx.circuit.flatten():
-            if isinstance(op, Parametric) and isinstance(op.param_name, str):
-                if values[op.param_name].requires_grad:
-                    if grads[op.param_name] is not None:
-                        grads[op.param_name] += vjp(op, values)
-                    else:
-                        grads[op.param_name] = vjp(op, values)
+
+            if isinstance(op, (Parametric, HamiltonianEvolution)) and isinstance(
+                op.param_name, str
+            ):
+                update_gradient(op.param_name, op.spectral_gap)
 
         return (
             None,
@@ -300,24 +307,25 @@ def check_support_psr(circuit: QuantumCircuit):
     """
 
     param_names = list()
-    for op in circuit.operations:
-        if isinstance(op, Scale) or isinstance(op, HamiltonianEvolution):
+    for op in circuit.flatten():
+        if isinstance(op, Scale):
             raise ValueError(
                 f"PSR is not applicable as circuit contains an operation of type: {type(op)}."
             )
-        if isinstance(op, Sequence):
-            for subop in op.flatten():
-                if isinstance(subop, Scale) or isinstance(subop, HamiltonianEvolution):
-                    raise ValueError(
-                        f"PSR is not applicable as circuit contains \
-                        an operation of type: {type(subop)}."
-                    )
-                if isinstance(subop, Parametric):
-                    if isinstance(subop.param_name, str):
-                        param_names.append(subop.param_name)
+        if isinstance(op, HamiltonianEvolution) and op.generator_type in [
+            GeneratorType.SYMBOL,
+            GeneratorType.PARAMETRIC_OPERATION,
+        ]:
+            raise ValueError(
+                f"PSR is not applicable as circuit contains an operation of type: {type(op)} \
+                    whose generator type is {op.generator_type}."
+            )
         elif isinstance(op, Parametric):
             if isinstance(op.param_name, str):
                 param_names.append(op.param_name)
+        elif isinstance(op, HamiltonianEvolution):
+            if isinstance(op.time, str):
+                param_names.append(op.time)
         else:
             continue
 
diff --git a/pyqtorch/hamiltonians/evolution.py b/pyqtorch/hamiltonians/evolution.py
index 1794aea6..98a3a7a0 100644
--- a/pyqtorch/hamiltonians/evolution.py
+++ b/pyqtorch/hamiltonians/evolution.py
@@ -2,7 +2,7 @@
 
 import logging
 from collections import OrderedDict
-from functools import cached_property, reduce
+from functools import cached_property
 from logging import getLogger
 from typing import Callable, Tuple, Union
 
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 04b3aec7..0e8307ec 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -9,10 +9,9 @@
 
 import pyqtorch as pyq
 from pyqtorch import DiffMode, expectation
-from pyqtorch.analog import Observable
 from pyqtorch.circuit import QuantumCircuit
-from pyqtorch.hamiltonians import Observable, HamiltonianEvolution
-from pyqtorch.matrices import COMPLEX_TO_REAL_DTYPES
+from pyqtorch.hamiltonians import HamiltonianEvolution, Observable
+from pyqtorch.matrices import COMPLEX_TO_REAL_DTYPES, DEFAULT_MATRIX_DTYPE
 from pyqtorch.primitives import Parametric
 from pyqtorch.utils import GPSR_ACCEPTANCE, PSR_ACCEPTANCE, GRADCHECK_sampling_ATOL
 

From e5fa8bbc644475c7ca954892513aa72e474c3683 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 8 Aug 2024 10:49:05 +0200
Subject: [PATCH 68/77] using rtol for hamevo gpsr

---
 tests/test_gpsr.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 0e8307ec..1e2fbd97 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -138,12 +138,12 @@ def test_expectation_gpsr_hamevo(
         exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True
     )
 
-    atol = 1.0e-01
+    rtol = 1.0e-02
 
     # first order checks
 
     for i in range(len(grad_ad)):
-        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=atol)
+        assert torch.allclose(grad_ad[i], grad_gpsr[i], rtol=rtol)
 
 
 @pytest.mark.parametrize(

From 474d7c60cc420a9356d316f7f0155b257bfe6584 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 8 Aug 2024 10:59:37 +0200
Subject: [PATCH 69/77] reduce rtol

---
 tests/test_gpsr.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 1e2fbd97..ae2cba69 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -138,7 +138,7 @@ def test_expectation_gpsr_hamevo(
         exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True
     )
 
-    rtol = 1.0e-02
+    rtol = 1.0e-01
 
     # first order checks
 

From d9575146486a7568dff8aa095ca5a752503189fd Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 8 Aug 2024 11:06:31 +0200
Subject: [PATCH 70/77] reput atol 0.1

---
 tests/test_gpsr.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index ae2cba69..0e8307ec 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -138,12 +138,12 @@ def test_expectation_gpsr_hamevo(
         exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True
     )
 
-    rtol = 1.0e-01
+    atol = 1.0e-01
 
     # first order checks
 
     for i in range(len(grad_ad)):
-        assert torch.allclose(grad_ad[i], grad_gpsr[i], rtol=rtol)
+        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=atol)
 
 
 @pytest.mark.parametrize(

From c9dcf5da4f92004afc574e0aa0b50cf64cad7276 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 8 Aug 2024 15:06:24 +0200
Subject: [PATCH 71/77] if in round fct and adding different test fct with
 hamevo

---
 pyqtorch/hamiltonians/evolution.py |  5 ++---
 pyqtorch/quantum_operation.py      |  5 ++---
 pyqtorch/utils.py                  | 17 ++++++++++-----
 tests/test_gpsr.py                 | 35 +++++++++++++++++++++++++++---
 4 files changed, 48 insertions(+), 14 deletions(-)

diff --git a/pyqtorch/hamiltonians/evolution.py b/pyqtorch/hamiltonians/evolution.py
index 98a3a7a0..d09db497 100644
--- a/pyqtorch/hamiltonians/evolution.py
+++ b/pyqtorch/hamiltonians/evolution.py
@@ -19,7 +19,7 @@
     Operator,
     State,
     StrEnum,
-    _round_complex,
+    _round_operator,
     expand_operator,
     is_diag,
 )
@@ -304,8 +304,7 @@ def spectral_gap(self) -> Tensor:
         """
         spectrum = self.eigenvals_generator
         diffs = spectrum - spectrum.T
-        if torch.is_complex(diffs):
-            diffs = _round_complex(diffs)
+        diffs = _round_operator(diffs)
         spectral_gap = torch.unique(torch.abs(torch.tril(diffs)))
         return spectral_gap[spectral_gap.nonzero()]
 
diff --git a/pyqtorch/quantum_operation.py b/pyqtorch/quantum_operation.py
index 83bed341..03ee4c30 100644
--- a/pyqtorch/quantum_operation.py
+++ b/pyqtorch/quantum_operation.py
@@ -15,7 +15,7 @@
 from pyqtorch.noise import NoiseProtocol, _repr_noise
 from pyqtorch.utils import (
     DensityMatrix,
-    _round_complex,
+    _round_operator,
     density_mat,
     expand_operator,
     permute_basis,
@@ -273,8 +273,7 @@ def spectral_gap(self) -> Tensor:
         """
         spectrum = self.eigenvals_generator
         diffs = spectrum - spectrum.T
-        if torch.is_complex(diffs):
-            diffs = _round_complex(diffs)
+        diffs = _round_operator(diffs)
         spectral_gap = torch.unique(torch.abs(torch.tril(diffs)))
         return spectral_gap[spectral_gap.nonzero()]
 
diff --git a/pyqtorch/utils.py b/pyqtorch/utils.py
index ddf49b44..a277a363 100644
--- a/pyqtorch/utils.py
+++ b/pyqtorch/utils.py
@@ -48,11 +48,18 @@ def qubit_support_as_tuple(support: int | tuple[int, ...]) -> tuple[int, ...]:
     return qubit_support
 
 
-def _round_complex(t: Tensor, decimals: int = 4) -> Tensor:
-    def _round(_t: Tensor) -> Tensor:
-        r = _t.real.round(decimals=decimals)
-        i = _t.imag.round(decimals=decimals)
-        return torch.complex(r, i)
+def _round_operator(t: Tensor, decimals: int = 4) -> Tensor:
+    if torch.is_complex(t):
+
+        def _round(_t: Tensor) -> Tensor:
+            r = _t.real.round(decimals=decimals)
+            i = _t.imag.round(decimals=decimals)
+            return torch.complex(r, i)
+
+    else:
+
+        def _round(_t: Tensor) -> Tensor:
+            return _t.round(decimals=decimals)
 
     fn = torch.vmap(_round)
     return fn(t)
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 0e8307ec..8ab29971 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -89,25 +89,53 @@ def circuit_hamevo_tensor_gpsr(n_qubits: int) -> QuantumCircuit:
     return circ
 
 
+def circuit_hamevo_pauligen_gpsr(n_qubits: int) -> QuantumCircuit:
+    """Helper function to make an example circuit."""
+
+    ham = random_pauli_hamiltonian(
+        n_qubits, k_1q=n_qubits, k_2q=0, default_scale_coeffs=1.0
+    )[0]
+    print("generator", ham)
+    ham_op = pyq.HamiltonianEvolution(ham, "t", qubit_support=tuple(range(n_qubits)))
+
+    ops = [
+        pyq.CRX(0, 1, "theta_0"),
+        pyq.X(1),
+        pyq.CRY(1, 2, "theta_1"),
+        ham_op,
+        pyq.CRX(1, 2, "theta_2"),
+        pyq.X(0),
+        pyq.CRY(0, 1, "theta_3"),
+        pyq.CNOT(0, 1),
+    ]
+
+    circ = QuantumCircuit(n_qubits, ops)
+
+    return circ
+
+
 @pytest.mark.parametrize(
     ["n_qubits", "batch_size", "circuit_fn"],
     [
-        (3, 1, circuit_hamevo_tensor_gpsr),
+        # (3, 1, circuit_hamevo_tensor_gpsr),
+        (3, 1, circuit_hamevo_pauligen_gpsr),
     ],
 )
+@pytest.mark.parametrize("dtype", [torch.complex128])
 def test_expectation_gpsr_hamevo(
     n_qubits: int,
     batch_size: int,
     circuit_fn: Callable,
+    dtype: torch.dtype,
 ) -> None:
     torch.manual_seed(42)
-    dtype = torch.complex128
     circ = circuit_fn(n_qubits).to(dtype)
     obs = Observable(
         random_pauli_hamiltonian(
             n_qubits, k_1q=n_qubits, k_2q=0, default_scale_coeffs=1.0
         )[0]
     ).to(dtype)
+    print("obs", obs)
     values = {
         op.param_name: torch.rand(
             batch_size, requires_grad=True, dtype=COMPLEX_TO_REAL_DTYPES[dtype]
@@ -138,11 +166,12 @@ def test_expectation_gpsr_hamevo(
         exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True
     )
 
-    atol = 1.0e-01
+    atol = 1.0e-05
 
     # first order checks
 
     for i in range(len(grad_ad)):
+        print(i, grad_ad[i], grad_gpsr[i])
         assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=atol)
 
 

From 030afd7c65a870dde3c3404ec34e341c196300d4 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 8 Aug 2024 15:09:37 +0200
Subject: [PATCH 72/77] rm round for general quantum_ops

---
 pyqtorch/quantum_operation.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/pyqtorch/quantum_operation.py b/pyqtorch/quantum_operation.py
index 03ee4c30..e67d2d30 100644
--- a/pyqtorch/quantum_operation.py
+++ b/pyqtorch/quantum_operation.py
@@ -273,7 +273,6 @@ def spectral_gap(self) -> Tensor:
         """
         spectrum = self.eigenvals_generator
         diffs = spectrum - spectrum.T
-        diffs = _round_operator(diffs)
         spectral_gap = torch.unique(torch.abs(torch.tril(diffs)))
         return spectral_gap[spectral_gap.nonzero()]
 

From f330dbcc611fb2cee6deb3e40a879911c573b4fc Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 8 Aug 2024 17:10:10 +0200
Subject: [PATCH 73/77] multiply sg by 2 for hamevo

---
 pyqtorch/differentiation/gpsr.py |  3 ++-
 pyqtorch/quantum_operation.py    |  1 -
 tests/test_gpsr.py               | 10 ++--------
 3 files changed, 4 insertions(+), 10 deletions(-)

diff --git a/pyqtorch/differentiation/gpsr.py b/pyqtorch/differentiation/gpsr.py
index 01408fa6..8009401d 100644
--- a/pyqtorch/differentiation/gpsr.py
+++ b/pyqtorch/differentiation/gpsr.py
@@ -282,7 +282,8 @@ def update_gradient(param_name: str, spectral_gap: Tensor):
             if isinstance(op, (Parametric, HamiltonianEvolution)) and isinstance(
                 op.param_name, str
             ):
-                update_gradient(op.param_name, op.spectral_gap)
+                factor = 1.0 if isinstance(op, Parametric) else 2.0
+                update_gradient(op.param_name, factor * op.spectral_gap)
 
         return (
             None,
diff --git a/pyqtorch/quantum_operation.py b/pyqtorch/quantum_operation.py
index e67d2d30..7ae6aced 100644
--- a/pyqtorch/quantum_operation.py
+++ b/pyqtorch/quantum_operation.py
@@ -15,7 +15,6 @@
 from pyqtorch.noise import NoiseProtocol, _repr_noise
 from pyqtorch.utils import (
     DensityMatrix,
-    _round_operator,
     density_mat,
     expand_operator,
     permute_basis,
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 8ab29971..5fe3e715 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -95,7 +95,6 @@ def circuit_hamevo_pauligen_gpsr(n_qubits: int) -> QuantumCircuit:
     ham = random_pauli_hamiltonian(
         n_qubits, k_1q=n_qubits, k_2q=0, default_scale_coeffs=1.0
     )[0]
-    print("generator", ham)
     ham_op = pyq.HamiltonianEvolution(ham, "t", qubit_support=tuple(range(n_qubits)))
 
     ops = [
@@ -117,7 +116,7 @@ def circuit_hamevo_pauligen_gpsr(n_qubits: int) -> QuantumCircuit:
 @pytest.mark.parametrize(
     ["n_qubits", "batch_size", "circuit_fn"],
     [
-        # (3, 1, circuit_hamevo_tensor_gpsr),
+        (3, 1, circuit_hamevo_tensor_gpsr),
         (3, 1, circuit_hamevo_pauligen_gpsr),
     ],
 )
@@ -135,7 +134,6 @@ def test_expectation_gpsr_hamevo(
             n_qubits, k_1q=n_qubits, k_2q=0, default_scale_coeffs=1.0
         )[0]
     ).to(dtype)
-    print("obs", obs)
     values = {
         op.param_name: torch.rand(
             batch_size, requires_grad=True, dtype=COMPLEX_TO_REAL_DTYPES[dtype]
@@ -166,13 +164,9 @@ def test_expectation_gpsr_hamevo(
         exp_gpsr, tuple(values.values()), torch.ones_like(exp_gpsr), create_graph=True
     )
 
-    atol = 1.0e-05
-
     # first order checks
-
     for i in range(len(grad_ad)):
-        print(i, grad_ad[i], grad_gpsr[i])
-        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=atol)
+        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=GPSR_ACCEPTANCE)
 
 
 @pytest.mark.parametrize(

From e866414fea2b66d16b387e233a8369dba000a05e Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 8 Aug 2024 17:17:06 +0200
Subject: [PATCH 74/77] rm tols gpsr

---
 pyqtorch/utils.py  |  1 -
 tests/test_gpsr.py | 32 ++++++++++++++++++++++++++------
 2 files changed, 26 insertions(+), 7 deletions(-)

diff --git a/pyqtorch/utils.py b/pyqtorch/utils.py
index a277a363..1e178337 100644
--- a/pyqtorch/utils.py
+++ b/pyqtorch/utils.py
@@ -27,7 +27,6 @@
 GRADCHECK_ATOL = 1e-05
 GRADCHECK_sampling_ATOL = 1e-01
 PSR_ACCEPTANCE = 1e-05
-GPSR_ACCEPTANCE = 1e-05
 ABC_ARRAY: NDArray = array(list(ABC))
 
 logger = getLogger(__name__)
diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 5fe3e715..749fe771 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -13,7 +13,7 @@
 from pyqtorch.hamiltonians import HamiltonianEvolution, Observable
 from pyqtorch.matrices import COMPLEX_TO_REAL_DTYPES, DEFAULT_MATRIX_DTYPE
 from pyqtorch.primitives import Parametric
-from pyqtorch.utils import GPSR_ACCEPTANCE, PSR_ACCEPTANCE, GRADCHECK_sampling_ATOL
+from pyqtorch.utils import PSR_ACCEPTANCE, GRADCHECK_sampling_ATOL
 
 
 def circuit_psr(n_qubits: int) -> QuantumCircuit:
@@ -166,7 +166,29 @@ def test_expectation_gpsr_hamevo(
 
     # first order checks
     for i in range(len(grad_ad)):
-        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=GPSR_ACCEPTANCE)
+        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=PSR_ACCEPTANCE)
+
+    # second order checks
+    for i in range(len(grad_ad)):
+        gradgrad_ad = torch.autograd.grad(
+            grad_ad[i],
+            tuple(values.values()),
+            torch.ones_like(grad_ad[i]),
+            create_graph=True,
+        )
+
+        gradgrad_gpsr = torch.autograd.grad(
+            grad_gpsr[i],
+            tuple(values.values()),
+            torch.ones_like(grad_gpsr[i]),
+            create_graph=True,
+        )
+
+        assert len(gradgrad_ad) == len(gradgrad_gpsr)
+
+        # check second order gradients
+        for j in range(len(gradgrad_ad)):
+            assert torch.allclose(gradgrad_ad[j], gradgrad_gpsr[j], atol=PSR_ACCEPTANCE)
 
 
 @pytest.mark.parametrize(
@@ -231,12 +253,10 @@ def test_expectation_gpsr(
     )
     assert torch.allclose(exp_gpsr, exp_gpsr_sampled, atol=1e-01)
 
-    atol = PSR_ACCEPTANCE if circuit_fn != circuit_gpsr else GPSR_ACCEPTANCE
-
     # first order checks
 
     for i in range(len(grad_ad)):
-        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=atol)
+        assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=PSR_ACCEPTANCE)
         assert torch.allclose(
             grad_gpsr[i], grad_gpsr_sampled[i], atol=GRADCHECK_sampling_ATOL
         )
@@ -261,7 +281,7 @@ def test_expectation_gpsr(
 
         # check second order gradients
         for j in range(len(gradgrad_ad)):
-            assert torch.allclose(gradgrad_ad[j], gradgrad_gpsr[j], atol=atol)
+            assert torch.allclose(gradgrad_ad[j], gradgrad_gpsr[j], atol=PSR_ACCEPTANCE)
 
 
 @pytest.mark.parametrize("gate_type", ["scale", "hamevo", "same", ""])

From d2354d6aa40dff2f556c12db4d9273fb0e1799a0 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Thu, 8 Aug 2024 18:33:09 +0200
Subject: [PATCH 75/77] reduce tol for second order hamevo gpsr

---
 tests/test_gpsr.py | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/tests/test_gpsr.py b/tests/test_gpsr.py
index 749fe771..1de4e90b 100644
--- a/tests/test_gpsr.py
+++ b/tests/test_gpsr.py
@@ -120,12 +120,11 @@ def circuit_hamevo_pauligen_gpsr(n_qubits: int) -> QuantumCircuit:
         (3, 1, circuit_hamevo_pauligen_gpsr),
     ],
 )
-@pytest.mark.parametrize("dtype", [torch.complex128])
 def test_expectation_gpsr_hamevo(
     n_qubits: int,
     batch_size: int,
     circuit_fn: Callable,
-    dtype: torch.dtype,
+    dtype: torch.dtype = torch.complex128,
 ) -> None:
     torch.manual_seed(42)
     circ = circuit_fn(n_qubits).to(dtype)
@@ -188,7 +187,7 @@ def test_expectation_gpsr_hamevo(
 
         # check second order gradients
         for j in range(len(gradgrad_ad)):
-            assert torch.allclose(gradgrad_ad[j], gradgrad_gpsr[j], atol=PSR_ACCEPTANCE)
+            assert torch.allclose(gradgrad_ad[j], gradgrad_gpsr[j], atol=1.0e-2)
 
 
 @pytest.mark.parametrize(
@@ -254,7 +253,6 @@ def test_expectation_gpsr(
     assert torch.allclose(exp_gpsr, exp_gpsr_sampled, atol=1e-01)
 
     # first order checks
-
     for i in range(len(grad_ad)):
         assert torch.allclose(grad_ad[i], grad_gpsr[i], atol=PSR_ACCEPTANCE)
         assert torch.allclose(

From 9576202427c38c22e1adc879625bf3d51bd3010c Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Fri, 9 Aug 2024 12:00:36 +0200
Subject: [PATCH 76/77] update usage restrictions

---
 docs/differentiation.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/differentiation.md b/docs/differentiation.md
index 359e8416..8437e103 100644
--- a/docs/differentiation.md
+++ b/docs/differentiation.md
@@ -13,7 +13,7 @@ The [adjoint differentiation mode](https://arxiv.org/abs/2009.02823) computes fi
 The Generalized parameter shift rule (GPSR mode) is an extension of the well known [parameter shift rule (PSR)](https://arxiv.org/abs/1811.11184) algorithm [to arbitrary quantum operations](https://arxiv.org/abs/2108.01218). Indeed, PSR only works for quantum operations whose generator has a single gap in its eigenvalue spectrum, GPSR extending to multi-gap.
 
 !!! warning "Usage restrictions"
-    At the moment, circuits with one or more Scale or HamiltonianEvolution operations are not supported.
+    At the moment, circuits with one or more Scale or HamiltonianEvolution with parametric generators operations are not supported.
     They should be handled differently as GPSR requires operations to be of the form presented below.
     Also, circuits with operations sharing a same parameter name are also not supported
     as such cases are handled by our other Python package for differentiable digital-analog quantum programs Qadence

From fe3f32312e9a847ebf4c527e23afbd2e7ac17410 Mon Sep 17 00:00:00 2001
From: Charles MOUSSA <charles.moussa@nl-psq-031.local>
Date: Fri, 9 Aug 2024 13:03:07 +0200
Subject: [PATCH 77/77] rm primitive file from merge conflict

---
 pyqtorch/matrices.py  |   4 +-
 pyqtorch/primitive.py | 215 ------------------------------------------
 2 files changed, 2 insertions(+), 217 deletions(-)
 delete mode 100644 pyqtorch/primitive.py

diff --git a/pyqtorch/matrices.py b/pyqtorch/matrices.py
index be721510..59a3e7f7 100644
--- a/pyqtorch/matrices.py
+++ b/pyqtorch/matrices.py
@@ -73,7 +73,7 @@ def parametric_unitary(
     batch_size: int,
     a: float = 0.5,  # noqa: E741
 ) -> torch.Tensor:
-    """Compute the exponentiation of a matrix :math:`P`
+    """Compute the exponentiation of a Pauli matrix :math:`P`
 
     The exponentiation is given by:
     :math:`exp(-i a \\theta P ) = I cos(r \\theta) - i a P sin(r \\theta) / r`
@@ -85,7 +85,7 @@ def parametric_unitary(
 
     Args:
         theta (torch.Tensor): Parameter values.
-        P (torch.Tensor): Matrix to exponentiate.
+        P (torch.Tensor): Pauli matrix to exponentiate.
         I (torch.Tensor): Identity matrix
         batch_size (int): Batch size of parameters.
         a (float): Prefactor.
diff --git a/pyqtorch/primitive.py b/pyqtorch/primitive.py
deleted file mode 100644
index 59d765de..00000000
--- a/pyqtorch/primitive.py
+++ /dev/null
@@ -1,215 +0,0 @@
-from __future__ import annotations
-
-from functools import cached_property
-from typing import Any
-
-import torch
-from torch import Tensor
-
-from pyqtorch.embed import Embedding
-from pyqtorch.matrices import OPERATIONS_DICT, controlled
-from pyqtorch.quantum_ops import QuantumOperation, Support
-from pyqtorch.utils import (
-    product_state,
-    qubit_support_as_tuple,
-)
-
-
-class Primitive(QuantumOperation):
-    """Primitive operators based on a fixed matrix U.
-
-
-    Attributes:
-        operation (Tensor): Matrix U.
-        qubit_support: List of qubits the QuantumOperation acts on.
-        generator (Tensor): A tensor G s.t. U = exp(-iG).
-    """
-
-    def __init__(
-        self,
-        operation: Tensor,
-        qubit_support: int | tuple[int, ...] | Support,
-        generator: Tensor | None = None,
-    ) -> None:
-        super().__init__(operation, qubit_support)
-        self.generator = generator
-
-    def to(self, *args: Any, **kwargs: Any) -> Primitive:
-        """Do device or dtype conversions.
-
-        Returns:
-            Primitive: Converted instance.
-        """
-        super().to(*args, **kwargs)
-        if self.generator is not None:
-            self.generator.to(*args, **kwargs)
-        return self
-
-    @cached_property
-    def eigenvals_generator(self) -> Tensor:
-        """Get eigenvalues of the underlying generator.
-
-        Note that for a primitive, the generator is unclear
-        so we execute pass.
-
-        Arguments:
-            values: Parameter values.
-
-        Returns:
-            Eigenvalues of the generator operator.
-        """
-        if self.generator is not None:
-            return torch.linalg.eigvalsh(self.generator).reshape(-1, 1)
-        pass
-
-
-class ControlledPrimitive(Primitive):
-    """Primitive applied depending on control qubits.
-
-    Attributes:
-        operation (Tensor): Unitary tensor U.
-        control (int | tuple[int, ...]): List of qubits acting as controls.
-        target (int | tuple[int, ...]): List of qubits operations acts on.
-    """
-
-    def __init__(
-        self,
-        operation: str | Tensor,
-        control: int | tuple[int, ...],
-        target: int | tuple[int, ...],
-    ):
-        support = Support(target, control)
-        if isinstance(operation, str):
-            operation = OPERATIONS_DICT[operation]
-        operation = controlled(
-            operation=operation.unsqueeze(2),
-            batch_size=1,
-            n_control_qubits=len(support.control),
-        ).squeeze(2)
-        super().__init__(operation, support)
-
-    def extra_repr(self) -> str:
-        return f"control:{self.control}, target:{self.target}"
-
-
-class X(Primitive):
-    def __init__(self, target: int):
-        super().__init__(OPERATIONS_DICT["X"], target)
-
-
-class Y(Primitive):
-    def __init__(self, target: int):
-        super().__init__(OPERATIONS_DICT["Y"], target)
-
-
-class Z(Primitive):
-    def __init__(self, target: int):
-        super().__init__(OPERATIONS_DICT["Z"], target)
-
-
-class I(Primitive):  # noqa: E742
-    def __init__(self, target: int):
-        super().__init__(OPERATIONS_DICT["I"], target)
-
-    def forward(
-        self,
-        state: Tensor,
-        values: dict[str, Tensor] = dict(),
-        embedding: Embedding | None = None,
-    ) -> Tensor:
-        """Returns only state.
-
-        Args:
-            state (Tensor): Input state
-            values (dict[str, Tensor], optional): Parameter value. Defaults to dict().
-            embedding (Embedding | None, optional): Optional embedding. Defaults to None.
-
-        Returns:
-            Tensor: Input state.
-        """
-        return state
-
-
-class H(Primitive):
-    def __init__(self, target: int):
-        super().__init__(OPERATIONS_DICT["H"], target)
-
-
-class T(Primitive):
-    def __init__(self, target: int):
-        super().__init__(OPERATIONS_DICT["T"], target)
-
-
-class S(Primitive):
-    def __init__(self, target: int):
-        super().__init__(OPERATIONS_DICT["S"], target, 0.5 * OPERATIONS_DICT["Z"])
-
-
-class SDagger(Primitive):
-    def __init__(self, target: int):
-        super().__init__(
-            OPERATIONS_DICT["SDAGGER"], target, -0.5 * OPERATIONS_DICT["Z"]
-        )
-
-
-class Projector(Primitive):
-    def __init__(self, qubit_support: int | tuple[int, ...], ket: str, bra: str):
-
-        qubit_support = qubit_support_as_tuple(qubit_support)
-        if len(ket) != len(bra):
-            raise ValueError("Input ket and bra bitstrings must be of same length.")
-        if len(qubit_support) != len(ket):
-            raise ValueError(
-                "Qubit support must have the same number of qubits of ket and bra states."
-            )
-        ket_state = product_state(ket).flatten()
-        bra_state = product_state(bra).flatten()
-        super().__init__(OPERATIONS_DICT["PROJ"](ket_state, bra_state), qubit_support)
-
-
-class N(Primitive):
-    def __init__(self, target: int):
-        super().__init__(OPERATIONS_DICT["N"], target)
-
-
-class SWAP(Primitive):
-    def __init__(self, i: int, j: int):
-        super().__init__(OPERATIONS_DICT["SWAP"], (i, j))
-
-
-class CSWAP(Primitive):
-    def __init__(self, control: int, target: tuple[int, ...]):
-        if not isinstance(target, tuple) or len(target) != 2:
-            raise ValueError("Target qubits must be a tuple with two qubits")
-        support = Support(target=qubit_support_as_tuple(control) + target)
-        super().__init__(OPERATIONS_DICT["CSWAP"], support)
-
-
-class CNOT(ControlledPrimitive):
-    def __init__(self, control: int | tuple[int, ...], target: int):
-        super().__init__("X", control, target)
-
-
-CX = CNOT
-
-
-class CY(ControlledPrimitive):
-    def __init__(self, control: int | tuple[int, ...], target: int):
-        super().__init__("Y", control, target)
-
-
-class CZ(ControlledPrimitive):
-    def __init__(self, control: int | tuple[int, ...], target: int):
-        super().__init__("Z", control, target)
-
-
-class Toffoli(ControlledPrimitive):
-    def __init__(self, control: int | tuple[int, ...], target: int):
-        super().__init__("X", control, target)
-
-
-OPS_PAULI = {X, Y, Z, I}
-OPS_1Q = OPS_PAULI.union({H, S, T})
-OPS_2Q = {CNOT, CY, CZ, SWAP}
-OPS_3Q = {Toffoli, CSWAP}
-OPS_DIGITAL = OPS_1Q.union(OPS_2Q, OPS_3Q)