-
Notifications
You must be signed in to change notification settings - Fork 7
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Polyflow task sync sometimes not working #1251
Comments
For above mentioned incident the solution was to manually delete the task with all correlating data. |
We need more metrics in prometheus to detect the occurencies. |
…dd /actuator/prometheus to permitted paths
* ongoing metrics redefinition * configured kafka-ui, resorted services * change visibility * wip: new gauge * new logging * more logging * #1251: move event EventMessageCountingMonitor setup to constructor. add /actuator/prometheus to permitted paths * create additional metrics for tasks, reduce loggingin integration itests * confgured monitoring * tasklist service fix prometheus path * remove unnneded config * rename metric to match the sender side * rename label --------- Co-authored-by: stephan.strehler <[email protected]> Co-authored-by: Simon Hirtreiter <[email protected]>
Wartet auf #1229, um den Fehler einzugrenzen |
* ongoing metrics redefinition * configured kafka-ui, resorted services * change visibility * wip: new gauge * new logging * more logging * #1251: move event EventMessageCountingMonitor setup to constructor. add /actuator/prometheus to permitted paths * create additional metrics for tasks, reduce loggingin integration itests * confgured monitoring * tasklist service fix prometheus path * remove unnneded config * rename metric to match the sender side * rename label --------- Co-authored-by: stephan.strehler <[email protected]> Co-authored-by: Simon Hirtreiter <[email protected]>
* Feature/monitoring (#1306) * ongoing metrics redefinition * configured kafka-ui, resorted services * change visibility * wip: new gauge * new logging * more logging * #1251: move event EventMessageCountingMonitor setup to constructor. add /actuator/prometheus to permitted paths * create additional metrics for tasks, reduce loggingin integration itests * confgured monitoring * tasklist service fix prometheus path * remove unnneded config * rename metric to match the sender side * rename label --------- Co-authored-by: stephan.strehler <[email protected]> Co-authored-by: Simon Hirtreiter <[email protected]> * configurble metrics, fix #1338 (#1353) * configurble metrics, fix #1338 * Update digiwf-engine/digiwf-engine-service/src/main/resources/application.yml Co-authored-by: Simon Hirtreiter <[email protected]> * Update digiwf-libs/digiwf-camunda-prometheus/digiwf-camunda-prometheus-starter/src/main/java/de/muenchen/oss/digiwf/camunda/prometheus/MetricsProviderSchedulerAutoConfiguration.java Co-authored-by: Simon Hirtreiter <[email protected]> * Update digiwf-libs/digiwf-camunda-prometheus/digiwf-camunda-prometheus-starter/src/main/java/de/muenchen/oss/digiwf/camunda/prometheus/CamundaPrometheusProperties.java Co-authored-by: Simon Hirtreiter <[email protected]> --------- Co-authored-by: Simon Hirtreiter <[email protected]> --------- Co-authored-by: Simon Zambrovski <[email protected]> Co-authored-by: stephan.strehler <[email protected]>
* #881 move types folder * #881 update types in package.json * chore: bump release version (#1289) * chore: mvn auto version bump to 1.7.2-SNAPSHOT * v1.7.2 --------- Co-authored-by: DigiWF Github Bot <[email protected]> * fix components.d.ts * Fix: DMS-Input returns COOs * chore: bump release version (#1342) * chore: mvn auto version bump to 1.7.4-SNAPSHOT * v1.7.4 --------- Co-authored-by: DigiWF Github Bot <[email protected]> * chore: bump release version (#1344) * chore: mvn auto version bump to 1.7.5-SNAPSHOT * v1.7.5 --------- Co-authored-by: DigiWF Github Bot <[email protected]> * Feature/metrics for 1.7 release (#1356) * Feature/monitoring (#1306) * ongoing metrics redefinition * configured kafka-ui, resorted services * change visibility * wip: new gauge * new logging * more logging * #1251: move event EventMessageCountingMonitor setup to constructor. add /actuator/prometheus to permitted paths * create additional metrics for tasks, reduce loggingin integration itests * confgured monitoring * tasklist service fix prometheus path * remove unnneded config * rename metric to match the sender side * rename label --------- Co-authored-by: stephan.strehler <[email protected]> Co-authored-by: Simon Hirtreiter <[email protected]> * configurble metrics, fix #1338 (#1353) * configurble metrics, fix #1338 * Update digiwf-engine/digiwf-engine-service/src/main/resources/application.yml Co-authored-by: Simon Hirtreiter <[email protected]> * Update digiwf-libs/digiwf-camunda-prometheus/digiwf-camunda-prometheus-starter/src/main/java/de/muenchen/oss/digiwf/camunda/prometheus/MetricsProviderSchedulerAutoConfiguration.java Co-authored-by: Simon Hirtreiter <[email protected]> * Update digiwf-libs/digiwf-camunda-prometheus/digiwf-camunda-prometheus-starter/src/main/java/de/muenchen/oss/digiwf/camunda/prometheus/CamundaPrometheusProperties.java Co-authored-by: Simon Hirtreiter <[email protected]> --------- Co-authored-by: Simon Hirtreiter <[email protected]> --------- Co-authored-by: Simon Zambrovski <[email protected]> Co-authored-by: stephan.strehler <[email protected]> * chore: bump release version (#1358) * chore: mvn auto version bump to 1.7.6-SNAPSHOT * v1.7.6 --------- Co-authored-by: DigiWF Github Bot <[email protected]> * chore: bump release version (#1371) * chore: mvn auto version bump to 1.8.0-SNAPSHOT * v1.8.0 --------- Co-authored-by: DigiWF Github Bot <[email protected]> --------- Co-authored-by: stephan.strehler <[email protected]> Co-authored-by: github-actions[bot] <41898282+github-actions[bot]@users.noreply.github.com> Co-authored-by: DigiWF Github Bot <[email protected]> Co-authored-by: darenegade <[email protected]> Co-authored-by: Simon Hirtreiter <[email protected]> Co-authored-by: Simon Zambrovski <[email protected]>
@zambrovski im Rahmen von #1392 habe ich auf Processes-Hotfix einen Reimport angestoßen, dabei ist mir folgendes aufgefallen:
Sieht für mich so aus, wie wenn die Taskliste also für manche Events nichts ändert und das an den Tasks selbst zu liegen scheint, weil ja die gleichen immer wieder ignoriert werden, so wie es aussieht. |
Hat sich nicht bestätigt... Verbessertes logging eingebaut und mit Polyflow 4.1.4 released. Ist eingebaut und wir schauen, was nun passiert |
Problem konnte durch einen koordinierten Lasttest nicht mehr reproduziert werden und ist auch schon länger nicht mehr aufgetreten. Wir richten einen Alert ein auf den Processes-* und Prod. Bis das Problem wieder aufkommt, wird das Ticket erstmal geschlossen |
Aufgetreten auf Processes-Test für Instanz ecb94808-e82a-11ee-8b4a-0a580a8a27ad mit Task 9ef184d3-e82b-11ee-90eb-0a580a8a319e: Verhalten war hier, dass die Engine in dem Moment gecrasht hat, das führte zu folgender Fehlermeldung. Wie man aus der Fehlermeldung schließen kann wurde in diesem Fall gar kein Axon-Event erzeugt. Log2024-03-22T10:07:38.741
|
Scheint eine Race-Condition beim Gracefull-Shutdown vorzuliegen, da der Handler für |
Änderung zum Graceful-Shutdown: |
Entsprechendes Axon-Issue dazu: AxonFramework/AxonFramework#891 |
Hatte ich schon geprüft. Axon hat das seit 4.3 und wir nutzen 4.9. Wo ich noch nicht sicher bin, ist ob es richtig bei uns integriert ist, sodass dies auch greift und ob das auch Polyflow richtig unterstützt. |
Aktueller Stand: Events werden immer korrekt in die |
Debugging durch setzen des Tokens auf einen vergangen Wert um das erneute senden der Events auszulosen.
Fehlende Tasks werden immer noch nicht angelegt. |
1 similar comment
Debugging durch setzen des Tokens auf einen vergangen Wert um das erneute senden der Events auszulosen.
Fehlende Tasks werden immer noch nicht angelegt. |
Aktuelle DiagnoseDer GrundDie Verwendung von JPA/Hibernate default sequence increment von 50 führt zu diesem Verhalten bei mehr als einem Knoten. Behebung
Mehr details
Weitere Hinweise
|
ALTER SEQUENCE domain_event_entry_seq
INCREMENT BY 1;
|
@zambrovski @darenegade müssen |
Lass uns das als PN kurz besprechen. Falls du auf die Demo geschaut hast, darfst du den Werten dort nicht trauen, da ich aktuell ein paar Tests für den HotFix mache |
Änderung wurde auf Demo ausgerollt und getestet. Grundsätzlich funktioniert die Config und Tasks werden synchronisiert. Die alten Fälle lassen sich damit natürlich nicht mehr "heilen", da die Reihenfolge nicht korrigiert ist. Man kann dies aber manuell beheben und dann passt es wieder. Hier eine Query um die Fälle herauszufinden: SELECT count(*) FROM domain_event_entry t1
INNER JOIN domain_event_entry t2
ON t1.aggregate_identifier = t2.aggregate_identifier
WHERE t1.TIME_STAMP < t2.TIME_STAMP
AND t1.GLOBAL_INDEX > t2.GLOBAL_INDEX
AND t1.payload_type='io.holunda.camunda.taskpool.api.task.TaskCreatedEngineEvent'
AND (
t2.payload_type='io.holunda.camunda.taskpool.api.task.TaskCompletedEngineEvent'
OR
t2.payload_type='io.holunda.camunda.taskpool.api.task.TaskDeletedEngineEvent'
)
order by t1.TIME_STAMP ASC; Anzahl Fälle: Prod: 1272 |
Fix ausgerollt auf Processes-*. Nun warten auf Rückmeldung, ob das Problem damit behoben... |
|
@simonhir Wir müssen das Monitoring auch unbedingt wieder aktivieren. Aktuell kann man auf keiner Umgebung die Daten für die Engine sehen |
Unterschied der mir auf dev im Gegensatz zu processestraining aufgefallen ist:
Hab mit REQ0682591 eine Anpassung von dev auf den gleichen Zustand beantragt um das auszuschließen. Denke aber es könnte schon daran liegen. |
Aufsplitten zu zwei separaten PostgreSQL-Usern für Engine und Tasklist hat das Problem wie oben vermutet behoben. |
Nach erneuten Fehlern merke: In Zukunft Schema neu anlegen lassen anstatt auf neuen User zu übertragen Fehler danach behoben |
Very rarely it occurs that engine task changes are not correctly represented in polyflow. That means that tasks are not created or not closed.
Observations with below example
TaskCompletedEngineEvent
correctly inCOMAIN_EVENT_ENTRY
table in engine dbplf_task
table in tasklist dbAcceptance criteria
Reference
The text was updated successfully, but these errors were encountered: