Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

BULK data migrering og indlæsning i WHOLESALE domænet #384

Open
PerTHenriksen opened this issue Nov 20, 2022 · 0 comments
Open

BULK data migrering og indlæsning i WHOLESALE domænet #384

PerTHenriksen opened this issue Nov 20, 2022 · 0 comments
Labels

Comments

@PerTHenriksen
Copy link

PerTHenriksen commented Nov 20, 2022

Baggrund
Tidsserier er kopieret ud fra DH2, ud i et storage i Energinets domæne - disse skal gøres anvendelige for DH3s balancefiksering.

Migreringen er tænkt som en ETL proces, hvor data
Extractes,
Transformers,
Loades

I denne opgave er der tale om
-tidsserier,
-målepunktshistorik og leverandøroplysninger,
charges og charge links

I denne EPIC skal data Transformeres, d.v.s. beriges, kvalificeres, og ændres til et passende format. Dette er en midlertidig opbevaring, og processen kan genkøres frem til det endelig load af tidsserier er godkendt.

Herefter skal de loades.

Data Extractes kontinuerligt fra DH2, hvorfor ETL processen skal ske løbende for afgrænsede perioder.

Behov

Behov 1) Miljø
Der skal ske seperate ETL for tidsserier for hvert miljø; præprod og prod. Der skal ske en adskillelse, så alene adgang til prod-data begrænses.
@rasmus: behov for udlæsning af dh2 præprod data.

Behov 2) Transform
Eksporterede data ligger i blob storage i json format. Tidsserier er afhængige af målepunktsinformation til at afgøre typen. Man kan ikke ud fra tidsserie json-filen alene afgøre, om der er tale om et skabelonafregnet MP,et beregnet målepunkt. Altså skal tidsserie beriges inden load.
Ligeledes må der forventes en behandling af data, eftersom der er konstateret inkonsistens for tidsopløsningen mellem målepunktsstamdata og målinger. Dette skal rettes som led i transformationen.
Ligeledes skal transformationen tage til tidsangivelse, der er påpeget en risk omkring sommer/normal tid.

Behov 3) 
Der skal vælges en opbevaringsform (database, lake, etc) som både tilgodeser en hurtig transformering og en hurtig udlæsning.

Der skal afklares hvilken indlæsningsteknologi der skal anvendes. 

Behov 4)
Afgrænsning
Der er identificeret behov for at afgrænse hvilke data der skal indlæses.
Dvs. der skal migreres
komplet historik for årene 20xx til 202x
al revisionshistorik

Behov 5)
Afstemning
For at kunne garantere, at alle data er enten indlæst eller frasorteret, er der behov for kontrol-optællinger.

Evt pr netområde.

Afklaring
Vi skal have afklaret med CA, hvornår de kan sørge for at vi kan benytte den Express Route der er tiltænkt at skulle agere kanal for de migrerede data.

Afhængigheder
Der er en afhængighed til Eloverblik, da de også har interesse i at trække på samme datagrundlag.

CA (Cloud Architecture) til at konfigurere modtagerenden hos os på den Express Route, CGI har fået Sentia til at sætte op og som allerede nu kører.


LOAD:

Indlæsning af vaskede
tidsserier, målepunkter, priser, prislinks og leverandøroplysninger

Vi skal afklare med en MVP, hvilken indlæsningsmekanisme der er mest fordelagtig; indlæsning via events eller via "suge op fra transisitonsdatalaget"

Baggrund
Vaskede data (tidsserier, målepunkter, priser og leverandøroplysninger) er kvalificeret og klar til indlæsning i DH3, således at det er gjort anvendeligt for DH3s balancefiksering.

Migreringen er tænkt som en ETL proces, hvor data
Extractes,
Transformers,
Loades

I denne opgave er der tale om LOAD af 
-tidsserier,
-målepunktshistorik og
-leverandøroplysninger, 
charges, prislinks

Data der er transformeret skal Loades ind i et DH3 miljø., forventligt en deltalake i forbindelse med wholesale domænet

Data Extractes loades kontinuerligt fra transformationslaget, hvorfor ETL processen skal ske løbende for afgrænsede perioder.

Behov

Behov 1) Load
Tidsserier og Nødvendige målepunktshistorik, leverandøroplysninger og charges, Loades ind time series domænet, så der er et fundament for en beregningerne.

I denne proces skal der indlæses for tidserier for
skabelon afregnede (?)
flexafregnede målepunkter (?)
beregnede målepunkter (?)
virtuelle målepunkter (?)

Behov 2) 
Afstemning
For at kunne garantere, at alle data er enten indlæst eller frasorteret, er der behov for kontrol-optællinger. 
Evt pr netområde. 

@PerTHenriksen PerTHenriksen changed the title BULT TEST data migration and load to WHOLESALE domain BULK data migration and load to WHOLESALE domain Nov 20, 2022
@PerTHenriksen PerTHenriksen changed the title BULK data migration and load to WHOLESALE domain BULK data migrering og indlæsning i WHOLESALE domænet Jan 23, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant