Στα πλαίσια των σεμιναρίων είδαμε τα βασικά βήματα για να δημιουργήσει κάποιος ένα Data Engineering Project.
- Θα λαμβάνει δεδομένα από κάποιο API (ενδεικτικά δείτε εδώ).
- Θα περνάει τα δεδομένα σε Dataframe και θα τα καθαρίζει από NULL τιμές.
- Θα εφαρμόζει στα δεδομένα τουλάχιστον δύο από τις μεθόδους επεξεργάσιας των δεδομένων που είδαμε (Summary stats από τις διαφάνειες ή όποια άλλα επιλέξετε)
- Θα οπτικοποιεί τα επεξεργασμένα δεδομένα ώστε να δωθεί απάντηση σε 5 ερωτήσεις-queries.
Έστω ότι έχουμε ένα σετ δεδομένων από πελάτες σε ένα εστιατόριο.
- Πώς μεταβάλλεται το μέσο κόστος των παραγγελιών ανάλογα την ώρα?
- Ποιο φύλο δίνει καλύτερα φιλοδωρήματα?
- Σε ποια τραπέζια προτιμούν να κάθονται οι πελάτες?
- Πόση ώρα (κατά μέσο όρο) τρώνε οι καπνιστές σε σχέση με τους μη καπνιστές?
- Κατά πόσο αυξάνονται (ή μειώνονται) τα συνολικά έσοδα στο μαγαζί από όταν άνοιξε?
Διατυπώστε δικές σας ερωτήσεις με βάση τα δεδομένα που θα πάρετε από το API που επιλέξετε.
Για την αξιολόγηση του πρότζεκτ θα ληφθούν υπόψη:
- Η πληρότητα του πρότζεκτ (Έχει όλες τις λειτουργίες που ζητούνται?)
- Αν εκτελείται σωστά το πρόγραμμα
- Η ποιότητα του κώδικα και των σχολίων
Δε θα υπάρχει βαθμολογία για το πρότζεκτ, αλλά είναι απαραίτητο για την απόκτηση της βεβαίωσης παρακολούθησης.
Για να παραδώσετε την εργασία κάντε fork το παρόν αποθετήριο και ανεβάστε τον κώδικα της εργασίας σας σε ένα νέο φάκελο ή ένα νέο branch. Όταν έχετε ολοκληρώσει το project κάντε Pull Request ώστε να ολοκληρωθεί η παράδοση.
Μπορείτε να αναπτύξετε την εφαρμογή σε όποια πλατφόρμα και γλώσσα θέλετε. Η χρήση Github δεν είναι υποχρεωτική και δεν λαμβάνεται υπόψη για την απόκτηση της βεβαίωσης, συνιστάται όμως για την ευκολότερη οργάνωση των εργασιών.
Για απορίες μπορείτε να χρησιμοποιήσετε τα Github Disussions του αποθετηρίου ή να στείλετε email στο: [email protected]
Deadline Εργασιών: 31 Αυγούστου 2022