I dette prosjektet finner du oppgaver for å lære maskinlæring med Apache Spark i Java. I hver modul er det en kjørbare klasse App som leder deg til koden som skal skrives og hint til hva som skal gjøres. Start med App.java i task1-modulen.
For å jobbe med oppgavene i prosjektet trenger du
- Java 8 (JDK 8 nedlasting)
- Maven (installasjonsguide)
- Helst en IDE, feks IntelliJ
Windows-brukere kan møte på litt ekstra installasjon, se her for hva som må gjøres. Det skal være tilstrekkelig å laste ned winutils.exe, sette HADOOP_HOME og legge den til i PATH.
Gå til mlworkshop.net for instruksjoner til oppgavene, tips & triks og high scores.
I oppgave 1 brukes en litt omformet versjon av datasettet Student Performance Data Set.
P. Cortez and A. Silva. Using Data Mining to Predict Secondary School Student Performance. In A. Brito and J. Teixeira Eds., Proceedings of 5th FUture BUsiness TEChnology Conference (FUBUTEC 2008) pp. 5-12, Porto, Portugal, April, 2008, EUROSIS, ISBN 978-9077381-39-7 pdf.
Oppgave 3 baserer seg på åpne data fra Oslo bysykkel, som kan lastes ned herfra.