TTC8050 - Koneoppiminen
Kurssin tiedot
Nimi | Koneoppiminen |
Koodi | TTC8050 |
Osa moduulia | DATA-ANALYTIIKKA JA TEKOÄLY |
Opettaja(t) | Juha Peltomäki |
Ajoitus | |
Toteutusten määrä | 1 |
Peppi | Katso Peppi kuvaus |
Miksi valitsisin tämän kurssin?
Kurssin on monipuolinen johdanto koneoppimiseen Pythonin laadukkaita ja ilmaisia kirjastoja (mm. Pandas ja Scikit-learn) käyttäen. Tutustutaan yleisimpiin koneoppimisen malleihin. Huomioidaan, että koneoppimisen juuret ovat tilastotieteessä ja osa malleista on jo 1800-luvulta (mm. Bayes-menetelmä sekä lineaariregressio). Koneoppimiseen liittyy aina virhemahdollisuus koneoppimisen algoritmeja soveltaessa. Tässä vaiheessa tarvitaan opetusdataa ja testidataa. Koneoppimisalgoritmin opetusvaiheessa käytetään pelkästään opetusdataa. Kuinka hyvin koneoppimismalli sitten ennustaa lopputuloksen? Tähän ei enää käytetään opetusdataa vaan testidataa, jolla voidaan arvioida koneoppimismallin ennustuksen tarkkuutta hyvinkin luotettavasti. Tällä kurssilla ei tyydytä koneoppimisen teoriaan, vaikka perusteoria koneoppimisen taustalla tulee tutuksi, vaan keskeisistä koneoppimisen malleista (kuten lähimmät naapurit, pääkomponenttianalyysi ja päätöspuut/satunnaismetsä jne.) on aina käytännön esimerkkejä tai harjoituksia.
Data-analytiikan ja tekoälyn opintojaksojen esittelyvideo (Mika Rantonen): https://youtu.be/itcS7-WTVuM.
Sisältö
- Ohjattu ja ohjaamaton koneoppiminen sekä yleisimmät regressio- ja luokittelumallit
- Soveltaminen käyttäen Python-kirjastoja (NumPy, Pandas ja scikit-learn)
- Datan formaatti ja laatu
- Datajoukon jako opetus- ja testidataan
- Mallin tarkkuuden arviointi
Erilaiset koneoppimisen mallit:
- k lähintä naapuria (k-nearest neighbors)
- k-means -klusterointi
- Naiivi Bayes-menetelmä
- Tukivektorikone (Support Vector Machine)
- Pääkomponenttianalyysi (PCA)
- Päätöspuut ja satunnaismetsä
- Perseptroni (yksinkertainen neuroverkko)
Kurssin suoritus
Kurssin suorittaminen pohjautuu koneoppimisen malleja soveltaviin harjoituksiin.