TTC8040 - Datan analysointi ja visualisointi
Kurssin tiedot
Nimi | Datan analysointi ja visualisointi |
Koodi | TTC8040 |
Osa moduulia | DATA-ANALYTIIKKA JA TEKOÄLY, ÄLYKKÄÄT IoT -RATKAISUT |
Opettaja(t) | Juha Peltomäki |
Ajoitus | |
Toteutusten määrä | 1 |
Peppi | Katso Peppi kuvaus |
Miksi valitsisin tämän kurssin?
Kurssi on välttämätön osa kaikille, jotka aikovat suuntautua datan analysointia vaativiin käytännön tehtäviin!
Kurssilla opit datan muokkaamisen, korjaamisen, käsittelyn Python-pohjaisilla Data-analysointi -kirjastoilla. Myös datan dokumentointi (raportointi) ja visualisointi tulee konkreettisesti tutuksi kurssin lukuisten esimerkkien ja harjoitusten avulla. Pythonille on saatavilla open source-pohjaisia, ilmaisia ja laadukkaita kirjastoja (mm. NumPy, Pandas ja Seaborn-learn), joiden käyttö tulee tutuksi tällä kurssilla. Myös Jupyter Notebook sekä Anaconda ovat keskeisiä työvälineitä kurssilla.
Data-analytiikan ja tekoälyn opintojaksojen esittelyvideo (Mika Rantonen): https://youtu.be/itcS7-WTVuM.
Sisältö
- NumPy-kirjasto ja -taulukko
- Pandas-kirjasto
- Pandas Series (1D-rakenne)
- Pandas DataFrame (2D-rakenne)
- Rakenteiden indeksit (rivi- ja sarake-indeksi)
- Haku, suodatus ja poisto
- Sorttaaminen ja datan siivoaminen
- Eri formaattien (mm. CSV, HTML, XML, JSON) lukeminen DataFrameen
- Tilastolliset tiedot (mm. keskiarvot, mediaanit, minimi ja maksimi)
- Datan ryhmittely
- Monitasoiset indeksit
- DataFramen yhdistäminen
- Ristiintaulukointi (pivot table)
- Datan visualisointi (matplotlib)
- Seaborn-kirjasto visualisointiin
- Kuvioiden tuottaminen datasta (viivadiagrammit, pylväsdiagrammit, yhdistelmäkuviot jne)
- Aikasarjat (Time Series)
- Hajonta, keskihajonta ja hajontakaaviot
- Korrelaatio
Kurssin suoritus
Kurssi suoritetaan viikoittain palautettavien harjoitusten avulla.