"#### Pura tämän kansion sisällä olevan `data.html` -tiedoston `table`-elementin solujen arvot käyttäen regex-syntaksia ja yhdistä ne vaiheessa 1 luotuun dataframeen."
"#### Pura tämän kansion sisällä olevan `data.html` -tiedoston `table`-elementin solujen arvot käyttäen regex-syntaksia ja yhdistä ne vaiheessa 1 luotuun dataframeen. Huom: tehtävässä tulee käyttää vain regexiä (Esim. Pandasin read_html()-metodin käyttö on kielletty)!"
]
},
{
...
...
@@ -172,4 +172,4 @@
},
"nbformat": 4,
"nbformat_minor": 2
}
}
\ No newline at end of file
%% Cell type:markdown id: tags:
## Harjoitustyö
%% Cell type:markdown id: tags:
### Vaihe 1:
%% Cell type:markdown id: tags:
#### Hae Digitrafficin REST-rajapintapalvelusta (JSON-formaatissa) aktiiviset junat pääteosoitteella `/live-trains` Helsingin asemalta, joiden hakuparametrit ovat seuraavat:
* arrived_trains=10
* departed_trains=10
* include_nonstopping=False
#### Tämän jälkeen lue kyseinen data Pandasin dataframeen ilman muokkaamista, jolloin sarakkeiden otsikot ovat seuraavanlaiset:
`cancelled`,
`commuterLineID`,
`departureDate`,
`operatorShortCode`,
`operatorUICCode`,
`runningCurrently`,
`timeTableRows`,
`timetableAcceptanceDate`,
`timetableType`,
`trainCategory`,
`trainNumber`,
`trainType`,
`version`
%% Cell type:code id: tags:
``` python
#
```
%% Cell type:markdown id: tags:
#### Poista kaikki muut sarakkeet paitsi `timeTableRows` ja `trainNumber`
%% Cell type:code id: tags:
``` python
#
```
%% Cell type:markdown id: tags:
#### Tämän jälkeen pura `timeTableRows` sarakkeen arvot jokaisesta junasta erikseen (sarakkeen arvo jokaiselle junalle sisältää useampia JSON-objekteja) ja lisää dataan mukaan junan tiedot yksilöivä `trainNumber`
%% Cell type:code id: tags:
``` python
#
```
%% Cell type:markdown id: tags:
#### Pudota sitten seuraavat sarakkeet datasta: `causes`, `estimateSource`, `liveEstimateTime`, `differenceInMinutes`, `commercialStop` ja `trainReady`
#### Pura tämän kansion sisällä olevan `data.html` -tiedoston `table`-elementin solujen arvot käyttäen regex-syntaksia ja yhdistä ne vaiheessa 1 luotuun dataframeen.
#### Pura tämän kansion sisällä olevan `data.html` -tiedoston `table`-elementin solujen arvot käyttäen regex-syntaksia ja yhdistä ne vaiheessa 1 luotuun dataframeen. Huom: tehtävässä tulee käyttää vain regexiä (Esim. Pandasin read_html()-metodin käyttö on kielletty)!
%% Cell type:code id: tags:
``` python
#
```
%% Cell type:markdown id: tags:
### Vaihe 3:
#### Tee SQLite tietokanta ja lisää sinne vaiheessa 2 luotu dataframe.