Data Manipulation and Visualisation
Osnova předmětu Manipulace a vizualizace dat
V průběhu kurzu představíme pokročilé metody manipulace a vizualizace dat v programu R, zejména s využitím knihoven z kolekce tidyverse (tidyr, dplyr, tibble, purr, stringr, ggplot2, readr). Cílem předmětu je naučit studenty rutinní manipulaci s daty, tak aby si je uměli importovat, upravit, filtrovat, připojit nové informace z externích dat, vytvořit nové proměnné (např. na základě výpočtu), seskupit vzorky na základě nějaké charakteristiky/informace a pro tyto skupiny vypočítat další parametry. Dále se studenti naučí základní i pokročilé metody vizualizace dat pomocí ggplot2 a tvorbu základních map v R. Cílem předmětu je i osvojení přístupu open data science, kdy se naučí připravit skript tak, aby bylo možné ho na závěr publikovat na platformě GitHub.
1 Úvod - 15. 9. 2025
- R jako programovací jazyk
- Tidyverse package, %>%, |>
- projekty v RStudiu, cheatsheets, keyboard shortcuts
- zásady tidy skriptu (úprava, nadpisy, záložky, poznámky)
- zdroje informací a kde hledat pomoc, AI
- import pomocí readr, readxl, na co si dávat pozor (encoding)
- struktura dat (names, table, glimpse)
- tidy data (zásady, příprava, kontrola), přejmenování proměnných (rename)
2 Základní manipulace s daty - 22. 9. 2025
- základní manipulace s daty (select, filter, mutate, arrange, slice)
- export dat (write_csv)
3 Vizualizace dat pomocí ggplot - 29. 9. 2025
- logika ggplot
- základní geom funkce (point, boxplot, histogram, barplot)
- prokládání trendů
- symboly, barvy
- legenda, popisky os
- theme
- uložení grafu (ggsave)
4 Wide vs. long format - 13. 10. 2025
- převody formátů (pivot)
- nové proměnné (mutate, group_by, summarise)
- species richness, součty/podíly různých hodnot v rámci vzorku (count)
5 Join funkce - 20. 10. 2025
- spojovací funkce (left_join, full_join), přidání informací z jiných datových souborů
- filtrovací funkce: semi_join, anti_join
- podíly určitých skupin podle vlastností, indikační hodnoty, CWM
- úprava nomenklatury (pokročilé mutate, summarise), slučování duplicit
- mutate s vícenásobnou podmínkou (ifelse, case_when)
6 Pokročilá vizualizace dat - 27. 10. 2025
- ggplot advanced - faceting, using multiple data sources, scales, position adjustments, legend modifications
- useful extensions - patchwork, ggpubr, ggeffects
- shiny trailer (ukázka)
7 + 8 Automatizace skriptu - 3. a 10. 11. 2025
- napsání vlastní funkce
- použití smyček (for loops)
- purrr a ukázka práce s nested dataframes
9 + 10 Mapy v R - 24. 11. a 1. 12. 2025
- mapy pomocí terra
- zobrazení vzorků v prostoru (přehledová mapa, měřítko, legenda…) na podkladě open street maps
- kartogramy, mapování v gridu
- extrakce dat z rastru, digitální model
- výběr dat pomocí masky
- škálování mapovaných bodů podle hodnot (barva, symbol)
11 Od databáze ke grafu (opakovací hodina) - 8. 12. 2025
- import dat z databáze, propojení různých datových souborů, úprava struktury dat
- filtrování podsouboru
- sloučení duplicit např. vzniklých převodem nomenklatury
- napojení externích vlastností, výpočty vážených průměrů
- příprava grafu pro publikaci
- sloučení celého procesu do jedné pipeliny
12 GitHub - 15. 12. 2025
- jak funguje, stažení dat z veřejných projektů
- version control
- vlastní účet, propojení s RStudiem
- vytvoření vlastního úložiště (repository), propojení s R projektem v počítači
- spolupráce na projektu (branch, commit, push, pull, merge conflicts)
- publikace skriptu, zveřejnění (doi, zásady readme)
- GitHub pages