Data Manipulation and Visualisation

Author

Irena Axmanová, Klára Klinkovská

Osnova předmětu Manipulace a vizualizace dat

V průběhu kurzu představíme pokročilé metody manipulace a vizualizace dat v programu R, zejména s využitím knihoven z kolekce tidyverse (tidyr, dplyr, tibble, purr, stringr, ggplot2, readr). Cílem předmětu je naučit studenty rutinní manipulaci s daty, tak aby si je uměli importovat, upravit, filtrovat, připojit nové informace z externích dat, vytvořit nové proměnné (např. na základě výpočtu), seskupit vzorky na základě nějaké charakteristiky/informace a pro tyto skupiny vypočítat další parametry. Dále se studenti naučí základní i pokročilé metody vizualizace dat pomocí ggplot2 a tvorbu základních map v R. Cílem předmětu je i osvojení přístupu open data science, kdy se naučí připravit skript tak, aby bylo možné ho na závěr publikovat na platformě GitHub.

1 Úvod - 15. 9. 2025

  • R jako programovací jazyk
  • Tidyverse package, %>%, |>
  • projekty v RStudiu, cheatsheets, keyboard shortcuts
  • zásady tidy skriptu (úprava, nadpisy, záložky, poznámky)
  • zdroje informací a kde hledat pomoc, AI
  • import pomocí readr, readxl, na co si dávat pozor (encoding)
  • struktura dat (names, table, glimpse)
  • tidy data (zásady, příprava, kontrola), přejmenování proměnných (rename)

2 Základní manipulace s daty - 22. 9. 2025

  • základní manipulace s daty (select, filter, mutate, arrange, slice)
  • export dat (write_csv)

3 Vizualizace dat pomocí ggplot - 29. 9. 2025

  • logika ggplot
  • základní geom funkce (point, boxplot, histogram, barplot)
  • prokládání trendů
  • symboly, barvy
  • legenda, popisky os
  • theme
  • uložení grafu (ggsave)

4 Wide vs. long format - 13. 10. 2025

  • převody formátů (pivot)
  • nové proměnné (mutate, group_by, summarise)
  • species richness, součty/podíly různých hodnot v rámci vzorku (count)

5 Join funkce - 20. 10. 2025

  • spojovací funkce (left_join, full_join), přidání informací z jiných datových souborů
  • filtrovací funkce: semi_join, anti_join
  • podíly určitých skupin podle vlastností, indikační hodnoty, CWM
  • úprava nomenklatury (pokročilé mutate, summarise), slučování duplicit
  • mutate s vícenásobnou podmínkou (ifelse, case_when)

6 Pokročilá vizualizace dat - 27. 10. 2025

  • ggplot advanced - faceting, using multiple data sources, scales, position adjustments, legend modifications
  • useful extensions - patchwork, ggpubr, ggeffects
  • shiny trailer (ukázka)

7 + 8 Automatizace skriptu - 3. a 10. 11. 2025

  • napsání vlastní funkce
  • použití smyček (for loops)
  • purrr a ukázka práce s nested dataframes

9 + 10 Mapy v R - 24. 11. a 1. 12. 2025

  • mapy pomocí terra
  • zobrazení vzorků v prostoru (přehledová mapa, měřítko, legenda…) na podkladě open street maps
  • kartogramy, mapování v gridu
  • extrakce dat z rastru, digitální model
  • výběr dat pomocí masky
  • škálování mapovaných bodů podle hodnot (barva, symbol)

11 Od databáze ke grafu (opakovací hodina) - 8. 12. 2025

  • import dat z databáze, propojení různých datových souborů, úprava struktury dat
  • filtrování podsouboru
  • sloučení duplicit např. vzniklých převodem nomenklatury
  • napojení externích vlastností, výpočty vážených průměrů
  • příprava grafu pro publikaci
  • sloučení celého procesu do jedné pipeliny

12 GitHub - 15. 12. 2025

  • jak funguje, stažení dat z veřejných projektů
  • version control
  • vlastní účet, propojení s RStudiem
  • vytvoření vlastního úložiště (repository), propojení s R projektem v počítači
  • spolupráce na projektu (branch, commit, push, pull, merge conflicts)
  • publikace skriptu, zveřejnění (doi, zásady readme)
  • GitHub pages