*Wir wissen, dass jedes Team seine eigenen Bedürfnisse und Anforderungen hat. Deshalb können wir den Schulungsplan je nach Bedarf anpassen.
Modul 1: Kernarchitektur und Ausführungsmodell
- Rollen von Scheduler, Webserver und Workern und ihr Zusammenspiel
- DAGs, Tasks und Operators als Arbeitseinheiten
- Executors und Backends Local, Celery, Kubernetes Auswahlüberlegungen
- Metadatenbank und Queues als Rückgrat des Systems
Modul 2: Installation und Konfiguration
- Umgebungsvarianten lokal, Container, Managed und Self Hosted Cloud
- Konfiguration von Executorn und Queues für Durchsatz und Stabilität
- Einrichtung von Metadatenspeichern und Airflow Connections
- Packaging von Abhängigkeiten und Provider Management
Modul 3: Arbeiten mit UI und CLI
- Web UI für DAG Ansichten, Task Graphen und Logs
- Monitoring von Runs, Retries, SLAs und Backfills
- CLI für Administration Users, Variables, Pools und Deployments
- Rollenbasierter Zugriff auf Views und Aktionen
Modul 4: DAGs erstellen und verwalten
- TaskFlow API für gut lesbare Python native Pipelines
- Muster mit Operators, Sensors und Hooks für externe Systeme
- Abhängigkeiten, Schedules und Kalender inklusive Catchup Regeln
- Idempotenz und datengetriebene Schedules
Modul 5: Daten- und Cloud Integrationen
- Anbindung von Datenbanken, Dateien, APIs und Message Queues
- ETL oder ELT Pipelines mit modularen Tasks aufbauen
- AWS, GCP und Azure Provider für Storage, Compute und Serverless
- Parametrisierung für Umgebungen und Mandanten
Modul 6: Monitoring und Observability
- Task Logs und Echtzeitansichten für Health
- Metriken Export Prometheus Scraping und Grafana Dashboards
- Alerts und Benachrichtigungen via E Mail, Slack und Webhooks
- Run History, Audit Trails und Lineage Signale
Modul 7: Sicherheitsgrundlagen
- RBAC Modelle und Least Privilege
- Authentifizierung mit SSO, OAuth oder LDAP
- Secrets Management HashiCorp Vault und Cloud Secret Stores
- Netzwerkkontrollen für Worker, Datenbanken und externe Aufrufe
Modul 8: Airflow skalieren
- Parallelism, Concurrency, Pools und Queues ohne Verhungern
- CeleryExecutor und KubernetesExecutor Auswahl und Tuning
- Deployment auf Kubernetes mit Helm und bewährten Values
- Leitplanken für Kosten und Performance
Modul 9: Best Practices für den Produktivbetrieb
- Versionskontrolle und CI oder CD für DAGs und Provider
- Teststrategien Unit, Integration und End to End Orchestrierung
- Zuverlässiges Scheduling mit SLAs und Kalendern
- Performante DAG Gestaltung
Modul 10: Troubleshooting und Optimierung
- Fehlgeschlagene Tasks und blockierte DAGs aus Logs und Events analysieren
- Laufzeiten, Retries und Backoff optimieren
- Häufige Stolpersteine vermeiden XCom Aufblähung, zu häufige Sensoren, riesige DAGs
- Sichere Backfills und erneute Läufe
Modul 11: Betrieb und Governance
- Change Control, Freigaben und Rolloutmuster
- Ownership, Rufbereitschaft und Runbooks für Incidents
- Data Quality Gates und Vertragsprüfungen in Pipelines
- Kapazitätsplanung und Upgrade Strategie
Modul 12: Übergabe und Fahrplan
- Standardvorlagen für DAGs, Connections und Alerts
- Playbooks für Scale Out oder Cloud Migration
- Readiness Checkliste für den Produktivgang
- Neunzig Tage Verbesserungsplan und Scorecard