AirBnB Listings (Fabric/PySpark)
Einleitung
Technische Umsetzung:
Rohdaten wurden in ein Fabric Lakehouse geladen und über Dataflow Gen2 nach ersten Transformationen in ein SQL Warehouse überführt. Die Analyse fand in einem T-SQL Notebook statt. Für den Scatterplot und die Azure Map wurden SQL Views erstellt, um die Performance für das Reporting zu maximieren. Da 04/2022 unvollständig ist, sollten diese Daten noch entfernt werden.
Datenimport & Datentypen-Konfiguration der Faktentabelle „Listings“
Check ob Preise bei erstem Import als Integer festgelegt wurden
Datenimport & Datentypen-Konfiguration der Dimensionstabelle „Reviews“
- Ziel: Medallion Architektur einrichten
- Daten in Lakehouse hochgeladen (Bronze)
- Notebook erstellt „01_ETL_AirBnB_Listings_Silver_NB“ (Umändern zu ETL oder so) & Daten geladen -> Profiling
- Spalte „Annehmlichkeiten“ von String zu Array, Clean „\u2013“, „\u2019″ zu “ „, “ – „, …
- Namen normalisiert „Wifi …“ zu „Wifi“
- df_silver abgespeichert (Silver) „“silver_airbnb_listings““
- Notebook erstellt „“AirBnB_Listings_NB“ für Projekt -> (Mehrere Gold-Tabellen)
Projekt-Dokumentation: AirBnB Paris Analyse
Ziel: Aufbau einer Medallion-Architektur zur Analyse von Übernachtungsdaten in Paris.
Layer 1 (Bronze): Rohdaten-Upload der
listings.csvin das Fabric Lakehouse.Layer 2 (Silver): * Notebook:
01_ETL_AirBnB_Listings_SilverCleanup: Umwandlung der
amenities(Annehmlichkeiten) von unsauberen Strings in strukturierte Arrays.Regex-Fixes: Unicode-Müll (
\u2013,\u2019) entfernt, um Begriffe wieWasher - In unitundPack 'n Playzu retten.Normalisierung: Alle Wifi-Varianten auf einen einheitlichen Standard („Wifi“) gebracht.
Output: Gespeichert als Delta-Tabelle
silver_airbnb_listings.
🚀 Nächste Schritte (Morgen – Gold Layer)
Fokus: Business-Logik & Kennzahlen (KPIs).
Geplante Transformationen: 1. Preise von String (
$150.00) in Float/Decimal konvertieren. 2. Aggregieren der Top-Amenities pro Stadtteil. 3. Bereitstellung einer schlanken Gold-Tabelle für das Power BI Dashboard.
