AirBnB Listings (Fabric/PySpark)

Einleitung

Technische Umsetzung:

Rohdaten wurden in ein Fabric Lakehouse geladen und über Dataflow Gen2 nach ersten Transformationen in ein SQL Warehouse überführt. Die Analyse fand in einem T-SQL Notebook statt. Für den Scatterplot und die Azure Map wurden SQL Views erstellt, um die Performance für das Reporting zu maximieren. Da 04/2022 unvollständig ist, sollten diese Daten noch entfernt werden.

Datenimport & Datentypen-Konfiguration der Faktentabelle „Listings“

Check ob Preise bei erstem Import als Integer festgelegt wurden

Datenimport & Datentypen-Konfiguration der Dimensionstabelle „Reviews“

  • Ziel: Medallion Architektur einrichten
  • Daten in Lakehouse hochgeladen (Bronze)
  • Notebook erstellt „01_ETL_AirBnB_Listings_Silver_NB“ (Umändern zu ETL oder so) & Daten geladen -> Profiling
  • Spalte „Annehmlichkeiten“ von String zu Array, Clean „\u2013“, „\u2019″ zu “ „, “ – „, …
  • Namen normalisiert „Wifi …“ zu „Wifi“
  • df_silver abgespeichert (Silver) „“silver_airbnb_listings““
  • Notebook erstellt „“AirBnB_Listings_NB“ für Projekt -> (Mehrere Gold-Tabellen)

Projekt-Dokumentation: AirBnB Paris Analyse

  • Ziel: Aufbau einer Medallion-Architektur zur Analyse von Übernachtungsdaten in Paris.

  • Layer 1 (Bronze): Rohdaten-Upload der listings.csv in das Fabric Lakehouse.

  • Layer 2 (Silver): * Notebook: 01_ETL_AirBnB_Listings_Silver

    • Cleanup: Umwandlung der amenities (Annehmlichkeiten) von unsauberen Strings in strukturierte Arrays.

    • Regex-Fixes: Unicode-Müll (\u2013, \u2019) entfernt, um Begriffe wie Washer - In unit und Pack 'n Play zu retten.

    • Normalisierung: Alle Wifi-Varianten auf einen einheitlichen Standard („Wifi“) gebracht.

    • Output: Gespeichert als Delta-Tabelle silver_airbnb_listings.


🚀 Nächste Schritte (Morgen – Gold Layer)

  • Fokus: Business-Logik & Kennzahlen (KPIs).

  • Geplante Transformationen: 1. Preise von String ($150.00) in Float/Decimal konvertieren. 2. Aggregieren der Top-Amenities pro Stadtteil. 3. Bereitstellung einer schlanken Gold-Tabelle für das Power BI Dashboard.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert