Session 2 - Datenbereinigung

Einführung in die Datenanalyse für Anfänger

Bevor du aus deinen Daten aussagekräftige Erkenntnisse gewinnen kannst, müssen sie sauber, konsistent und zuverlässig sein. Unordentliche Daten führen zu falschen Analysen und irreführenden Geschäftsentscheidungen. In dieser Sitzung lernst du, wie du einen realen Datensatz mit Google Sheets bereinigst, wobei der Fokus auf fehlenden Werten, Duplikaten, Formatierungsinkonsistenzen und Datenvalidierung liegt.

Wir verwenden den Amazon-Verkaufsdatenset als Beispiel, den du in der ersten Session heruntergeladen und in Google Sheets importiert hast. Falls nicht, folge dem obigen Link zum Herunterladen.

Datenbereinigung

Warum ist Datenbereinigung wichtig?

Stell dir vor, du bist Geschäftsinhaber und möchtest die Verkaufsleistung deines Unternehmens überprüfen. Du öffnest deine Verkaufsdaten und stellst sofort fest: fehlende Preise, unreine Produktdetails, Duplikate und seltsame Formatierungen. Natürlich fragst du dich: „Wie kann ich den Erkenntnissen vertrauen, die ich daraus ziehe?”

Die Antwort ist einfach: Gar nicht.

Deshalb muss jedes Datenprojekt mit einer gründlichen Datenbereinigung beginnen. Der bekannte Satz aus der Analysewelt bringt es auf den Punkt:

“Garbage in, garbage out.”

Wenn deine Rohdaten fehlerhaft sind, wird auch deine Analyse fehlerhaft sein. Saubere und zuverlässige Daten hingegen ermöglichen sichere und präzise Geschäftsentscheidungen.

Fehlende Werte finden und behandeln

Fehlende Werte gehören zu den häufigsten Datenproblemen. Werden sie nicht behoben, verfälschen sie Durchschnittswerte, Summen und andere Berechnungen.

Wie man fehlende Werte erkennt

Wir verwenden die Funktion COUNTBLANK(), um leere Zellen in jeder Spalte zu zählen.

Beispiel:
Um fehlende Werte in Spalte A (Produkt-IDs):

  1. Scrolle ans Ende deines Datensatzes, um einen freien Bereich für deine Formeln zu finden.

  2. Gib in eine leere Zelle ein:

    =COUNTBLANK(A2:A466)
    • A2 ist die erste Datenzeile (ohne Überschriften).

    • A466 ist die letzte Zeile deines Datensatzes. Passe diese Zahl an, wenn dein Datensatz länger ist.

  3. Drücke Enter, um das Ergebnis zu sehen.

Ein Ergebnis von 0 bedeutet, dass es in dieser Spalte keine fehlenden Werte gibt. Wiederhole diesen Vorgang für jede Spalte und aktualisiere dabei den Spaltenbuchstaben entsprechend.

Umgang mit fehlenden Werten

Sobald du fehlende Werte identifiziert hast, ziehe folgende Vorgehensweisen in Betracht:

Option 1: Mit dem Spaltendurchschnitt auffüllen

Bei numerischen Spalten ist es eine sichere und weit verbreitete Methode, fehlende Werte durch den Durchschnitt der jeweiligen Spalte zu ersetzen.

Um den Durchschnitt zu berechnen:

=AVERAGE(H2:H466)

In unserem Amazon-Verkaufsdatensatz kann die Spalte Anzahl der Bewertungen fehlende Werte enthalten. Nachdem du den Durchschnitt berechnet hast (z. B. 11.937), kopiere diesen Wert in die leeren Zellen.

Option 2: Mit Minimal- oder Maximalwert auffüllen

In manchen Fällen kann es sinnvoller sein, fehlende Werte durch den Minimal- oder Maximalwert der Spalte zu ersetzen, besonders wenn das besser zur Geschäftslogik passt.

Option 3: Kontextspezifisches Auffüllen

Für eine präzisere Imputation kannst du Durchschnittswerte nur für ähnliche Produkte (nach Kategorie oder Marke) berechnen und diese Werte zum Auffüllen fehlender Daten verwenden.

Option 4: Zeilen entfernen (letzter Ausweg)

Das Löschen von Zeilen mit fehlenden Daten sollte der letzte Ausweg sein. Tu dies nur, wenn:

  • die Zeile kritische und fehlende Informationen enthält, die nicht imputiert werden können.

  • die fehlenden Daten die Zeile für deine Analyse unbrauchbar machen.

Denk daran: Daten sind wertvoll. Vermeide, Zeilen unnötig zu verwerfen.

Doppelte Zeilen erkennen und entfernen

Doppelte Zeilen blähen deinen Datensatz künstlich auf und führen zu falschen Summen, Durchschnittswerten und Schlussfolgerungen.

Duplikate mit Google Sheets entfernen

  1. Wähle deinen gesamten Datensatz, einschließlich der Überschriften, aus.

  2. Klicke auf DatenDatenbereinigungDuplikate entfernen.

  3. Stelle sicher, dass „Daten haben eine Kopfzeile” aktiviert ist.

  4. Wähle alle relevanten Spalten aus, die auf Duplikate geprüft werden sollen.

  5. Klicke auf Duplikate entfernen.

Google Sheets teilt dir mit, wie viele Duplikate gefunden und entfernt wurden.

Hinweis: Datensätze aus Quellen wie Kaggle sind oft bereits vorbereinigt, sodass du anfangs möglicherweise keine Duplikate findest. Zum Üben kannst du manuell eine doppelte Zeile hinzufügen und den Entfernungsprozess wiederholen

Schritt 3: Unreinheiten in Formatierungen beheben

Als Text gespeicherte Zahlen oder ein unreiner Einsatz von Symbolen können deine Berechnungen zum Scheitern bringen. Es ist wichtig, diese Probleme zu bereinigen.

Als Text gespeicherte Zahlen

Schau dir die Spalte „Anzahl der Bewertungen” an. Manche Zahlen sind möglicherweise linksbündig ausgerichtet (was auf Text hinweist), während andere rechtsbündig sind (was auf echte Zahlen hinweist).

Um das zu beheben:

  1. Identifiziere problematische Zellen. Linksbündige Zahlen werden als Text behandelt.
  2. Oft verursachen Kommas oder Formatierungssymbole dieses Problem.
  3. Wähle die betroffene Spalte aus.
  4. Klicke auf BearbeitenSuchen und Ersetzen.
  5. Gib im Feld „Suchen” das unerwünschte Zeichen ein (z. B. ein Komma ,).
  6. Lasse das Feld „Ersetzen durch” leer.
  7. Klicke auf Alle ersetzen.

Wiederhole diesen Vorgang für andere unerwünschte Symbole. Danach werden deine Zahlen korrekt ausgerichtet und als numerische Daten erkannt.

Preisspalten bereinigen

Preisspalten können Währungssymbole enthalten, die genaue Berechnungen verhindern.

Um Preisspalten zu reinigen:

  1. Wähle die Spalte „Reduzierter Preis” oder „Tatsächlicher Preis” aus.

  2. Öffne BearbeitenSuchen und Ersetzen.

  3. Gib das Währungssymbol (z. B. ₹, $, €) in das Feld „Suchen” ein.

  4. Lasse das Feld „Ersetzen durch” leer.

  5. Klicke auf Alle ersetzen.

Danach sollten deine Preisspalten nur noch numerische Werte enthalten. Du kannst das überprüfen, indem du einen Bereich auswählst und schaust, ob unten im Bildschirm eine Summe oder ein Durchschnitt angezeigt wird.

Schritt 5: Zusätzliche Leerzeichen entfernen

Zusätzliche Leerzeichen – insbesondere am Anfang oder Ende von Zellen – können versteckte Fehler in deiner Analyse verursachen.
Um sie zu entfernen:

  1. Wähle deinen gesamten Datensatz aus.

  2. Gehe zu Daten → Datenbereinigung → Leerzeichen entfernen.

  3. Google Sheets entfernt automatisch führende und nachfolgende Leerzeichen.

So wird sichergestellt, dass deine Daten konsistent und sauber sind.

Datenvalidierung für zukünftige Genauigkeit

Die Datenvalidierung verhindert, dass in Zukunft falsche oder ungültige Daten eingegeben werden.

Beispiel: Produktlinks validieren

  1. Wähle die Spalte „Product Link” aus.

  2. Gehe zu DatenDatenvalidierung.

  3. Wähle unter Kriterien TextGültige URL aus.

  4. Entscheide, ob bei ungültigen Einträgen eine Warnung angezeigt oder die Eingabe abgelehnt werden soll.

  5. Klicke auf Fertig.

Ungültige URLs werden nun automatisch markiert und schützen deinen Datensatz vor zukünftigen Fehlern.

Weitere Überlegungen

Einheitliche Textformatierung

Du kannst Groß- und Kleinschreibung oder Formatierung mithilfe folgender Funktionen vereinheitlichen:

  • UPPER() – Wandelt Text in Großbuchstaben um.

  • LOWER() – Wandelt Text in Kleinbuchstaben um

  • PROPER() – Schreibt den ersten Buchstaben jedes Wortes groß.

Wende diese nach Bedarf an, um Produktnamen oder Kategorien einheitlich zu halten.

Fazit

Du hast jetzt grundlegende Datenbereinigungstechniken kennengelernt, darunter:

✔ Fehlende Werte identifizieren und behandeln.
✔ Doppelte Zeilen erkennen und entfernen.
✔ Unreinheiten in Formatierungen beheben.
✔ Preis- und Zahlenspalten bereinigen.
✔ Validierungsregeln anwenden, um die Datenqualität zu erhalten.

Mit deinem bereinigten und vorbereiteten Amazon-Verkaufsdatensatz bist du bereit, mit der Analyse fortzufahren.

Nächste Schritte

In der nächsten Sitzung werden wir deskriptive und statistische Analysen erkunden und deinen bereinigten Datensatz nutzen, um Erkenntnisse zu gewinnen und echte Geschäftsfragen zu beantworten.

Aufgaben vor dem Weitermachen

  • Führe die Datenbereinigungsschritte an deinem eigenen Datensatz durch.
  • Überlege, wie Datenqualität Geschäftsentscheidungen beeinflusst.
  • Wende Datenvalidierung dort an, wo es nötig ist, um zukünftige Probleme zu verhindern.
Contact

Talk to us

Have questions? We’re here to help! Whether you’re curious to learn more, want guidance on applying, or need insights to make the right decision—reach out today and take the first step toward transforming your career.