Session 2 - Datenbereinigung
Einführung in die Datenanalyse für Anfänger
Bevor du aus deinen Daten aussagekräftige Erkenntnisse gewinnen kannst, müssen sie sauber, konsistent und zuverlässig sein. Unordentliche Daten führen zu falschen Analysen und irreführenden Geschäftsentscheidungen. In dieser Sitzung lernst du, wie du einen realen Datensatz mit Google Sheets bereinigst, wobei der Fokus auf fehlenden Werten, Duplikaten, Formatierungsinkonsistenzen und Datenvalidierung liegt.
Wir verwenden den Amazon-Verkaufsdatenset als Beispiel, den du in der ersten Session heruntergeladen und in Google Sheets importiert hast. Falls nicht, folge dem obigen Link zum Herunterladen.
Warum ist Datenbereinigung wichtig?
Stell dir vor, du bist Geschäftsinhaber und möchtest die Verkaufsleistung deines Unternehmens überprüfen. Du öffnest deine Verkaufsdaten und stellst sofort fest: fehlende Preise, unreine Produktdetails, Duplikate und seltsame Formatierungen. Natürlich fragst du dich: „Wie kann ich den Erkenntnissen vertrauen, die ich daraus ziehe?”
Die Antwort ist einfach: Gar nicht.
Deshalb muss jedes Datenprojekt mit einer gründlichen Datenbereinigung beginnen. Der bekannte Satz aus der Analysewelt bringt es auf den Punkt:
“Garbage in, garbage out.”
Wenn deine Rohdaten fehlerhaft sind, wird auch deine Analyse fehlerhaft sein. Saubere und zuverlässige Daten hingegen ermöglichen sichere und präzise Geschäftsentscheidungen.
Fehlende Werte finden und behandeln
Fehlende Werte gehören zu den häufigsten Datenproblemen. Werden sie nicht behoben, verfälschen sie Durchschnittswerte, Summen und andere Berechnungen.
Wie man fehlende Werte erkennt
Wir verwenden die Funktion COUNTBLANK(), um leere Zellen in jeder Spalte zu zählen.
Beispiel:
Um fehlende Werte in Spalte A (Produkt-IDs):
-
Scrolle ans Ende deines Datensatzes, um einen freien Bereich für deine Formeln zu finden.
-
Gib in eine leere Zelle ein:
=COUNTBLANK(A2:A466)-
A2 ist die erste Datenzeile (ohne Überschriften).
-
A466 ist die letzte Zeile deines Datensatzes. Passe diese Zahl an, wenn dein Datensatz länger ist.
-
-
Drücke Enter, um das Ergebnis zu sehen.
Ein Ergebnis von 0 bedeutet, dass es in dieser Spalte keine fehlenden Werte gibt. Wiederhole diesen Vorgang für jede Spalte und aktualisiere dabei den Spaltenbuchstaben entsprechend.
Umgang mit fehlenden Werten
Sobald du fehlende Werte identifiziert hast, ziehe folgende Vorgehensweisen in Betracht:
Option 1: Mit dem Spaltendurchschnitt auffüllen
Bei numerischen Spalten ist es eine sichere und weit verbreitete Methode, fehlende Werte durch den Durchschnitt der jeweiligen Spalte zu ersetzen.
Um den Durchschnitt zu berechnen:
=AVERAGE(H2:H466)
In unserem Amazon-Verkaufsdatensatz kann die Spalte Anzahl der Bewertungen fehlende Werte enthalten. Nachdem du den Durchschnitt berechnet hast (z. B. 11.937), kopiere diesen Wert in die leeren Zellen.
Option 2: Mit Minimal- oder Maximalwert auffüllen
In manchen Fällen kann es sinnvoller sein, fehlende Werte durch den Minimal- oder Maximalwert der Spalte zu ersetzen, besonders wenn das besser zur Geschäftslogik passt.
Option 3: Kontextspezifisches Auffüllen
Für eine präzisere Imputation kannst du Durchschnittswerte nur für ähnliche Produkte (nach Kategorie oder Marke) berechnen und diese Werte zum Auffüllen fehlender Daten verwenden.
Option 4: Zeilen entfernen (letzter Ausweg)
Das Löschen von Zeilen mit fehlenden Daten sollte der letzte Ausweg sein. Tu dies nur, wenn:
-
die Zeile kritische und fehlende Informationen enthält, die nicht imputiert werden können.
-
die fehlenden Daten die Zeile für deine Analyse unbrauchbar machen.
Denk daran: Daten sind wertvoll. Vermeide, Zeilen unnötig zu verwerfen.
Doppelte Zeilen erkennen und entfernen
Doppelte Zeilen blähen deinen Datensatz künstlich auf und führen zu falschen Summen, Durchschnittswerten und Schlussfolgerungen.
Duplikate mit Google Sheets entfernen
-
Wähle deinen gesamten Datensatz, einschließlich der Überschriften, aus.
-
Klicke auf Daten → Datenbereinigung → Duplikate entfernen.
-
Stelle sicher, dass „Daten haben eine Kopfzeile” aktiviert ist.
-
Wähle alle relevanten Spalten aus, die auf Duplikate geprüft werden sollen.
-
Klicke auf Duplikate entfernen.
Google Sheets teilt dir mit, wie viele Duplikate gefunden und entfernt wurden.
Hinweis: Datensätze aus Quellen wie Kaggle sind oft bereits vorbereinigt, sodass du anfangs möglicherweise keine Duplikate findest. Zum Üben kannst du manuell eine doppelte Zeile hinzufügen und den Entfernungsprozess wiederholen
Schritt 3: Unreinheiten in Formatierungen beheben
Als Text gespeicherte Zahlen oder ein unreiner Einsatz von Symbolen können deine Berechnungen zum Scheitern bringen. Es ist wichtig, diese Probleme zu bereinigen.
Als Text gespeicherte Zahlen
Schau dir die Spalte „Anzahl der Bewertungen” an. Manche Zahlen sind möglicherweise linksbündig ausgerichtet (was auf Text hinweist), während andere rechtsbündig sind (was auf echte Zahlen hinweist).
Um das zu beheben:
- Identifiziere problematische Zellen. Linksbündige Zahlen werden als Text behandelt.
- Oft verursachen Kommas oder Formatierungssymbole dieses Problem.
- Wähle die betroffene Spalte aus.
- Klicke auf Bearbeiten → Suchen und Ersetzen.
- Gib im Feld „Suchen” das unerwünschte Zeichen ein (z. B. ein Komma ,).
- Lasse das Feld „Ersetzen durch” leer.
- Klicke auf Alle ersetzen.
Wiederhole diesen Vorgang für andere unerwünschte Symbole. Danach werden deine Zahlen korrekt ausgerichtet und als numerische Daten erkannt.
Preisspalten bereinigen
Preisspalten können Währungssymbole enthalten, die genaue Berechnungen verhindern.
Um Preisspalten zu reinigen:
-
Wähle die Spalte „Reduzierter Preis” oder „Tatsächlicher Preis” aus.
-
Öffne Bearbeiten → Suchen und Ersetzen.
-
Gib das Währungssymbol (z. B. ₹, $, €) in das Feld „Suchen” ein.
-
Lasse das Feld „Ersetzen durch” leer.
-
Klicke auf Alle ersetzen.
Danach sollten deine Preisspalten nur noch numerische Werte enthalten. Du kannst das überprüfen, indem du einen Bereich auswählst und schaust, ob unten im Bildschirm eine Summe oder ein Durchschnitt angezeigt wird.
Schritt 5: Zusätzliche Leerzeichen entfernen
Zusätzliche Leerzeichen – insbesondere am Anfang oder Ende von Zellen – können versteckte Fehler in deiner Analyse verursachen.
Um sie zu entfernen:
-
Wähle deinen gesamten Datensatz aus.
-
Gehe zu Daten → Datenbereinigung → Leerzeichen entfernen.
-
Google Sheets entfernt automatisch führende und nachfolgende Leerzeichen.
So wird sichergestellt, dass deine Daten konsistent und sauber sind.
Datenvalidierung für zukünftige Genauigkeit
Die Datenvalidierung verhindert, dass in Zukunft falsche oder ungültige Daten eingegeben werden.
Beispiel: Produktlinks validieren
-
Wähle die Spalte „Product Link” aus.
-
Gehe zu Daten → Datenvalidierung.
-
Wähle unter Kriterien Text → Gültige URL aus.
-
Entscheide, ob bei ungültigen Einträgen eine Warnung angezeigt oder die Eingabe abgelehnt werden soll.
-
Klicke auf Fertig.
Ungültige URLs werden nun automatisch markiert und schützen deinen Datensatz vor zukünftigen Fehlern.
Weitere Überlegungen
Einheitliche Textformatierung
Du kannst Groß- und Kleinschreibung oder Formatierung mithilfe folgender Funktionen vereinheitlichen:
-
UPPER() – Wandelt Text in Großbuchstaben um.
-
LOWER() – Wandelt Text in Kleinbuchstaben um
-
PROPER() – Schreibt den ersten Buchstaben jedes Wortes groß.
Wende diese nach Bedarf an, um Produktnamen oder Kategorien einheitlich zu halten.
Fazit
Du hast jetzt grundlegende Datenbereinigungstechniken kennengelernt, darunter:
Fehlende Werte identifizieren und behandeln.
Doppelte Zeilen erkennen und entfernen.
Unreinheiten in Formatierungen beheben.
Preis- und Zahlenspalten bereinigen.
Validierungsregeln anwenden, um die Datenqualität zu erhalten.
Mit deinem bereinigten und vorbereiteten Amazon-Verkaufsdatensatz bist du bereit, mit der Analyse fortzufahren.
Nächste Schritte
In der nächsten Sitzung werden wir deskriptive und statistische Analysen erkunden und deinen bereinigten Datensatz nutzen, um Erkenntnisse zu gewinnen und echte Geschäftsfragen zu beantworten.
Aufgaben vor dem Weitermachen
- Führe die Datenbereinigungsschritte an deinem eigenen Datensatz durch.
- Überlege, wie Datenqualität Geschäftsentscheidungen beeinflusst.
- Wende Datenvalidierung dort an, wo es nötig ist, um zukünftige Probleme zu verhindern.
Contact
Talk to us
Have questions? We’re here to help! Whether you’re curious to learn more, want guidance on applying, or need insights to make the right decision—reach out today and take the first step toward transforming your career.