Session 4 - Explorative Datenanalyse

Einführung in die Datenanalyse für Anfänger

Die wahre Kraft der Datenanalyse liegt nicht in den Formeln selbst, sondern in den Mustern, die du aufdeckst. Die Explorative Datenanalyse (EDA) hilft dir, über Zahlen hinauszugehen und bedeutungsvolle Erkenntnisse zu identifizieren, die echte Geschäftsentscheidungen prägen können.

In dieser Sitzung bauen wir auf unserer früheren deskriptiven Analyse auf und lernen, wie man Daten auf Trends, Ausreißer, Kundenprobleme und Produktleistung untersucht. Du lernst, bessere Fragen zu stellen – und sie mithilfe von Google Sheets zu beantworten.

Wir verwenden weiterhin den Amazon-Verkaufsdatensatz als Beispiel, den du in der ersten Sitzung heruntergeladen und in Google Sheets importiert hast. Falls nicht, folge dem obigen Link zum Herunterladen.

Explorative Datenanalyse

Schritt 1: Niedrige Bewertungen untersuchen

Lass uns damit beginnen, uns auf Produkte mit niedrigen Kundenbewertungen zu konzentrieren. Diese könnten auf Probleme mit der Produktqualität, der Lieferung oder den Nutzererwartungen hinweisen.

Öffne deinen Amazon-Datensatz und finde die Spalte „Bewertung”.
Sortiere das Tabellenblatt nach Bewertungen in aufsteigender Reihenfolge, um die am schlechtesten bewerteten Einträge nach oben zu bringen:
- Wähle deinen Datensatz aus.
- Gehe zu Daten > Bereich sortieren und verwende die erweiterten Optionen.
- Stelle sicher, dass „Daten haben eine Kopfzeile” angehakt ist, und sortiere dann nach „Bewertung” A → Z.

Dies hilft dir, schnell Bewertungen im Bereich 2,0–2,9 zu isolieren. Das sind die Einträge, die wir weiter untersuchen möchten, um zu verstehen, was schiefgelaufen ist.

Schritt 2: Kundenbewertungen lesen (manuell)

Sobald du die niedrigsten Bewertungen gefiltert hast, ist es an der Zeit, Kundenfeedback manuell zu überprüfen

Warum manuelle Überprüfung wichtig ist:

Automatisierte Tools sind hilfreich, aber früh im Analyseprozess gibt dir das eigene Lesen der Rohkommentare ein direktes Verständnis der Nutzererfahrung – Feinheiten, die die Automatisierung möglicherweise übersieht.

Schau dir die folgenden Spalten an:

Bewertungstitel
Bewertungsinhalt

Während du liest:

Sind die Kommentare klar und stimmen mit der niedrigen Bewertung überein?
Wirken sie gemischt, inkonsistent oder möglicherweise von mehreren Nutzern zusammengesetzt?

Beobachtung:
Du wirst vielleicht etwas Merkwürdiges bemerken – einige Bewertungseinträge scheinen sowohl negative als auch positive Kommentare in einer einzigen Zelle zu enthalten. Zum Beispiel:

„Schlechte Qualität. Tolles Produkt.”
„Sehr schlecht. Toller Heizstrahler. Würde ich weiterempfehlen.”

Diese Inkonsistenz deutet auf ein Datenqualitätsproblem hin: Einige Bewertungen scheinen von mehreren Nutzern zusammengefügt worden zu sein. Leider gibt es kein klares Trennzeichen (wie Zeilenumbrüche oder Benutzer-IDs), um sie zu trennen.

Bewährte Vorgehensweise: Datenintegritätsprüfungen

Wenn du eine mögliche Zusammenführung mehrerer Bewertungen in einer einzelnen Zelle bemerkst:
Verlasse dich für quantitative Stimmungsanalysen nicht auf diesem Feld.
Vermeide, diese Art von Text ohne Bereinigung in KI-Modelle oder Dashboards einzufügen.
Wenn deine Organisation Zugang zu rohen Bewertungsprotokollen oder APIs hat, versuche, eine saubere Version von dort abzurufen.

Für jetzt extrahieren wir diese schlecht bewerteten Kommentare manuell und untersuchen sie mit einer Wortwolke.

Schritt 3: Eine Wortwolke erstellen (mit einem externen Tool)

Wortwolken können dir helfen, wiederkehrende Themen zu erkennen – besonders hilfreich bei der Analyse qualitativer Daten wie Bewertungen.

Wähle alle Bewertungsinhalt-Zeilen aus, bei denen die Bewertungen zwischen 2,0–2,9 liegen.
Kopiere diese und besuche einen kostenlosen Wortwolkengenerator
(z.B., wordclouds.com).
Füge deine Bewertungen in das Textfeld ein.
Konfiguriere deine Wortwolke:
- Lege ein vernünftiges Wortlimit fest (z. B. 50 Wörter).
- Entferne häufige oder irreführende Begriffe wie „Produkt” oder „gut”, wenn sie die Ergebnisse verfälschen.
Analysiere das Ergebnis:
- Welche negativen Wörter fallen auf?
- Gibt es wiederholende Beschwerden (z. B. „Akku”, „Laden”, „defekt”, „Rückerstattung”)

(⚠️ Achtung: Füge niemals sensible oder personenbezogene Daten in Tools von Drittanbietern ein. Bei dieser Übung gehen wir davon aus, dass es sich um anonymisierte, allgemeine Bewertungen ohne persönliche Identifikatoren handelt.)

Das gibt dir eine Richtung: Wenn viele Kunden „Akku” oder „Geld” erwähnen, kannst du daraus Unzufriedenheit mit der Akkulaufzeit oder dem wahrgenommenen Wert schließen.

Schritt 4: Den Bewertungsumfang erweitern

Um Muster zu bestätigen, versuche mehr Daten einzubeziehen:

Füge Bewertungen mit einer Bewertung von 3,0–3,9 demselben Wortwolken-Tool hinzu.
Vergleiche die Worthäufigkeiten.

So kannst du sehen, ob bestimmte Bedenken auch dann bestehen bleiben, wenn sich die Bewertungen verbessern. Wenn „Akku” in 3-Sterne-Bewertungen immer noch häufig vorkommt, ist es wahrscheinlich ein weit verbreitetes Problem.

Schritt 5: Fokus wechseln – Produktkategorien erkunden

Bisher haben wir uns auf die Kundenzufriedenheit konzentriert. Jetzt lass uns die Daten aus einer Produkt- und Geschäftsstrategie-Perspektive erkunden.

Frage:
Welche Produktkategorien haben die meisten aufgelisteten Artikel?

Das kann dir helfen, Folgendes zu bewerten:

Auf welche Bereiche sich dein Unternehmen konzentriert
Wo dein Katalog überladen oder unterentwickelt ist

Dafür verwenden wir Pivot-Tabellen.

Schritt 6: Eine Pivot-Tabelle erstellen, um Produkte nach Kategorie zu zählen

Wähle den gesamten Datensatz aus.
Gehe zu Einfügen > Pivot-Tabelle und erstelle sie in einem neuen Tabellenblatt.
Benenne das neue Tabellenblatt um (z. B. Category_Count).
Richte deine Pivot ein:
- Zeilen: „Kategorie” hinzufügen
- Werte: „Kategorie” erneut hinzufügen, aber ANZAHL verwenden, um Einträge zu zählen.

Das zeigt dir, wie viele Produkte unter jeder Kategorie aufgeführt sind.

To interpret it better:
- Kopiere die Pivot-Tabelle in ein neues Tabellenblatt.
- Verwende Daten > Bereich sortieren, um nach Anzahl (absteigend) zu sortieren.

Du wirst jetzt sehen, welche Kategorien dominieren (z. B. könnte „USB-Kabel” 200+ Artikel haben), und welche unterrepräsentiert sind.

Schritt 7: Tiefer in volumenstarke Kategorien eintauchen

Wähle eine Top-Kategorie aus und kehre zum Hauptdatensatz zurück. Wende einen Filter auf die Kategorie-Spalte an, um diese Gruppe zu isolieren.

Frag dich jetzt:

Welche Produkte in dieser Kategorie haben die höchsten Rabatte?
Gibt es Artikel mit hohen Rabatten, aber schlechten Bewertungen?

Verwende Nach Rabatt sortieren und Nach Bewertung sortieren, um Anomalien zu identifizieren.

Diese Analyse unterstützt Entscheidungen wie:

Lagerbestand für schlecht performende Artikel reduzieren
Bessere Angebote für hochbewertete Produkte anbieten
Den Fokus über Kategorien hinweg umverteilen

Schritt 8: Bewertungen über Kategorien hinweg vergleichen

Lass uns jetzt die durchschnittliche Kundenzufriedenheit über Kategorien hinweg bewerten.

Füge eine neue Pivot-Tabelle für den gesamten Datensatz ein.
In der Pivot-Tabelle:
- Zeilen: Kategorie
- Werte: Bewertung (auf Durchschnitt statt Summe ändern)
Kopiere die Pivot-Tabelle in ein neues Tabellenblatt (z. B. Category_Avg_Rating), dann sortiere es aufsteigend nach Durchschnittsbewertung.

Jetzt kannst du identifizieren:

Welche Kategorien bei der Kundenzufriedenheit unterdurchschnittlich abschneiden
Welche von Kunden mehr geschätzt werden

Du wirst vielleicht feststellen, dass einige Kategorien durchgängig niedrigere Werte erzielen, auch wenn sie viele aufgelistete Produkte haben. Diese Erkenntnis ist wertvoll für die Verbesserung von Produktlinien, Kundensupport oder Qualitätskontrolle.

Abschließende Gedanken

Explorative Datenanalyse geht darum, sich mit deinen Daten vertraut zu machen – nicht nur zu berechnen, sondern zu interpretieren. Heute haben wir:

Niedrig bewertete Produkte identifiziert und Kundenbewertungen analysiert.
Wortwolken verwendet, um häufige Beschwerden aufzudecken.
Pivot-Tabellen verwendet, um Trends nach Kategorie aufzudecken.
Produktanzahl und Kundenbewertungen über Kategorien hinweg verglichen.

Diese Erkenntnisse sind es, auf die Unternehmen reagieren. EDA gibt dir die Grundlage für klügere, datengestützte Entscheidungen.

Was kommt als Nächstes?

In der nächsten Sitzung wechseln wir zur Datenvisualisierung, wo wir diese Erkenntnisse in Visuals umwandeln, die klar und wirkungsvoll kommunizieren.

Contact

Talk to us

Have questions? We’re here to help! Whether you’re curious to learn more, want guidance on applying, or need insights to make the right decision—reach out today and take the first step toward transforming your career.