Beunruhigende Geständnisse: Ein Blick auf den Abschnitt zur Datensicherheit bei Android

Der Google Play Store hat vor kurzem einen neuen Abschnitt zur Datensicherheit eingeführt, der Nutzer_innen niederschwellig aufzeigen soll, welche Daten Apps zu ihnen sammeln. Wir haben die Angaben von 43.927 beliebten Apps analysiert. Fast ein Drittel der Apps gibt an, überhaupt keine Daten zu sammeln. Aber wir haben auch vielheruntergeladene Apps gefunden, die zugeben, dass sie höchstsensible Daten wie die sexuelle Orientierung oder Gesundsheitsdaten der Nutzer_innen zu Tracking- und Werbezwecken sammeln und weitergeben – selbst bei Apps für Kinder. Um die Angaben zu überprüfen, haben wir den Netzwerktraffic von 500 Apps aufgezeichnet: Mehr als ein Viertel davon hat Trackingdaten übermittelt, die nicht deklariert waren.

Stylisiertes blautöniges Foto von Lebensmittelbehältern, darüber der Text: „Analyse: Abschnitt zur Datensicherheit bei Android“

Ende April 2022 hat Google den neuen Abschnitt zur Datensicherheit für Android-Apps eingeführt, eine Funktion, die Nutzer_innen zuverlässige Informationen darüber geben soll, wie Apps, die über den Play Store vertrieben werden, mit den Daten ihrer Nutzer_innen umgehen. App-Entwickler_innen müssen die Datentypen auflisten, die ihre Apps verarbeiten sowie die Zwecke, für die jeder Datentyp verwendet wird. Dabei müssen sie auch differenzieren, ob sie diese Daten für sich selbst erheben oder ob sie sie mit Dritten teilen. Darüber hinaus müssen Entwickler_innen angeben, ob Nutzer_innen die Löschung ihrer Daten verlangen können.
Diese Informationen werden dann im Play Store als Datensicherheits-Label angezeigt. Das erklärte Ziel ist, es Nutzer_innen zu ermöglichen, selbst zu entscheiden, ob sie mit den Datenschutzpraktiken einer App einverstanden sind, bevor sie diese installieren.

Screenshot der Übersicht zur Datensicherheit auf der Google-Play-Store-Seite der „Amazon Shopping“-App. Dort heißt es: „Diese App kann die folgenden Datentypen an Dritte weitergeben: Standort, Personenbezogene Daten und 7 andere, Diese App kann die folgenden Datentypen erheben: Standort, Personenbezogene Daten und 10 andere, Daten werden bei der Übertragung verschlüsselt, Du kannst das Löschen der Daten beantragen“ — Übersicht zur Datensicherheit bei der „Amazon Shopping“-App

Vor Google hatte Apple bereits Ende 2020 sehr ähnliche Datenschutz-Labels für iOS eingeführt. In beiden Fällen werden alle Informationen in den Kennzeichnungen von den Entwickler_innen der Apps selbst angegeben, und es ist unklar, ob und in welchem Umfang Google und Apple die Angaben überprüfen. Dies birgt die Gefahr, dass Entwickler_innen absichtlich oder versehentlich falsche Angaben machen, die Nutzer_innen irreführen und ihnen vorgaukeln, eine App wäre datenschutzfreundlicher als sie tatsächlich ist. Wir haben bereits an einer Studie zur Ehrlichkeit von Datenschutz-Labels für iOS mitgewirkt und gezeigt, dass einige Labels offensichtliche Ungereimtheiten enthalten, wie z. B. die Behauptung, Nutzer_innen-IDs ohne Verknüpfung zur Nutzer_in sammeln, und dass 16 % der überprüften Apps Daten übermittelten, die nicht in ihrem Label angegeben waren.

Da seit der Einführung des Abschnitts zur Datensicherheit nun schon einige Monate vergangen sind und viele Apps ein solches Label angegeben haben, ist es an der Zeit, uns die Situation auf Android anzusehen.

Was steht in den Labels?

Zunächst verschaffen wir uns einen allgemeinen Überblick darüber, was die Apps in ihrem Abschnitt zur Datensicherheit angeben. Dafür wollen wir uns die beliebtesten Apps ansehen. Der Play Store stellt für jede Kategorie Top-Listen zusammen. Auf der Website können nur die 45 beliebtesten Apps pro Kategorie angezeigt werden, aber es ist möglich, über einen internen API-Endpunkt auf die vollständigen Top-Listen zuzugreifen. Für die folgenden Statistiken haben wir uns die Labels der Top-Apps in allen Kategorien angesehen, insgesamt waren es 43.927 Apps (nach Deduplizierung derjenigen, die in mehreren Listen auftauchen).

Laut Googles Dokumentation sollten alle Apps bis zum 20. Juli 2022 ein Datensicherheits-Label bereitstellen. Jetzt, eineinhalb Monate nach Ablauf dieser Frist, hat mehr als ein Fünftel der Apps (9.255) immer noch keine Angaben gemacht. Diese Apps können keine Updates mehr veröffentlichen und müssen in Zukunft möglicherweise mit weiteren Durchsetzungsmaßnahmen rechnen, wie etwa der Entfernung der App aus dem Google Play Store.

29,8 % (10.347) der Apps, die ein Label haben, geben an, keine Daten weiterzugeben oder zu sammeln, und 57,2 % (19.848) erklären, dass sie zumindest keine Daten mit Dritten teilen. Diese Zahlen hören sich erst einmal erfreulich an, da viele Apps tatsächlich vollständig lokal auf dem Telefon funktionieren können, ohne Daten zu übertragen. Aber wir dürfen nicht vergessen, dass es sich hierbei um Selbsterklärungen durch die Entwicker_innen handelt, und wir noch nicht beurteilen können, ob diese Behauptungen tatsächlich der Wahrheit entsprechen.

Was aber ist mit den Apps, die nach eigenen Angaben Daten verarbeiten? Hier sieht die Situation weniger datenschutzfreundlich aus: Die vier am häufigsten angegebenen Datentypen dienen alle dem Tracking: Geräte-IDs, Absturzprotokolle, App-Interaktionen und Diagnosedaten. Erst danach folgen Datentypen, die manche Apps tatsächlich brauchen könnten, wie Nutzer_innen-IDs und der Name der Nutzer_in.

Balkendiagramm, in dem die verschiedenen Datentypen, die in einem Datensicherheits-Label erscheinen können, gegen die Anzahl der Apps, die den jeweiligen Typ in ihrem Label angeben, aufgetragen werden, unterschieden nach „erhobene Daten“ und „weitergegebene Daten“. Die Achse „Anzahl an Apps“ reicht von 0 bis 16.000. Die fünf häufigsten Datentypen sind (in absteigender Reihenfolge): Geräte- oder andere IDs, Absturzprotokolle, App-Interaktionen, Diagnosedaten, E-Mail-Adresse. Die fünf am wenigsten häufigen Datentypen sind (in aufsteigender Reihenfolge): Kreditscoring, SMS oder MMS, Politische oder religiöse Überzeugungen, Kalendertermine, Ethnische Zugehörigkeit. Bei allen Datentypen kommt „erhobene Daten“ deutlich häufiger als „weitergegebene Daten“ vor. — Anzahl an Apps, welche nach ihrem Label die jeweiligen Datentypen erheben und/oder weitergeben.

65,5 % (22.728) der Apps mit einem Datensicherheits-Label geben an, mindestens einen Datentyp zu erfassen oder weiterzugeben, der nur für Tracking¹ nützlich ist. Das sind fast alle Apps, die nicht angeben, dass sie keine Daten sammeln oder weitergeben! Dagegen geben nur 53,8 % (18.661) an, mindestens einen Datentyp zu erheben oder weiterzugeben, der für andere Zwecke als Tracking verwendet werden kann². Und 10 % (3.348) geben nur Daten an Dritte weiter, erheben aber selbst keine – wie großzügig von ihnen.

Das Bild bleibt dasselbe, wenn man sich die Zwecke ansieht, welche die Labels für die gesammelten Datentypen angeben: Analyse ist auch hier der am häufigsten angegebene Zweck, gefolgt von Funktionen der App und Werbung oder Marketing.

Balkendiagramm, das die verschiedenen Zwecke, die in einem Datensicherheits-Label erscheinen können, gegen die Anzahl der Apps aufträgt, die den jeweiligen Zweck in ihrem Label angeben, unterschieden nach „erhobene Daten“ und „weitergegebene Daten“. Die Achse „Anzahl an Apps“ reicht von 0 bis 17.500. Die Zwecke sind (in absteigender Reihenfolge): Analyse, Funktionen der App, Werbung oder Marketing, Kontoverwaltung, Betrugsprävention, Sicherheit und Compliance, Personalisierung, Mitteilungen der Entwickler_in. Bei allen Zwecken kommt „erhobene Daten“ deutlich häufiger als „weitergegebene Daten“ vor. — Anzahl an Apps, welche nach ihrem Label für die jeweiligen Zwecke Daten erheben und/oder weitergeben.

Neben der Auflistung der Datentypen und Zwecke müssen die Apps auch angeben, ob Nutzer_innen die Löschung ihrer Daten verlangen können. Angesichts der Tatsache, dass dieses Recht schon in der DSGVO verankert ist, sollte man erwarten, dass alle Apps dies ermöglichen. Nichtsdestotrotz sagen 27,2 % (9.428) der Apps mit Label, dass Nutzer_innen keine Löschung verlangen können, aber die meisten von ihnen geben zumindest an, dass sie keine Daten sammeln oder weitergeben. Wenn wir die auslassen, geben 5,5 % (1.911) an, dass sie Daten erheben und/oder weitergeben, Nutzer_innen aber keine Löschung verlangen können.

Beunruhigende Geständnisse

Bei der Analyse der Datensicherheits-Labels sind uns beunruhigend viele Apps aufgefallen, die deklarieren, dass sie hochsensible Daten wie Informationen über die sexuelle Orientierung, politische oder religiöse Überzeugungen und die Gesundheit ihrer Nutzer_innen zu Tracking- oder Werbezwecken sammeln oder sogar weitergeben. Und wie gesagt: Es handelt sich um Selbsterklärungen der Entwickler_innen, nicht um Behauptungen von uns oder Dritten. Die Entwickler_innen selbst scheinen kein Problem damit zu haben, diese unglaublich problematischen Verarbeitungen zuzugeben.

Hier nur einige wenige Beispiele bekannter Apps mit vielen Downloads, die solche Deklarationen machen³:

Facebook erhebt politische oder religiöse Überzeugungen, die sexuelle Orientierung und Gesundheitsdaten zu Analysezwecken
Amazon Shopping erhebt und teilt Gesundheitsdaten für Analysezwecke
Roblox erhebt die sexuelle Orientierung für Analysezwecke und teilt sie für Analyse- und Werbe- oder Marketingzwecke
SoundCloud - Musik & Songs teilt die sexuelle Orientierung für Werbe- oder Marketingzwecke
My Little Pony: Magic Princess erhebt die sexuelle Orientierung für Analyse- und Werbe- oder Marketingzwecke und teilt sie für Werbe- oder Marketingzwecke
FarmVille 2: Country Escape erhebt die sexuelle Orientierung für Werbe- oder Marketingzwecke
9GAG: Funny GIF, Meme & Video erhebt die sexuelle Orientierung für Analysezwecke
Zalando Lounge - Shopping Club erhebt und teilt die sexuelle Orientierung für Analyse- und Werbe- oder Marketingzwecke
momox: Bücher & mehr verkaufen erhebt und teilt die sexuelle Orientierung für Werbe- oder Marketingzwecke
nebenan.de - dein Nachbarschaftsnetzwerk erhebt die sexuelle Orientierung für Werbe- oder Marketingzwecke

Wir wissen nicht, ob alle Apps die Daten tatsächlich auf diese Weise verwenden, aber selbst wenn es sich „nur“ um übereifrige Angaben auf Verdacht handelt, weil die Entwickler_innen nicht wissen, was die Tracker, die sie in ihre Apps integrieren, tun, zeugt dies doch von einer besorgniserregenden Geringschätzung der Datenschutzrechte ihrer Nutzer_innen.

Bei allen Apps ist es unklar, warum sie diese Daten überhaupt verarbeiten müssen sollten, geschweige denn zu Tracking- oder Werbezwecken. Dies gilt insbesondere, wenn man bedenkt, dass all diese Datentypen unter die „besonderen Kategorien personenbezogener Daten“ fallen, für welche die DSGVO zusätzliche Schutzmaßnahmen vorschreibt (Art. 9 DSGVO). Einige Unternehmen berufen sich gerne auf ein berechtigtes Interesse (Art. 6 Abs. 1 lit. f DSGVO), um ihre Nutzer_innen nicht um eine Einwilligung für Tracking bitten zu müssen. Diese Praxis ist selbst bei nicht sensiblen Daten fragwürdig, darf bei besonderen Kategorien personenbezogener Daten aber definitiv nicht angewendet werden.

Besonders erschreckend: Einige der oben aufgeführten Apps richten sich ausdrücklich und ausschließlich an Kinder. Die DSGVO erkennt zu Recht an, dass Kinder einen noch umfassenderen Schutz ihrer personenbezogenen Daten brauchen (Erwägungsgrund 38 DSGVO) und stellt daher noch höhere Anforderungen an die Verarbeitung von deren Daten. Die Erhebung und sogar Weitergabe besonderer Kategorien personenbezogener Daten über Kinder zu Analyse- oder Werbezwecken ist vollkommen inakzeptabel.

Überprüfung der Labels anhand des tatsächlichen Netzwerkverkehrs

Zu guter Letzt haben wir noch den Netzwerkverkehr der 500 beliebtesten Apps⁴ analysiert, um den Wahrheitsgehalt der Angaben in den Labels zu überprüfen. Wir haben jede App in einem Android-Emulator installiert und gestartet und sie eine Minute lang ohne irgendwelche Eingaben laufen lassen. Im Hintergrund haben wir den gesamten Netzwerkverkehr aufgezeichnet.

Hier ist eine Übersicht der Datentypen, deren Übertragung wir beobachtet haben:

Anzahl an Übertragungen der beobachteten Datentypen pro App und Tracker im aufgezeichneten Netzwerktraffic, gruppiert nach Daten, die zusammen mit einer eindeutigen Kennung für Nutzer_in oder Gerät (also pseudonymisiert) oder ohne derartige Kennung (also anonymisiert) übertragen wurden.

Man sieht, dass zahlreiche Apps Geräteparameter wie Android-Version, Telefonmodell, Bildschirmgröße, Netzbetreiber, Akkustatus und Lautstärke übertragen. Da wir mit den Apps überhaupt nicht interagiert haben, ist es nicht überraschend, dass es kaum Traffic gibt, der mit der eigentlichen App-Funktionalität zusammenhängt, sondern zum größten Teil Tracking- und Werbe-Traffic. Es ist jedoch auffällig, dass selbst harmlose Datentypen wie die App-ID und -Version oder die Bildschirmgröße in der Regel in Verbindung mit einer eindeutigen ID für die Nutzer_in oder das Gerät (und damit pseudonymisiert)⁵ übertragen werden, was sie zu personenbezogenen Daten im Sinne der DSGVO macht (Erwägungsgrund 26 S. 2 DSGVO).

Wir können nun den aufgezeichneten Netzwerkverkehr mit den Angaben in den Datensicherheits-Labels vergleichen. Natürlich können wir dabei nur einige wenige der möglichen Datentypen überprüfen, da wir mit den Apps überhaupt nicht interagiert haben. Ebenso können wir nur definitiv sagen, wenn ein Datentyp übertragen wurde, aber nur weil wir nicht beobachtet haben, dass ein Datentyp übertragen wurde, heißt das nicht andersherum unbedingt, dass er nie übertragen wird. Außerdem sind Googles Anforderungen weniger streng als die Definition von „Verarbeitung“ in der DSGVO. Nach den Google-Richtlinien müssen Apps beispielsweise keine Daten als erhoben auflisten, die an einen Server gesendet, aber sofort nach der Bearbeitung der Anfrage gelöscht werden. Wir berücksichtigen diese Ausnahmen bei unserer automatisierten Analyse nicht (und könnten dies auch nicht tun).

Gestapeltes Balkendiagramm, das die Verteilung darüber zeigt, ob Apps den jeweiligen analysierten Datentyp und Zweck korrekt angegeben haben. Die Achse „Anzahl an Apps“ reicht von 0 bis 400. Die Datentypen sind: Standort, SMS oder MMS, Kontakte, Diagnosedaten, Sonstige App-Leistungsdaten, Geräte- oder andere IDs. Die Zwecke sind: Analyse, Werbung oder Marketing. Die möglichen Beurteilungen sind: nicht deklariert, aber beobachtet, deklariert, aber nicht beobachtet, korrekt deklariert, korrekt nicht deklariert. Bezüglich der Datentypen: Mehr als die Hälfte der Apps hat den Datentyp Standort korrekt nicht deklariert, eine Handvoll hat ihn korrekt deklariert, eine weitere Handvoll hat ihn nicht deklariert, obwohl er beobachtet wurde, und der Rest hat ihn deklariert, aber er wurde nicht beobachtet. Sowohl bei SMS oder MMS als auch bei Kontakten hat die überwiegende Mehrheit der Apps den jeweiligen Datentyp korrekt nicht deklariert, der Rest hat ihn deklariert, aber er wurde nicht beobachtet. Bei Diagnosedaten, sonstigen App-Leistungsdaten und Geräte- oder anderen IDs hat etwa die Hälfte der Apps den jeweiligen Datentyp entweder korrekt deklariert oder korrekt nicht deklariert, etwa 12 % haben ihn nicht deklariert, obwohl er beobachtet wurde, und der Rest hat ihn deklariert, aber nicht beobachtet. Zu den Zwecken: Sowohl für Analyse als auch für Werbung oder Marketing hat etwa ein Drittel der Apps den jeweiligen Datentyp entweder korrekt deklariert oder korrekt nicht deklariert, etwa 6 % haben ihn nicht deklariert, obwohl er beobachtet wurde, und der Rest hat ihn deklariert, aber er wurde nicht beobachtet. — Auswertung der Richtigkeit der Datentypen und Zwecke in den analysierten Datensicherheits-Labels. Bedenke, dass wir nur definitiv sagen können, wenn Daten erhoben werden, aber nie bestätigen können, dass sie niemals erhoben werden.

Vor diesem Hintergrund waren, zumindest nach dem, was wir gesehen haben, die meisten Angaben korrekt, aber wir haben auch fehlende Angaben festgestellt. Vor allem hat mehr als ein Viertel der Apps Trackingdaten⁶ übermittelt, die nicht deklariert waren. Und eine Handvoll Apps hat den Standort übermittelt, ohne dies zu deklarieren. Darüber hinaus haben etwas mehr als 5,7 % und 6,3 % der Apps Kontakt zu bekannten Tracking- bzw. Werbe-Servern aufgenommen, ohne den entsprechenden Zweck irgendwo in ihrem Label zu deklarieren.

Diese Ergebnisse stimmen mit dem überein, was wir schon bei iOS-Datenschutz-Labeln gesehen haben. Solche Label können ein nützliches Werkzeug sein, um wichtige Informationen über Datenschutzpraktiken, die sonst in Datenschutzerklärungen versteckt waren, für Nutzer_innen zugänglich und leichter verständlich zu machen. Wenn die Kennzeichnungen aber ausschließlich auf Selbsterklärungen der Entwickler_innen beruhen, können sie Nutzer_innen fälschlicherweise glauben lassen, dass Apps datenschutzfreundlich wären, auch wenn sie es in Wirklichkeit gar nicht sind, und damit stattdessen gefährlich werden.
Die Angaben in den Labels zeigen aber auch deutlich, wie umfangreich die Sammlung von Tracking- und Werbedaten ist, und dass sie manchmal Daten betrifft, deren Erfassung völlig unangemessen ist. Es reicht nicht aus, dass Apps dies in einem Label zugeben. Tracking muss deutlich weniger üblich werden, und – mindestens – müssen die Nutzer_innen eine echte und informierte Wahl haben, welcher Datenerfassung sie zustimmen, wie es die DSGVO ohnehin bereits verlangt.

Datensatz und Quellcode der Analyse

Die Datensicherheits-Label, auf denen die Analyse in diesem Artikel basiert, wurden am 07. September 2022 heruntergeladen. Wir veröffentlichen unseren vollständigen Datensatz, einschließlich des aufgezeichneten Netzwerkverkehrs. Wir stellen auch eine separate CSV-Datei der oben beschriebenen beunruhigenden Deklarationen bereit.
Der Quellcode für die Analyse ist auf GitHub verfügbar.

Google gruppiert die verschiedenen Datentypen in Kategorien (vollständige Liste). Wir erachten die folgenden Kategorien als nur für Tracking sinnvoll: App-Aktivitäten, App-Informationen und -Leistung, Geräte- oder andere IDs ↩︎
Wir erachten die folgenden Kategorien von Datentypen als potentiell für andere Zwecke als Tracking nützlich: Standort, Personenbezogene Daten, Finanzdaten, Gesundheit und Fitness, Nachrichten, Fotos und Videos, Audiodateien, Dateien und Dokumente, Kalender, Kontakte ↩︎
Eine vollständige Liste dieser Deklarationen ist als CSV-Datei verfügbar. ↩︎
Obwohl wir die Analyse für alle Apps durchgeführt haben, war sie nur bei 442 Apps erfolgreich. Von den übrigen konnten sieben aufgrund spezifischer Geräteanforderungen nicht für unseren Emulator heruntergeladen werden, und 51 stürzten während der Trafficaufzeichnung ab. ↩︎
Wir erachten die Daten in einer Anfrage als pseudonymisiert, wenn die Anfrage mindestens eine eindeutige Kennung für das Gerät oder die Nutzer_in enthält, nämlich die Google-Werbe-ID des Geräts (einschließlich gehashter Formen davon), die öffentliche IP-Adresse der Nutzer_in oder eine trackerspezifische eindeutige ID. ↩︎
Unter „Trackingdaten“ verstehen wir die Datentypen Diagnosedaten, Sonstige App-Leistungsdaten und Geräte- oder andere IDs. Google definiert nicht eindeutig, was jeweils darunter fällt. Für diese Analyse zählen wir die folgenden Informationen zu dem jeweiligen Typ:
- Diagnose: Roaming-Status, ist das Gerät gerootet?, ist das Gerät ein Emulator?, Typ der Netzwerkverbindung, WLAN- und Mobilfunk-Signalstärke, Ladestatus, Akkustand, Sensordaten (Beschleunigungssensor, Rotation), RAM-Auslastung, Festplattenauslastung, Uptime, Lautstärke
- Sonstige App-Leistungsdaten: Gerätename, Netzbetreiber, lokale IPs, BSSID
- Geräte- oder andere IDs: Google-Werbe-ID, gehashte Google-Werbe-ID, IMEI, MAC-Adresse, öffentliche IP-Adresse (wenn explizit in der Anfrage enthalten), andere eindeutige Nutzer_innen-, Sitzungs- oder Geräte-IDs
↩︎

geschrieben von Benjamin Altpeter
am 2022-09-18 um 10:17
veröffentlicht unter: Creative Commons Namensnennung 4.0 International Lizenz

Titelfoto angepasst nach: „text photo“ von Sam Moghadam Khamseh (Unsplash-Lizenz)