Erläuterung zu Big Data

Big Data bietet neue Chancen für soziale oder wissenschaftliche Erkenntnisse und eine veränderte Form der Wertschöpfung für Unternehmen. Big Data kann jedoch auch die Privatsphäre bedrohen, wenn etwa die bearbeiteten Daten nicht oder nur ungenügend anonymisiert wurden. Wenn es sich um personenbezogene Daten handelt, muss das Recht auf Privatsphäre und der Schutz von Personendaten gewahrt werden.

Einleitung

Nicht erst seit den letzten Enthüllungen über die enormen Datenmengen, welche verschiedene Geheimdienste gesammelt, gespeichert und analysiert haben, ist Big Data in den Fokus der Öffentlichkeit gerückt. Die tägliche Nutzung von Fernmelde- und Onlinediensten, elektronischen Geräten, Kredit- und Debitkarten, die Einkäufe, der Stromverbrauch etc. führen zu enormen Datenmengen. Dazu kommen diejenigen Daten, die Behörden aufgrund ihres gesetzlichen Auftrages oder im Rahmen von Open-Data-Projekten publizieren. Die anfallenden Informationen werden von verschiedenen Akteuren ausgewertet und (auch) kommerziell genutzt. Aus ökonomischer Sicht stellt Big Data ein enormes Potential dar. Schätzungen zufolge wird sich bis 2020 die weltweit gespeicherte Datenmenge um das mindestens Vierzigfache steigern.

Was ist Big Data?

Der Begriff „Big Data" steht für eine grosse Datenmenge aus vielfältigen Quellen, die mit hoher Verarbeitungsgeschwindigkeit erfasst, gespeichert und für unbestimmte Zwecke auf unbestimmte Zeit für Auswertungen und Analysen verfügbar gemacht werden. Die intensiven Verarbeitungsverfahren sind möglich geworden, weil aufgrund der technologischen Entwicklung die Kosten und die Zeitintensität für die Speicherung und Auswertung riesiger Datenmengen stark zurückgegangen sind. So können Daten ohne Probleme über eine lange Zeit aufbewahrt und für beliebige Zwecke in Zukunft erneut verwendet werden. Neu entwickelte Methoden und Technologien ermöglichen ohne Weiteres die Analyse und Verknüpfung sehr grosser Datenmengen. Dabei werden auf einen grossen Datenbestand Algorithmen angewendet mit dem Ziel, neue Muster, Ähnlichkeiten, Zusammenhänge oder Diskrepanzen zu erkennen.

Big Data lässt sich im Wesentlichen durch vier Merkmale definieren, welche aufgrund ihrer englischen Bezeichnung als die vier „Vs" bezeichnet werden:

Big Data sind grosse Datenmengen (Volume), die mit hoher Geschwindigkeit (Velocity) verarbeitet werden. Ein drittes Merkmal ist die unterschiedliche Beschaffenheit oder Vielfalt (Variety) der Daten. Mit Big Data eröffnen sich neue Möglichkeiten, Daten aus unterschiedlichen Quellen, welche sich bisher nicht aufeinander bezogen haben, miteinander zu kombinieren. So können beispielsweise Daten aus der internen Kundendatensammlung mit externen Daten aus sozialen Netzwerken, Suchmaschinen, Amtsblättern oder Datenbeständen aus behördlichen Open-Data-Portalen miteinander verknüpft werden. Das vierte Merkmal ist der Mehrwert (Value), welcher mit der Datenanalyse geschaffen werden soll. 

Chancen und Risiken von Big Data

Big Data wird auch als „das neue Öl" oder „Goldmine" bezeichnet, weil es neue Chancen für soziale oder wissenschaftliche Erkenntnisse eröffnet und für kommerzielle Unternehmen eine veränderte Form der Wertschöpfung bietet, indem unstrukturierte und heterogene Informationen durch Verknüpfung und Auswertung genutzt werden können. Typische Anwendungsgebiete sind z.B. eine automatisierte und schnelle Marktforschung, die auf Veränderungen unmittelbar reagieren kann, Aufdecken von Missbrauchsfällen bei Finanztransaktionen, detaillierte Webanalysen zur Steigerung und Optimierung von Online-Marketing-Massnahmen, umfassende medizinische Diagnostik oder die Rasterfahndung oder Profilerstellung für Geheimdienste oder Polizei. 

Big Data kann jedoch auch eine ausserordentliche Bedrohung für die Privatsphäre darstellen, wenn Informationen von Einzelpersonen aus verschiedenen Lebensbereichen systematisch und strukturiert gesammelt und ausgewertet werden. Eine Versicherung könnte zum Beispiel Leistungen verweigern, weil die Analyse der Gesundheitsdaten mit hoher Wahrscheinlichkeit  eine zukünftige Krankheit vorhersagt. Oder Nachrichtendienste können Big-Data-Algorithmen brauchen, um mutmassliche sicherheitspolitische Gefahren vorherzusagen, und entsprechend dazu übergehen, private Personen permanent und über verschiedene Kanäle zu überwachen.

Big Data  - ein Datenschutzproblem?

Datenschutzgesetze regeln den Umgang mit personenbezogenen Daten. Personendaten sind alle Angaben, die sich auf eine bestimmte oder bestimmbare Person beziehen (Art. 3 lit. a DSG). Im Zusammenhang mit Big Data wird häufig argumentiert, dass in den meisten Fällen reine Sachdaten oder anonymisierte Daten gesammelt werden und deshalb die Datenschutzbestimmungen nicht zur Anwendung gelangen. 

Die Schwierigkeit bei Big Data mit „Sachdaten" oder „anonymisierten" Daten besteht darin, dass nicht ausgeschlossen werden kann, dass bei der Zusammenführung von mehreren Datenbeständen eine De-Anonymisierung erfolgt. Die Anonymisierung einzelner eindeutiger Identifikatoren reicht in vielen Fällen nicht aus, um Re-Identifizieriungen auszuschliessen. Auch mit sogenannten Quasi-Identifikatoren - Kombinationen von Attributen wie Geburtsdatum, Geschlecht und Postleitzahl - muss vorsichtig umgegangen werden. So ermittelten US-Wissenschaftler, dass sich vier Fünftel der amerikanischen Bevölkerung allein anhand dieser drei Merkmale nachträglich identifizieren lassen. Deutlich schwieriger gestaltet sich eine nachträgliche Zuordnung hingegen, wenn Quasi-Identifikatoren in generalisierter Form verarbeitet werden, wenn also statt der genauen Angabe des Lebensalters (z. B. 44 Jahre) der Bereich „40-49 Jahre" gewählt wird. Werden mehrere Datenfelder generalisiert, spricht man von einer sogenannten „k-Anonymität". Je höher der Zahlenwert „k", desto mehr Datenzwillinge existieren, die dieselbe Kombination von Datenwerten aufweisen - die Anonymisierung wird somit stärker. Wird eine zu schwache Anonymisierung der Personendaten gewählt, hat dies zur Folge, dass die datenschutzrechtlichen Anforderungen an die Datenbearbeitung bestehen bleiben und der ursprüngliche Dateninhaber zur Rechenschaft gezogen werden kann.

Ein weiteres Problem ist die Voraussehbarkeit der technologischen Entwicklung: Was heute als „anonym" gilt, kann morgen eventuell aufgrund des rapiden technologischen Fortschritts und zusätzlicher Datenquellen ohne grossen Aufwand einer bestimmten Person zugeordnet werden und so möglicherweise eine grobe Persönlichkeitsverletzung darstellen. Daher ist es notwendig, dass Datenschutzfragen schon bei der Entwicklung neuer Technologien geprüft werden. Der Datenschutz muss von vornherein in die Gesamtkonzeption einbezogen werden („Privacy by Design") anstatt Datenschutzprobleme im Nachhinein mühsam und mit viel Kosten und Zeitaufwand zu beheben.

Nachfolgend werden weitere wesentliche datenschutzrechtliche Aspekte von Big Data aufgeführt:

  • Die technologischen Möglichkeiten stellen eine Herausforderung an das datenschutzrechtliche Transparenzerfordernis: Jede Person hat das Recht zu wissen, wer welche Daten über sie zu welchem Zweck bearbeitet. Bei Big Data ist die Datenbearbeitung und die Verknüpfung von Daten aus unterschiedlichen Quellen sehr unübersichtlich und für die betroffenen Personen kaum nachvollziehbar. Deshalb sind die Big-Data-Anwender bezüglich Transparenz und Information der betroffenen Personen besonders gefordert.

  • Personenbezogenes Big Data erfordert die Einwilligung der betroffenen Personen. Dabei muss der Zweck der Big-Data-Verfahren für die betroffenen Personen bereits bei der Datenbeschaffung klar und eindeutig erkennbar sein. Dies widerspricht jedoch dem Prinzip von Big Data, wo Daten auf Vorrat gesammelt werden, um einem beliebigen Zweck in der Zukunft zu dienen. Eine offene, allgemeine Zweckumschreibung bei der Information über die Datenbearbeitung hat zur Folge, dass die Einwilligung in die geplante Datenbearbeitung nicht rechtsgültig ist.

  • Eine weitere Schwierigkeit stellt die Anforderung der Datenrichtigkeit dar: Bei Big Data werden Algorithmen eingesetzt, die in selbständiger, automatisierter Weise grosse Datenbestände u.a. auf Zusammenhänge hin analysieren. Mit den Analyseverfahren werden neue personenbezogene Informationsinhalte geschaffen, die nicht als falsch oder richtig beurteilt werden können, sondern Wahrscheinlichkeiten oder Interpretationen darstellen.

Schlussfolgerung

Big Data bietet neue Chancen für soziale oder wissenschaftliche Erkenntnisse und eine veränderte Form der Wertschöpfung für Unternehmen. Big Data kann jedoch auch die Privatsphäre bedrohen, wenn etwa die bearbeiteten Daten nicht oder nur ungenügend anonymisiert wurden. Wenn es sich um personenbezogene Daten handelt, muss das Recht auf Privatsphäre und der Schutz von Personendaten gewahrt werden. Schwerpunkte müssen dabei bei einer datenschutzfreundlichen Ausgestaltung der Technik und Verfahren von Big Data liegen. Der Datenschutz muss schon in der konzeptionellen Phase berücksichtigt und die Datensicherheit gewährleistet werden. Zudem sind hohe Transparenz- und Verfahrensanforderungen an Big Data zu stellen. Personenbezogenes Big Data steht in einem Spannungsverhältnis mit den Grundprinzipien des Datenschutzgesetzes, namentlich der Zweckbindung und der Datensparsamkeit. Es ist deshalb offensichtlich, dass es die heutigen Datenschutzkonzeptionen vor grosse Herausforderungen stellt. Denn die Nutzung von Big Data hat begonnen, und dadurch werden grundlegende Bestimmungen des Datenschutzgesetzes (DSG) in Frage gestellt. Daher braucht es eine grundlegende Überprüfung des DSG, wie die zentralen Grundsätze der Zweckbindung, der Einwilligung und der Transparenz bei der Nutzung von Big Data eingehalten werden können. 

https://www.edoeb.admin.ch/content/edoeb/de/home/datenschutz/Internet_und_Computer/onlinedienste/erlaeuterungen-zu-big-data/erlaeuterung-zu-big-data.html