Diffix ist eine Zusammenstellung von Mechanismen zur Anonymisierung strukturierter Daten. Es wurde gemeinsam entwickelt von Aircloak GmbH und dem Max-Planck-Institut für Softwaresysteme entwickelt. Diffix nutzt Mechanismen, die von den nationalen Statistikämtern seit Jahrzehnten verwendet werden: Aggregation, Generalisierung, Rauschen, Unterdrückung und Vertauschung. Es wendet diese Mechanismen bei Bedarf automatisch auf jede einzelne Abfrage an, um das Rauschen zu minimieren und gleichzeitig eine hohe Anonymität zu gewährleisten. Hier finden Sie einen kurzen Überblick.
Open Diffix ist ein Projekt, das die Diffix-Anonymisierung frei und offen machen soll. Im Rahmen des Open Diffix-Projekts werden zwei Diffix-Abfrage-Engine-Implementierungen entwickelt, eine auf der Grundlage von .NET und die andere als PostgreSQL-Erweiterung namens pg_diffix. Als PostgreSQL-Erweiterung bietet pg_diffix dieselben Vorteile wie PostgreSQL: Skalierbarkeit, Leistung, Bereitstellung und Zugriffssteuerungsfunktionen. Open Diffix kann auch als eigenständige Desktop-Anwendung ausgeführt werden, Diffix Dashboards. Die .NET-Implementierung dient in erster Linie als Referenzimplementierung, aber wird auch zur Unterstützung der älteren Desktop-Anwendung Diffix for Desktop verwendet. Beide Implementierungen sind stark anonym und erfüllen die GDPR-Definition von Anonymität.
Die Hauptversionen von Diffix sind nach Bäumen benannt. Diffix Aspen bis Dogwood wurden von der Aircloak GmbH entwickelt. Diffix Elm war die erste Version, die im Rahmen des Open Diffix-Projekts entwickelt wurde. Im Vergleich zu früheren Versionen stellte Diffix Elm eine Art "Komplexitäts-Reset" dar. Es ist viel einfacher zu bedienen und leichter zu analysieren (wenn auch weniger funktionsreich).
Die neueste Version ist Diffix Fir, die mehrere neue Funktionen wie Summe, Durchschnitt und WHERE enthält.
Eine vollständige Spezifikation und Datenschutzanalyse von Diffix Fir ist noch nicht abgeschlossen. Die vollständige Spezifikation und die Analyse der Privatsphäre von Diffix Elm ist auf ArXiv verfügbar. Sie enthält eine Anleitung zur Erstellung einer Risikobewertung. Da Fir nur ein paar neue Funktionen zu Elm hinzufügt, reicht die Elm-Spezifikation für den Moment.
Einen guten Überblick über Diffix Elm finden Sie hier hier , wobei die zusätzlichen Funktionen von Diffix Fir beschrieben werden hier.
Open Diffix unterstützt drei Implementierungen von Diffix Fir, eine PostgreSQL-Erweiterung (pg_diffix) und zwei eigenständige Desktop-Anwendungen.
Diffix for PostgreSQL bietet alle Vorteile von PostgreSQL und ermöglicht die Entwicklung von skalierbaren Web-Backends, Dashboards und Anwendungen über eine Standard-API mit SQL sowie die Verwendung von SQL-Clients.
Diffix Dashboards ist eine eigenständige Windows-Desktopanwendung mit Datenvisualisierungsfunktionen, die für die Arbeit mit CSV-Dateien entwickelt wurde. Es bündelt pg_diffix mit dem Open-Source-Business-Intelligence-Tool Metabase und bietet sowohl GUI-basierte Abfrageerstellung als auch SQL.
Diffix für Desktop basiert auf einer .NET-Implementierung von Diffix Fir. Es wurde für eine extrem einfache Installation und Nutzung ausgelegt. Es unterstützt CSV-Tabellen und bietet eine einfache GUI (keine SQL-Kenntnisse erforderlich). Es handelt sich um eine veraltete Anwendung, die anstelle von Diffix Dashboards wahrscheinlich nicht mehr unterstützt wird.
K-Anonymität verwendet Generalisierung und Unterdrückung. Systeme, die auf Differential Privacy (differentielle Privatsphäre) basieren, verwenden Rauschen und verwenden oft Verallgemeinerung. Diffix verwendet alle drei und kombiniert so die Vorteile von K-Anonymität und Differential Privacy, ohne sich formal an eines der beiden Modelle zu halten. Dabei orientiert sich Diffix eher wie nationale Statistikämter die Anonymisierung angehen. Diffix bietet zwar nicht die mathematischen Garantien von Low-Epsilon Differential Privacy bietet, aber es ergeben sich hinsichtlich der Privatsphäre keine Nachteile.
Diffix unterstützt deskriptive Analysen über strukturierte Daten wie relationale Datenbanken oder CSV-Dateien: Auswahl von Spalten, Abfrage von Zählungen oder Summen über diese Spalten, Einordnung von Daten in Klassen unterschiedlicher Größe usw. Deskriptive Analysen werden verwendet, um Visualisierungen wie Balkendiagramme, Streudiagramme oder Heatmaps zu erstellen. Diffix unterstützt kein maschinelles Lernen, keine Generierung synthetischer Daten, keine Datenmaskierung, keine Pseudonymisierung, kein Image Fuzzing und keine Anonymisierung von Freiformtext (Redacting).
Diffix Fir unterstützt eine sehr begrenzte, aber nützliche Teilmenge von SQL. Es unterstützt numeric, text und datetime Datentypen. Damit können Sie mehrspaltige Histogramme erstellen von Zählungen, Summen und Durchschnittswerten erstellen. Es unterstützt grundlegende Verallgemeinerungsfunktionen (z. B. Rundung numerischer Spalten und Teilstring-Auswahl von Textspalten). Es unterstützt JOIN und WHERE mit AND-Logik.
Alle Anonymisierungsmechanismen verringern die Datenqualität, indem sie verallgemeinern oder verzerren, und Diffix bildet da keine Ausnahme. Die Datenqualität von Diffix ist vergleichbar mit den von vielen nationalen Statistikämtern veröffentlichten Daten (z. B. Volkszählungsdaten) und übertrifft in der Regel bei weitem die Qualität von k-Anonymität und Differential Privacy.
Diffix Dashboards ermöglicht den direkten Vergleich anonymisierter und nicht anonymisierte Daten. Auf diese Weise können Sie die Datenqualität von Diffix selbst festlegen. Diffix für PostgreSQL kann das Ausmaß des Rauschens anzeigen, das zu jeder Ausgabe-Klasse hinzugefügt wurde.
Diffix verfügt über zwei Betriebsmodi, den vertrauenswürdigen Analystenmodus und den nicht-vertrauenswürdigen Analystenmodus. Der vertrauenswürdige Modus schützt vor einer versehentlichen Freigabe personenbezogener Daten. Der nicht-vertrauenswürdige Modus schützt vor der absichtlichen, böswilligen Offenlegung personenbezogener Daten. Ein Analyst im vertrauenswürdigen Modus benötigt keine Fachkenntnisse in der Anonymisierung, um über Diffix abgefragte Daten sicher freizugeben.
Der vertrauenswürdige Modus ist einfacher zu verwenden. Er bietet mehr Abfragefunktionen und in Diffix Dashboards kann ein Analyst die anonymisierten Daten und die Originaldaten nebeneinander vergleichen. Auf diese Weise weiß der Analytiker genau, wie stark die Daten durch Unterdrückung und Rauschen verzerrt sind, und er kann die Spaltenauswahl und Verallgemeinerung nach Bedarf anpassen.
Die kurze Antwort lautet "Ja". Die längere Antwort lautet, dass es keine konkreten Kriterien für die GDPR-konformen Anonymität gibt. Letztendlich obliegt es dem Datenschutzbeauftragten oder der Datenschutzbehörde, die Entscheidung zu treffen. Diffix, wie es von Aircloak implementiert wurde, wurde fast immer als GDPR-anonym bewertet, und das Gleiche gilt für Open Diffix.
Die vollständige Spezifikation von Diffix Elmist zur Unterstützung der Risikobewertung durch Datenschutzbeauftragten und Datenschutzbehörden für GDPR oder andere Datenschutzstandards gedacht. Sie beschreibt die Anonymisierungsmechanismen im Detail und enthält eine Analyse der Anonymisierungseigenschaften gegenüber einer umfassenden Reihe von Angriffen. Für Unterstützung in diesem Prozess können Sie uns unter hello@open-diffix.org kontaktieren.
Fast. Open Diffix arbeitet unter der Business Source License (BSL1.1). Unsere Lizenz macht Diffix frei für alle Anwendungsfälle, einschließlich kommerzieller, die Diffix-Software oder Schnittstellen nicht weiterverkaufen.
In den ersten Jahren wird Open Diffix vom Max-Planck-Institut für Softwaresysteme als Forschungsinitiative finanziert. Unser Ziel ist es, durch Sponsoring, Beratung oder Lizenzierung uns künftig selbst zu finanzieren. Lizenzierung.
Bitte kontaktieren Sie uns unter hello@open-diffix.org