חוקרים מאנגליה ומבלגיה פרסמו לאחרונה מחקר שמצא כי ניתן לזהות יחידים מתוך מידע אישי שעבר אנונימיזציה ב99.98% מהמקרים, וזאת באמצעות לא יותר מחמישה עשר (15) מאפיינים דמוגרפיים.
המחקר החדש, שפורסם בכתב העת Nature Communications, מראה כי באמצעות למידת מכונה ניתן לאחזר מידע שעבר אנונימיזציה בקלות יחסית וכי שיטות האנונימיזציה המקובלות כיום אינן עומדות בסטנדרטים שמגדיר ה-GDPR בהקשר זה.
מסקנה זו מאתגרת את החוקיות של המודל המקובל, לפיו כאשר מידע אישי עובר תהליך של אנונימיזציה, כלומר "מופשט" מפרטים מזהים באופן שאיננו מאפשר עוד זיהוי של יחיד עליו נאסף המידע, המידע יוצא מגדר ההגדרה של "מידע אישי" ולא חלות עליו ההגבלות החלות על עיבוד והעברה של מידע אישי.
אין זו הפעם הראשונה שמחקרים מוכיחים כי ניתן לזהות מידע שעבר אנונימיזציה ברמות דיוק גבוהות. החידוש במחקר הנוכחי הוא שהחוקרים בנו מודל סטטיסטי שמעריך את הקלות שבה ניתן יהיה לזהות מידע לגבי כל בסיס נתונים. בנוסף, החוקרים פרסמו את הקוד שפיתחו כך שניתן יהיה לבחון את ממצאיהם. הם אף בנו ממשק אינטרנטי שבו כל אחד יכול לבדוק מה הסיכוי שיזוהה בהסתמך על מאפיינים דמוגרפיים שונים. כלל האצבע הוא שככל שבסיס נתונים מכיל יותר מאפיינים, התוצאות תהיינה מדוייקות יותר ולכן הנתונים יהיו פחות "אנונימיים".
המחקר מדגיש כמה קשה באופן מעשי להגיע לאנונימיזציה מוחלטת. החוקרים קוראים לקובעי מדיניות ולרגולטורים להכיר בסיכון של אחזור מידע אנונימי, לזנוח את התפיסה המאפשרת חופש מוחלט בעיבוד מידע שעבר אנונימיזציה, ולהשקיע יותר בפיתוח מערכות המגנות על הפרטיות. מקור: techcrunch (מאת: נטשה לומס).