Квазі-ідентифікатор

Квазі-ідентифікатор — це фрагменти інформації, які самі по собі не є унікальними ідентифікаторами^[en], але досить добре корелюють із сутністю, щоб їх можна було об'єднати з іншими квазі-ідентифікаторами для створення унікального ідентифікатора.^[1]

Таким чином, квазі-ідентифікатори, будучі об'єднаними, можуть стати персональною інформацією. Цей процес називається повторна ідентифікація^[en]. Як приклад, Латанія Свіні^[en] показала, що, незважаючи на те, що ні стать, ні дата народження, ні поштовий індекс однозначно не ідентифікують особу, поєднання всіх трьох є достатнім, щоб ідентифікувати 87 % осіб у Сполучених Штатах.^[2]

Термін був введений Торе Даленіусом у 1986 році.^[3] Відтоді квазі-ідентифікатори були основою кількох атак на оприлюднені дані. Наприклад, Суїні зв'язав медичні записи з загальнодоступною інформацією, щоб знайти медичні записи тодішнього губернатора штату Массачусетс, використовуючи унікальні квазіідентифікатори,^[4]^[5] а Суіні, Абу і Вінн використовували публічні списки виборців, щоб повторно ідентифікувати учасників проекту «Особистий геном».^[6] Крім того, Арвінд Нараянан і Віталій Шматіков обговорили квазі-ідентифікатори для вказівки статистичних умов для деанонімізації даних, опублікованих Netflix.^[7]

Мотвані та Ін попереджають про потенційні порушення приватності, причиною яких можуть стати публікації великих обсягів державних та бізнес-даних, що містять квазі-ідентифікатори.^[8]

Див. також

Примітки

↑ Glossary of Statistical Terms: Quasi-identifier. OECD. 10 листопада 2005. Архів оригіналу за 7 Листопада 2013. Процитовано 29 вересня 2013.
↑ Sweeney, Latanya. Simple demographics often identify people uniquely. Carnegie Mellon University, 2000. http://dataprivacylab.org/projects/identifiability/paper1.pdf [Архівовано 22 Березня 2022 у Wayback Machine.]
↑ Dalenius, Tore. Finding a Needle In a Haystack or Identifying Anonymous Census Records. Journal of Official Statistics, Vol.2, No.3, 1986. pp. 329—336. http://www.jos.nu/Articles/abstract.asp?article=23329 [Архівовано 2017-08-08 у Wayback Machine.]
↑ Anderson, Nate. Anonymized data really isn't—and here's why not. Ars Technica, 2009. https://arstechnica.com/tech-policy/2009/09/your-secrets-live-online-in-databases-of-ruin/ [Архівовано 15 Березня 2022 у Wayback Machine.]
↑ Barth-Jones, Daniel C. The're-identification'of Governor William Weld's medical information: a critical re-examination of health data identification risks and privacy protections, then and now. Then and Now (June 4, 2012) (2012).
↑ Sweeney, Latanya, Akua Abu, and Julia Winn. «Identifying participants in the personal genome project by name.» Available at SSRN 2257732 (2013).
↑ Narayanan, Arvind and Shmatikov, Vitaly. Robust De-anonymization of Large Sparse Datasets. The University of Texas at Austin, 2008. https://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf [Архівовано 26 Січня 2021 у Wayback Machine.]
↑ Rajeev Motwani and Ying Xu (2008). Efficient Algorithms for Masking and Finding Quasi-Identifiers (PDF). Proceedings of SDM’08 International Workshop on Practical Privacy-Preserving Data Mining. Архів оригіналу (PDF) за 16 Січня 2022. Процитовано 15 Березня 2022.

[1] Glossary of Statistical Terms: Quasi-identifier. OECD. 10 листопада 2005. Архів оригіналу за 7 Листопада 2013. Процитовано 29 вересня 2013.

[2] Sweeney, Latanya. Simple demographics often identify people uniquely. Carnegie Mellon University, 2000. http://dataprivacylab.org/projects/identifiability/paper1.pdf [Архівовано 22 Березня 2022 у Wayback Machine.]

[3] Dalenius, Tore. Finding a Needle In a Haystack or Identifying Anonymous Census Records. Journal of Official Statistics, Vol.2, No.3, 1986. pp. 329—336. http://www.jos.nu/Articles/abstract.asp?article=23329 [Архівовано 2017-08-08 у Wayback Machine.]

[4] Anderson, Nate. Anonymized data really isn't—and here's why not. Ars Technica, 2009. https://arstechnica.com/tech-policy/2009/09/your-secrets-live-online-in-databases-of-ruin/ [Архівовано 15 Березня 2022 у Wayback Machine.]

[5] Barth-Jones, Daniel C. The're-identification'of Governor William Weld's medical information: a critical re-examination of health data identification risks and privacy protections, then and now. Then and Now (June 4, 2012) (2012).

[6] Sweeney, Latanya, Akua Abu, and Julia Winn. «Identifying participants in the personal genome project by name.» Available at SSRN 2257732 (2013).

[7] Narayanan, Arvind and Shmatikov, Vitaly. Robust De-anonymization of Large Sparse Datasets. The University of Texas at Austin, 2008. https://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf [Архівовано 26 Січня 2021 у Wayback Machine.]

[8] Rajeev Motwani and Ying Xu (2008). Efficient Algorithms for Masking and Finding Quasi-Identifiers (PDF). Proceedings of SDM’08 International Workshop on Practical Privacy-Preserving Data Mining. Архів оригіналу (PDF) за 16 Січня 2022. Процитовано 15 Березня 2022.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]