Те, як Бюро перепису населення США працює над покращенням конфіденційності даних, може стати уроком для підприємств

Ознайомтеся з усіма сесіями на замовлення саміту Intelligent Security Summit тут.


Занепокоєння американців щодо конфіденційності даних зростає. Через відсутність будь-якого масштабного законодавства на національному рівні, такого як європейські закони GDPR, американці відчувають себе втомленими та вразливими до збору даних як компаніями, так і урядом.

За даними Pew Research, 81% стверджують, що ризики переважують переваги збору даних від компаній, а 61% вважають те саме, що стосується збору даних урядом. І це не просто розмови — 52% кажуть, що вони вирішили не використовувати товар чи послугу саме через збір даних і проблеми конфіденційності.

Федеральні законодавці працюють над вирішенням цього. У 2021 році штати прийняли 27 законопроектів про конфіденційність, спрямованих на панування в технологічній індустрії вільного поводження та продажу персональних даних. У 2022 році Юта та Коннектикут приєдналися до Каліфорнії, Колорадо та Вірджинії у прийнятті власних державних законів про конфіденційність даних, які набудуть чинності у 2023 році.

«Одна з важливих речей щодо конфіденційності даних полягає в тому, що конфіденційність залежить від контексту», — сказав Ос Кейз, доктор філософії. кандидат на кафедрі дизайну та інженерії, орієнтованого на людину, Університету Вашингтона, який досліджує етику даних, медичний штучний інтелект, розпізнавання облич, стать і сексуальність.

Подія

Intelligent Security Summit On-Demand

Дізнайтеся про важливу роль штучного інтелекту та машинного навчання в кібербезпеці та конкретних галузевих прикладах. Дивіться сеанси за запитом сьогодні.

Дивіться тут

Дані, як пояснив Кейз, можуть швидко стати деанонімними, якщо їх поставити в контекст з іншими даними про вас. Один набір даних, поєднаний з іншим з іншого джерела, може виявити багато, досить швидко, і іноді це може стати небезпечним.

«Все, що вам потрібно зробити, це з’єднати наявні набори даних», — сказав Кіз.

Державні установи, такі як Бюро перепису населення США, уважніше вивчають свої практики та обов’язки щодо конфіденційності даних. Очікуючи наперед перепис 2030 року, цього року Бюро відкрило період коментарів для таких експертів, як Кіз, щоб оцінити його зусилля з анонімізації даних і способи покращення раніше збирання даних наступного десятиліття.

Тестування наборів даних, щоб побачити, що працює, щоб знайти те, що ні

Кіз і його колега Абрахам (Ейбі) Флаксман, доцент кафедри показників здоров’я та глобального здоров’я в Університеті Вашингтона, вирішили перевірити головну гіпотезу для Бюро перепису населення: чи можна виявляти та ідентифікувати підлітків-трансгендерів за допомогою змодельованих наборів даних?

Невдала відповідь, як знайшли двоє, була так. Використовуючи підхід до анонімізації даних Бюро перепису населення з перепису 2010 року, Кіз і Флаксман змогли ідентифікувати 605 трансгендерних підлітків. Незважаючи на те, що це було симуляцією для спеціального тестування для цієї мети, воно показує, наскільки легко можна деанонімізувати інформацію, яка ідентифікує особу (PII), що у випадку підлітків-трансгендерів може поставити їх під загрозу злочинів на ґрунті ненависті або їхніх батьків під загрозу для дитини звинувачення в насильстві за звернення за медичною допомогою, що підтверджує стать, для своєї дитини — залежно від місця проживання.

«Ми взяли змодельовані дані, створені для імітації наборів даних, які оприлюднює Бюро перепису населення, і спробували повторно ідентифікувати транс-підлітків або принаймні звузити коло їхнього проживання, і, на жаль, нам це вдалося», — написали вони у статті для The Scientific American.

Незважаючи на тривогу, результати моделювання є причиною того, що Бюро перепису населення відкрило період для коментарів — щоб побачити, що може не працювати та де можна покращити, щоб цього насправді не сталося в майбутньому.

«Ми вважаємо обнадійливим те, що робота Оса та Ейбі допомагає перевірити наші занепокоєння та рішення щодо 2020 року та надалі», — сказав Даніель Кіфер, старший радник з формальної конфіденційності групи розробників системи запобігання розкриттю інформації Бюро перепису 2020 року. «Зокрема, конфіденційність стосується захисту того, чим ви відрізняєтесь від інших; уявлення про те, яка інформація є приватною, можуть змінюватися з часом; даними можна зловживати та атакувати різними способами, які важко передбачити».

Межі захисту конфіденційності

Кіфер зазначив, що, незважаючи на те, що це сталося з підходом Бюро перепису населення 2010 року до змодельованих даних, симуляція Кіза та Флаксмана все ще «може працювати не краще, ніж випадкове вгадування, коли зловмисник використовує продукти демонстраційних даних Бюро перепису населення, засновані на системі запобігання розкриттю Перепису 2020 року, але набагато успішніший проти застарілих методів, які агентство використовувало до випуску десятирічних продуктів у 2020 році».

Випуск продукту 2020 року був новим підходом до диференційованої конфіденційності, спеціально спрямованим на покращення захисту конфіденційності даних перепису.

Кіз і Флаксман підтвердили твердження Кіфера і сказали, що, коли вони використали новий підхід Бюро перепису населення до конфіденційності даних, він знизив рівень ідентифікації підлітків-трансгендерів на 70%. Усі троє підкреслили важливість того, щоб агентство продовжувало свою роботу та ставало ще кращим перед тим, як розпочати перепис 2030 року.

«Бюро перепису населення повернулося, щоб сказати, що неможливо мати 100% зменшення. Вони вважають, що завжди є якесь випадкове розкриття — і я думаю, що вони мають рацію щодо цього», — сказав Флаксман. «Тож ми сперечалися з Бюро, де ми намагалися з’ясувати, яка межа захисту конфіденційності, і чи вони її досягли? Я думаю, що наразі для мене цілком зрозуміло, що їхня машина здатна забезпечити таку оптимальну конфіденційність. Зараз вони на стадії прийняття остаточного рішення про те, де вони збираються встановити ручки на своїй машині, щоб покращити її до 2030 року».

Розробка кращої конфіденційності даних

Бюро перепису населення, яке було засноване в 1902 році, мабуть, не те, про що більшість думає, дивлячись на те, хто знаходиться на передовій інновацій у даних з машиною, яка здатна максимально оптимізувати конфіденційність, але агентство насправді має довгу історію робити саме це.

«Частиною цієї інновації є десятирічний перепис, який проводиться кожні 10 років, — сказав Кіфер VentureBeat. «Як найбільше федеральне статистичне агентство, Бюро перепису населення проводить інші дослідження, а також збирає статистичні дані від імені інших агентств. Необхідність і доступ до даних дали Бюро перепису населення величезну перевагу в інноваційному зборі, аналізі та розповсюдженні, а також у пошуку нових застосувань даних».

Значна частина інновацій Бюро щодо конфіденційності та збору даних, пояснив Кіфер, походить від дослідницьких спільнот, які працювали над тим, щоб перетворити конфіденційність на «математичну науку, яка сумісна з політикою та правилами».

Він пояснив, що продовження пошуку шляхів інновацій у зборі даних і конфіденційності важливо не лише для Бюро перепису населення, але й для всієї федеральної статистичної системи США.

«Для підтримки прийняття політичних рішень потрібні високоякісні дані», — сказав Кіфер. «Населення змінюється, важливі питання політики змінюються, і потреби в даних змінюються».

Коли потреба в даних змінюється, однією з цілей Бюро перепису населення є адаптація, оскільки доступ агентства до даних і останні дослідження стимулюють його інновації ще далі.

Те, як 120-річна державна установа може стати швидкою, проактивною та гнучкою, щоб адаптуватися до мінливих даних і потреб населення, багато говорить про дії в інших галузях, які можуть стверджувати, що конфіденційність є надто складною, щоб адаптуватися до неї, зазначили Кейз і Флаксман. .

«Це говорить нам про те, що в конфіденційності існує напруга, про яку ми начебто абстрактно знаємо», — сказав Кіз. «На цю напругу справді варто звернути увагу. Ця ідея, оскільки деякі люди, що займаються великими даними, кажуть, що «конфіденційність мертва» — насправді це не так. Те, що ми бачимо тут, є не лише доказом того, що ми не повинні просто відкидати конфіденційність, а й того, що існують методи продуманого, розумного захисту людей… Існують усі стереотипи про те, що уряд є проблемою, а не рішенням. Я вважаю, що приємно бачити приклад, коли, власне, перепис населення США — вони попереду в цьому».

Немає виправдань не надавати пріоритет конфіденційності даних

Кіз і Флаксман погодилися, що це дійсно підкреслює те, що приватні компанії не мають виправдання не надавати пріоритет конфіденційності даних або стверджувати, що вони не можуть бути ідеальними всупереч нормам, які змушують їх робити це.

Оскільки Бюро перепису населення зобов’язане розглядати конфіденційність як частину своїх функцій, воно знайшло спосіб зробити це, одночасно оптимізувавши конфіденційність, щоб отримувати на основі даних інформацію, що впливає на політику, без шкоди для інновацій, пояснив Кіз.

«Я вважаю, що це справді цікавий приклад, коли люди кажуть: «О, ви не можете регулювати приватну індустрію щодо конфіденційності, тому що це вижене інновації, і це не спрацює». Ну, ось ми маємо приклад того, що обидві ці речі є неправдивими», — сказав Кіз.

«Це не тільки спрацює, — сказав Кейз, — але Бюро перепису населення насправді відповідає за багато справді цікавих і складних механізмів захисту конфіденційності, а також відповіді на такі запитання, як: добре, як ми зв’язуємо записи між наборами даних це надійно, коли ми маємо захист конфіденційності?» Вони перебувають під жорстким регулюванням і все ще впроваджують інновації. Велика частина уроку полягає в тому, що немає суперечності між регулюванням і тим, щоб робити речі краще. Якщо що, то навпаки».

Місія VentureBeat має стати цифровою міською площею для тих, хто приймає технічні рішення, щоб отримати знання про трансформаційні корпоративні технології та транзакції. Відкрийте для себе наші брифінги.

Leave a Comment