Основні моделі можуть допомогти нам досягти «ідеальної секретності»

Ознайомтеся з усіма сесіями на замовлення саміту Intelligent Security Summit тут.


Цифрові помічники майбутнього обіцяють полегшити повсякденне життя. Ми зможемо попросити їх виконати такі завдання, як-от бронювання житла для ділових поїздок за містом на основі вмісту електронного листа або відповісти на відкриті запитання, які потребують поєднання особистого контексту та загальнодоступних знань. (Наприклад: «Чи є мій артеріальний тиск у межах норми для людини мого віку?»)

Але перш ніж ми зможемо досягти нових рівнів ефективності на роботі та вдома, потрібно відповісти на одне велике запитання: як ми можемо надати користувачам сильні та прозорі гарантії конфіденційності основної особистої інформації, яку використовують моделі машинного навчання (ML), щоб отримати ці відповіді?

Якщо ми очікуємо, що цифрові помічники полегшуватимуть особисті завдання, пов’язані з поєднанням загальнодоступних і приватних даних, нам знадобиться технологія, яка забезпечить «ідеальну секретність» або найвищий можливий рівень конфіденційності в певних ситуаціях. Досі попередні методи або ігнорували питання конфіденційності, або надавали менші гарантії конфіденційності.

Третій курс Стенфордського університету з інформатики Ph.D. Студентка Сімран Арора разом із доцентом Крістофером Ре в якості консультанта вивчає взаємодію машинного навчання та конфіденційності. Нещодавно вони вирішили дослідити, чи є у нових базових моделях — великих моделях машинного навчання, навчених на величезних обсягах загальнодоступних даних — відповідь на це актуальне питання конфіденційності. Отриманий документ був опублікований у травні 2022 року на службі підготовки до друку ArXiv із запропонованою структурою та доказом концепції використання машинного навчання в контексті особистих завдань.

Подія

Intelligent Security Summit On-Demand

Дізнайтеся про важливу роль штучного інтелекту та машинного навчання в кібербезпеці та конкретних галузевих прикладах. Дивіться сеанси за запитом сьогодні.

Дивіться тут

Визначено досконалу секретність

За словами Арори, ідеальна гарантія секретності задовольняє дві умови. По-перше, коли користувачі взаємодіють із системою, ймовірність того, що зловмисники дізнаються конфіденційну інформацію, не зростає. По-друге, оскільки кілька особистих завдань виконуються з використанням одних і тих самих особистих даних, ймовірність випадкового надання даних не збільшується.

Маючи на увазі це визначення, вона визначила три критерії для оцінки системи конфіденційності щодо мети повної секретності:

  1. Конфіденційність: наскільки добре система запобігає витоку особистих даних?
  2. Якість: як модель виконує поставлене завдання, коли гарантується повна секретність?
  3. Здійсненність: Чи реалістичний підхід з точки зору часу та витрат, понесених для запуску моделі?

Сьогодні в найсучасніших системах конфіденційності використовується підхід під назвою федеративне навчання, який полегшує колективне навчання моделі між кількома сторонами, запобігаючи обміну необробленими даними. У цьому методі модель надсилається кожному користувачеві, а потім повертається на центральний сервер із оновленнями цього користувача. Теоретично вихідні дані ніколи не розкриваються учасникам. Але, на жаль, інші дослідники виявили, що дані можна відновити з відкритої моделі.

Популярна технологія, яка використовується для покращення гарантії конфіденційності федеративного навчання, називається диференціальною конфіденційністю, яка є статистичним підходом до захисту конфіденційної інформації. Ця технологія вимагає від розробника встановити параметри конфіденційності, які регулюють компроміс між продуктивністю моделі та конфіденційністю інформації. Практикам важко встановити ці параметри на практиці, а компроміс між конфіденційністю та якістю не стандартизований законом. Хоча ймовірність порушення може бути дуже низькою, ідеальна секретність не гарантується підходом федеративного навчання.

«Наразі галузь зосередилася на статистичному обґрунтуванні», — пояснив Арора. «Іншими словами, наскільки ймовірно, що хтось дізнається мою особисту інформацію? Диференційований підхід конфіденційності, який використовується у федеративному навчанні, вимагає від організацій оцінювати корисність і конфіденційність. Це не ідеально».

Новий підхід до базових моделей

Коли Арора побачила, наскільки добре основні моделі, такі як GPT-3, виконують нові завдання за допомогою простих команд, часто без додаткового навчання, вона задумалася, чи можна застосувати ці можливості для особистих завдань, забезпечуючи при цьому більшу конфіденційність, ніж статус-кво.

«З цими великими мовними моделями ви можете сказати «Скажи мені почуття цього огляду» природною мовою, і модель виведе відповідь — позитивну, негативну або нейтральну», — сказала вона. «Тоді ми можемо використовувати ту саму модель без будь-яких оновлень, щоб поставити нове запитання з особистим контекстом, наприклад «Скажіть мені тему цього електронного листа». »

Арора та Ре почали досліджувати можливість використання готових моделей загальнодоступних фондів у приватному користувальницькому відділенні для виконання особистих завдань. Вони розробили просту структуру під назвою Foundation Model Controls for User Secrecy (FOCUS), яка пропонує використовувати односпрямовану архітектуру потоку даних для виконання особистих завдань із збереженням конфіденційності.

Односторонній аспект фреймворку є ключовим, оскільки це означає, що в сценарії з різними сферами конфіденційності (тобто, поєднання загальнодоступних і приватних даних), набір даних загальнодоступної базової моделі запитується перед приватним набором даних користувача, таким чином запобігаючи витоку назад на публічну арену.

Перевірка теорії

Арора та Ре оцінили фреймворк FOCUS за критеріями конфіденційності, якості та здійсненності. Результати були обнадійливими для підтвердження концепції. FOCUS не тільки забезпечує конфіденційність особистих даних, але й приховує фактичне завдання, яке попросили виконати модель, а також те, як це завдання було виконано. Найкраще те, що цей підхід не вимагатиме від організацій встановлення параметрів конфіденційності, які роблять компроміс між корисністю та конфіденційністю.

Що стосується якості, підхід базової моделі конкурував із федеративним навчанням за шістьма із семи стандартних тестів. Однак він справді був недостатнім у двох конкретних сценаріях: коли моделі було запропоновано виконати завдання поза доменом (щось, що не включено в процес навчання), і коли завдання запускалося з невеликими базовими моделями.

Нарешті, вони розглянули здійсненність своєї структури порівняно з підходом до федеративного навчання. FOCUS усуває численні раунди спілкування між користувачами, які виникають при федеративному навчанні, і дозволяє попередньо навченій базовій моделі виконувати роботу швидше через висновок, що робить процес більш ефективним.

Ризики фундаментальної моделі

Арора зазначає, що необхідно вирішити кілька проблем, перш ніж базові моделі можна буде широко використовувати для особистих завдань. Наприклад, зниження продуктивності FOCUS, коли модель просять виконати завдання поза доменом, викликає занепокоєння, як і повільний час виконання процесу висновку з великими моделями. На даний момент Arora рекомендує, щоб співтовариство конфіденційності все частіше розглядало базові моделі як базову лінію та інструмент при розробці нових контрольних показників конфіденційності та мотивації потреби у федеративному навчанні. Зрештою, відповідний підхід до конфіденційності залежить від контексту користувача.

Основні моделі також привносять власні ризики. Вони дорогі для попередньої підготовки, і вони можуть галюцинувати або неправильно класифікувати інформацію, коли вони невпевнені. Існує також занепокоєння справедливості в тому, що наразі базові моделі доступні переважно для ресурсно багатих мов, тому загальнодоступна модель може не існувати для всіх персональних налаштувань.

Попередні витоки даних є ще одним ускладнюючим фактором. «Якщо основні моделі навчаються на веб-даних, які вже містять витік конфіденційної інформації, це викликає абсолютно нові проблеми щодо конфіденційності», — визнає Арора.

Заглядаючи в майбутнє, вона та її колеги з дослідницької лабораторії Hazy у Стенфорді досліджують методи створення більш надійних систем і забезпечення поведінки в контексті за допомогою менших базових моделей, які краще підходять для особистих завдань на малоресурсних пристроях користувачів.

Arora може передбачити сценарій, не надто далекий, за яким ви попросите цифрового помічника забронювати рейс на основі електронного листа, у якому згадується про планування зустрічі з клієнтом, який не знаходиться в місті. І модель координуватиме логістику подорожі, не розкриваючи жодних подробиць про особу чи компанію, з якою ви збираєтеся зустрітися.

«Поки ще рано, але я сподіваюся, що фреймворк FOCUS і підтвердження концепції спонукають до подальшого вивчення застосування моделей громадських фондів до приватних завдань», — сказав Арора.

Ніккі Гот Ітоі є співавтором Стенфордського інституту людського штучного інтелекту.

Ця історія спочатку з’явилася на Hai.stanford.edu. Авторське право 2022

DataDecisionMakers

Ласкаво просимо до спільноти VentureBeat!

DataDecisionMakers — це місце, де експерти, включно з технічними спеціалістами, які працюють з даними, можуть ділитися інформацією та інноваціями, пов’язаними з даними.

Якщо ви хочете прочитати про передові ідеї та актуальну інформацію, найкращі практики та майбутнє даних і технологій обробки даних, приєднуйтесь до нас у DataDecisionMakers.

Ви навіть можете подумати про те, щоб написати власну статтю!

Докладніше від DataDecisionMakers

Leave a Comment