Представьте, что группа ученых разработала модель машинного обучения, которая может предсказать наличие у пациента рака по изображениям сканирования легких. Они хотят поделиться этой моделью с больницами по всему миру, чтобы врачи могли начать использовать ее в диагностике.
но есть проблема. Чтобы научить свою модель предсказывать рак, они показали ей миллионы реальных изображений сканирования легких. Этот процесс называется обучением. Эти конфиденциальные данные, закодированные во внутренней работе модели, могут быть извлечены злоумышленником. Ученые могут предотвратить это, добавив в модель шум или более общую случайность, из-за чего противнику будет сложнее угадать исходные данные. Однако турбулентность снижает точность модели, поэтому чем меньше шума можно добавить, тем лучше.
Исследователи Массачусетского технологического института разработали технологию, которая позволяет пользователю добавлять как можно меньше шума, обеспечивая при этом защиту конфиденциальных данных.
Исследователи создали новую меру специфичности, которую они назвали наиболее вероятной правильной специфичностью (PAC), и построили на основе этой меры структуру, которая может автоматически определять минимальное количество шума, которое необходимо добавить. Более того, этой структуре не нужно знать внутреннюю работу модели или процесс ее обучения, что упрощает ее использование для различных типов моделей и приложений.
Во многих случаях исследователи показали, что количество шума, необходимого для защиты конфиденциальных данных от злоумышленников, намного ниже при специфичности PAC, чем при других подходах. Это может помочь инженерам создавать модели машинного обучения, которые явно маскируют обучающие данные, сохраняя при этом точность в реальных условиях.
«Конфиденциальность PAC осмысленно использует неопределенность или энтропию конфиденциальных данных, и это позволяет нам во многих случаях добавлять меньше шума. Эта структура позволяет нам понять характеристики произвольной обработки данных и автоматически приватизировать их без искусственных изменений. «Хотя мы находимся в самом начале пути, мы в восторге от перспектив этой технологии», — говорит Срини Девадас, профессор электротехники Эдвина Сибли Вебстера и соавтор новой статьи о специфике PAC.
Девадас написал статью вместе с ведущим автором Хансин Сяо, аспирантом в области электротехники и информатики. Исследование будет представлено на Международной криптоконференции (Crypto 2023).
Определение конфиденциальности
Ключевой вопрос конфиденциальности данных: сколько конфиденциальных данных может получить злоумышленник из модели машинного обучения с добавлением к ней шума?
Дифференциальная конфиденциальность, одно из распространенных определений конфиденциальности, гласит, что конфиденциальность достигается, если противник, наблюдающий за испускаемой моделью, не может сделать вывод, используются ли данные произвольного человека в процессе обучения. Но для того, чтобы злоумышленник не смог различить использование данных, часто требуется большое количество шума для его маскировки. Этот шум снижает точность модели.
Конфиденциальность PAC смотрит на проблему немного по-другому. Он описывает, насколько сложно восстановить любую часть случайно выбранных или сгенерированных конфиденциальных данных после добавления шума, вместо того, чтобы сосредоточиться исключительно на проблеме различимости.
Например, если конфиденциальными данными являются изображения человеческих лиц, дифференциальная специфичность будет сосредоточена на том, может ли злоумышленник определить, есть ли чье-то лицо в наборе данных. Специфика PAC, с другой стороны, может учитывать, может ли оппонент извлечь силуэт — приближение — которое кто-то может идентифицировать как лицо конкретного человека.
Как только определение специфичности PAC было определено, исследователи создали алгоритм, который автоматически сообщал пользователю, сколько шума нужно добавить в модель, чтобы противник не смог уверенно реконструировать близкое приближение к конфиденциальным данным. Сяо говорит, что этот алгоритм гарантирует конфиденциальность, даже если у противника бесконечная вычислительная мощность.
Чтобы найти оптимальное количество шума, алгоритм специфичности PAC опирается на неопределенность или энтропию исходных данных с точки зрения оппонента.
Эта автоматизированная технология случайным образом отбирает образцы из распределения данных или большого пула данных и запускает алгоритм машинного обучения, обучающий пользователя этим подданным для создания обученной модели. Он делает это несколько раз в разных подвыборках и сравнивает дисперсию по всем результатам. Эта дисперсия определяет, сколько шума нужно добавить — меньшая дисперсия означает, что требуется меньше шума.
Преимущества алгоритма
В отличие от других подходов к конфиденциальности, алгоритму конфиденциальности PAC не нужно знать внутренние процедуры модели или процесс обучения.
При реализации PAC конфиденциальности пользователь может изначально указать требуемый уровень доверия. Например, пользователю может потребоваться уверенность в том, что оппонент будет уверен не более чем на 1 процент в том, что он успешно восстановил конфиденциальные данные с точностью до 5 процентов от их фактического значения. Алгоритм конфиденциальности PAC автоматически сообщает пользователю оптимальное количество шума для добавления к выходному образцу, прежде чем он будет опубликован для всех, для достижения этих целей.
«Шум оптимален в том смысле, что если вы добавите меньше, чем мы вам сказали, все ставки могут быть сняты. Но эффект добавления шума к параметрам нейронной сети сложен, и мы не даем никаких обещаний по поводу уменьшения возможностей. что модель может столкнуться с дополнительным шумом», — говорит Сяо.
Это указывает на одно из ограничений специфичности PAC — технология не сообщает пользователю, насколько точность модели потеряет при добавлении шума. Специфика PAC также включает в себя итеративное обучение модели машинного обучения на многих подвыборках данных, поэтому это может быть дорогостоящим в вычислительном отношении.
Чтобы повысить специфичность PAC, один из подходов состоит в том, чтобы изменить процесс обучения пользователей машинному обучению, чтобы он был более стабильным, а это означает, что создаваемая им выходная модель не сильно меняется, когда входные данные компилируются из набора данных. Эта стабилизация создаст меньшую дисперсию между выходными данными подвыборок, поэтому алгоритм PAC-специфичности не только нужно будет запускать меньше раз для определения оптимального уровня шума, но также потребуется добавить меньше шума.
Дополнительным преимуществом моделей Stabler, добавляет Девадас, является то, что они часто имеют меньшую ошибку обобщения, что означает, что они могут делать более точные прогнозы на ранее невиданных данных, что является беспроигрышной ситуацией между машинным обучением и специфичностью.
«В ближайшие несколько лет мы хотели бы немного глубже изучить взаимосвязь между стабильностью и приватностью, а также взаимосвязь между приватностью и ошибкой обобщения. Здесь мы стучим в дверь, но пока не ясно, где дверь. ведет», — говорит он.
Это исследование частично финансируется DSTA Singapore, Cisco Systems, Capital One и MathWorks Fellowship.
«Чрезвычайный решатель проблем. Ниндзя для путешествий. Типичный веб-наркоман. Проводник. Писатель. Читатель. Неизлечимый организатор».
More Stories
«Укун» поднимает цены на оборудованные играми отели в Китае
Юным футболистам необходимы более длительные периоды отдыха, чтобы предотвратить травмы и обеспечить оптимальное восстановление.
GPS-компьютер Trimm One Light на солнечной энергии