Исследователи Mozilla и института искусственного интеллекта AI Now провели исторический анализ более 100 датасетов, которые были собраны для обучения систем распознавания лиц за 43 года развития технологии. Журнал MIT Technology Review назвал работу крупнейшим исследованием данных, используемых в распознавании лиц, которое наглядно показывает, какую роль глубокое обучение сыграло в потере приватности интернет-пользователями. DEV.BY опубликовал перевод статьи Mashable с выводами из исследования.
1. Эффективность распознавания лиц в «лабораторных» условиях и в реальной жизни сильно различается
Одной из целей исследователей было понять, почему в системах, распознающих лица почти с безупречной точностью на тестовых заданиях, появляется столько «косяков», когда их внедряют на практике.
К примеру, Транспортное управление Нью-Йорка несколько лет назад приостановило развёртывание пилотного проекта по распознаванию лиц, потому что система ошибалась в 100% случаев. Кроме того, уже доказано, что технология хуже идентифицирует темнокожих людей. Недавно из-за такой ошибки арестовали трёх невинных афроамериканцев.
2. Бум в развитии технологии произошёл благодаря американскому Минобороны
Разработка распознавания лиц начиналась в научных кругах и получила большой толчок в 1996 году, когда Министерство обороны и Национальный институт стандартов и технологий США выделили $6,5 млн на сбор крупнейшего на этот момент датасета. Технология интересовала правительство, поскольку в отличие от дактилоскопии не требовала активного участия граждан и могла пригодиться для слежки за населением.
3. На ранних этапах для наполнения датасетов проводились специальные фотосессии. Этим обусловлены большие недостатки систем распознавания
До середины «нулевых» исследователи собирали базы лиц, поводя портретные фотосессии с приглашёнными людьми. Поскольку именно они легли в основу некоторых ключевых современных технологий распознавания лиц, последние унаследовали кое-какие их недостатки. В частности, состав участников фотосъёмок был довольно однородным, а искусственная обстановка в точности не отражала реальные условия внешнего мира.
4. Когда фотосессий стало мало, исследователи просто пошли в Google и перестали спрашивать разрешение у людей
В 2007 году появился датасет под названием Labeled Faces in the Wild — в него вошли изображения из Google, Flickr, YouTube и прочих хранилищ картинок в интернете, в том числе фото детей. Это с одной стороны расширяло многообразие фотографий, но с другой нарушало право на неприкосновенность частной жизни людей, которые были на них запечатлены.
Датасеты стали более репрезентативными и реалистичными, но плата за них — неконтролируемость сбора, поскольку стало невозможно получать разрешение авторов на использование фотографий, вести демографическую классификацию людей на них, поддерживать качество датасетов и стандартизировать разрешение фотографий из сети, отметили исследователи.
5. Facebook спровоцировала следующий бум…
Переломным моментом для технологии стал анонс датасета DeepFace компанией Facebook в 2014 году. Она показала, что с помощью базы миллионов фотографий можно создавать нейросети, которые намного превосходили существовавшие тогда системы на задачах распознавания лиц, а метод под названием «глубокое обучение» стал краеугольным камнем технологии.
6. …наплевав на приватность пользователей
Facebook брала фотографии для распознавания лиц из пользовательских профилей, не спрашивая их согласия и нарушая их приватность. За это компания была оштрафована Федеральной торговой комиссией США и выплатила компенсацию по групповому иску в штате Иллинойс.
Датасет DeepFace лёг в основу функции, которая угадывала и предлагала пользователям отмечать людей на сделанных ими фотографиях. Пользователи помогали улучшить систему, подтверждая или отклоняя метки. Причём функция была включена по умолчанию и её нужно было отключать вручную.
7. Технология распознавания лиц обучалась на лицах 17,7 млн людей. И это — только публичные датасеты
На самом деле неизвестно, сколько не подозревающих об этом людей и кто именно стали «донорами» фотографий для разработчиков технологий распознавания лиц.
8. Автоматизация в распознавании лиц привела к появлению обидных тегов и неадекватному представлению людей
Системы распознавания лиц умеют больше, чем просто идентифицировать лица и личность людей — например, давать им оскорбительные теги при разметке.
Как отмечают исследователи, потенциально обидные и некорректные метки могут указывать на комплекцию людей («полные щёки», «двойной подбородок») или расовые особенности («бледная кожа», «острый нос», «узкие глаза» для выходцев из Азии или «большой нос», «большие губы» для темнокожих людей). Встречаются такие метки, как «мешки под глазами», «лёгкая щетина» и достаточно субъективные лейблы вроде «привлекательный».
Основу обучающих датасетов составляют лица «западного» образца. Но несовершенны оказались и наборы, созданные специально, чтобы сделать классификацию людей более разнообразной. К примеру, целью одной из таких систем было обучение алгоритмов распознавания лиц, свободных от смещений и дискриминации. Однако она классифицировала этническую принадлежность людей только по трём группам.
А иногда дискриминация в AI-системах приводит к дискриминации в реальном мире.
9. Сферы применения распознавания лиц варьируются от видеонаблюдения до таргетинга рекламы
Изначально технологию поддерживали правительства, поскольку она могла служить для охраны правопорядка и расследования преступлений. Amazon, например, предоставляет полиции свою платформу машинного зрения Rekognition, причём сколько полицейских управлений пользуется ею, компания не раскрывает.
Помимо этого, на основе распознавания лиц разрабатываются системы для анализа настроения покупателей, а также отслеживания и лучшего понимания потенциальных клиентов.
[customscript]techrocks_custom_after_post_html[/customscript]
[customscript]techrocks_custom_script[/customscript]