Я узнаю тебя из тысячи

Моя коллега как-то раз вернулась с мероприятия, организованного компанией Яндекс. Буквально тут же ей на электронную почту скинули ссылку на диск, где хранятся все снимки со встречи. Причём, именно те фото, где есть она, включая даже отдалённые кадры, на которых найти себя почти невозможно. Вот только для нейросетис её системой распознавания лиц нет ничего невозможного!

«Распознавание лиц – это технология, которая позволяет автоматически идентифицировать (распознать, кто это) или верифицировать (подтвердить, что именно эта личность) человека на фото, видео или вживую, –поясняет Татьяна Гайнцева, преподаватель Московского физико-технического института, автор блога об искусственном интеллекте и нейронных сетях. – Для распознавания используют нейросети, которые умеют считывать и анализировать уникальные черты человеческого лица, а затем сверять их с базой».

Немного истории

Первые эксперименты в области машинного распознавания лиц представил в 1960-х годах исследователь искусственного интеллекта Вудро Вильсон (Вуди)Бледсо– профессор Техасского университета в Остине. Его группа собрала базу из 800 снимков людей в разных ракурсах. На первом этапе посредством специального алгоритма их система разворачивала лица под разными углами, увеличивала и уменьшала масштаб; на втором – алгоритм использовал уже 22 измерения. В итоге их система справлялась в 100 раз быстрее, чем человек.

В 1988 году австралийский учёный Майкл Кирби и признанный пионером современного распознавания лиц американский учёный Лоуренс Сировичприменили подход с использованием линейной алгебры для анализа изображений. Для разметки лиц они применяли около 100 различных значений. В 1991 году другие американские разработчики Алекс Пентланд и Мэтью Терк усовершенствовали технологию, задействовав факторы окружающей среды. И им удалось автоматизировать процесс распознавания.

В Москве действует одна из крупнейших в мире сетей с распознаванием лиц: более 200 тысяч камер общей стоимостью около 5 млрд рублей.

В конце 1990-х годов Управление перспективных исследовательских проектов при Минобороны США и Национальный институт стандартов и технологий выпустили программу FERET с самой обширной базой лиц – более 14 тыс. изображений. Изначально её использовали, чтобы находить и распознавать преступников по всему миру, но затем представили для открытого доступа.

С 2010 года социальная сеть Facebook начала использовать функцию распознавания лиц, чтобы находить пользователей на публикуемых фото и предлагать их отметить. В 2011 году власти Панамы и США запустили совместный проект FaceFirst. Это технология распознавания лиц, которую использовали для пресечения незаконной деятельности в аэропорту Токумен в Панаме. В том же году полиция и спецслужбы США начали применять распознавание лиц для опознания трупов.

С 2014 года распознавание лиц используют в камерах мобильных телефонов, а с 2017 года – вторговле.

Как это работает

Распознавание лиц происходит на основе технологии «две нейросети»:

Первая – это сеть-выравниватель. Она берёт картинку, которая поступает с камеры наблюдения, детектирует на ней все найденные лица, «вырезает» и «выравнивает» их.

Вот как это выглядит:

Программа вырезает обнаруженные лица. Те, что плотно расположены друг к другу, повёрнуты в профиль или просто очень маленькие и нечёткие, система может не распознать.

Затем она их выравнивает: детектирует на лице точки глаз, носа и рта.

Наконец, поворачивает и подгоняет размер фото так, чтобы точки глаз, носа и рта находились в определённых местах.

Некоторые алгоритмы используют больше семи точек, то есть обводят контуры лица. Это может понадобиться, к примеру, для создания дипфейков–видео, сгенерированного с помощью искусственного интеллекта. Если кратко, то нейросеть по пикселям собирает ролик на основе готовых изображений. Например, изучает тысячи фотографий футболиста Дэвида Бекхэма и выпускает видео, на котором спортсмен призывает людей бороться с малярией. При этом сам Дэвид как бы не участвует, используются только его фотографии.

Вторая – это сеть-распознаватель. Она принимает на входе выровненное изображение, которое передала первая нейросеть, а на выходе выдаёт вектор лица, то есть набор чисел фиксированной длины. У разных сетей эти векторы могут отличаться, но чаще всего это некая степень двойки. Например, 512

На похожие лица сеть выдаёт похожие векторы и наоборот.Возьмём, например, фотографии голливудских актёров: один снимок Анджелины Джоли и два изображения Брэда Питта и прогоним их через нейросеть. На выходе получим три вектора. Измерим расстояние между вектором Анджелины Джоли и вектором первого Брэда Питта, а также между векторами двух Брэдов Питтов. В первом случае расстояние будет большим – это разные люди, а во втором – маленьким: это один человек.

Чтобы обучить нейросети, используют огромные базы данных с лицами людей. Нейросети на входе сообщают, кому принадлежит это лицо, а затем, в ходе обучения, добиваются, чтобы она выдавала максимально точные результаты. Обучившись на миллионах разных людей, нейросеть начинает распознавать и новые лица – те, которых не было в базе.

Технология Face ID в смартфонах,которая использует распознавание лиц для разблокировки устройства и подтверждения платежей, устроена немного иначе. Алгоритм распознаёт вас не по фото, а с помощью инфракрасных точек, которые проецируются на ваше лицо через камеру. После этого создаётся трёхмерная модель и сравнивается с той, что вы уже внесли ранее.

Области применения

Безопасность

Криминалисты, полиция и спецслужбы используют автоматизированные системы биометрической идентификации для поиска преступников, доказательства преступлений и их предотвращения: например, терактов или мошенничества с документами.

Камеры с распознаванием лиц применяют для обеспечения безопасности на массовых мероприятиях, для прохождения контроля в аэропортах, контроля доступа в различных организациях. Системы помогают находить пропавших детей, дезориентированных взрослых или людей, которых держат в рабстве.

Здравоохранение и медицина

Распознавание лиц в больницах и домах престарелых помогает отслеживать, принимают ли пациенты лекарства и следить за их состоянием через специальный монитор. Нейросети даже по характерным признакам на лице умеют обнаруживать генетические заболевания, например, синдром Ди Джорджи, а также оценивать общее состояние пациента.

Торговля, общепит и банки

Технология распознавания лиц помогает идентифицировать клиента и предотвращать мошенничество во время покупки в магазине, анализировать поведение покупателей и оптимизировать сервис так, чтобы продавать больше.

С помощью онлайн-биометрии можно открыть счёт и получить кредит, а также снять деньги в банкомате. В России биометрию планируют внедрить во всех крупнейших банках вместо обычной идентификации.

Образование и удалённая работа

Ещё одно перспективное направление – распознавание эмоций. Например, чтобы улучшить взаимодействие с клиентами и сотрудниками, работая онлайн, или анализировать, как пользователи реагируют на контент. Сервисы на базе распознавания лиц помогают во время онлайн-обучения: следят, чтобы ученик не отвлекался на экзамене, не списывал и не пользовался устными подсказками.

Отечественные реалии

В России есть пять крупных компаний на рынке распознавания лиц: NTechLab, VisionLabs, SensemakingLab, Группа ЦРТ.

NTechLab– разработчик нашумевшего приложения FindFace, которое использовали для поиска людей во «ВКонтакте» по фото. Сервис неоднократно оказывался в центре скандалов с нарушением приватности. Максимальная точность их алгоритмов для распознавания лиц – 99%. Компания также выступила подрядчиком для внедрения системы камер с распознаванием лиц в Москве, которую, кстати, признали одной из самых развитых в мире.

Второй представитель в этой области –VisionLabs. Они также разрабатывали системы для московских камер и участвовали в других городских проектах. С недавних пор VisionLab стала частью экосистемы «Сбера», и теперь их разработки применяют, в том числе, для внедрения биометрии в банковских сервисах.

Группа ЦРТ в 2014 году первой внедрила систему распознавания лиц в спорте. Её решения используются на стадионах «Газпром-Арена», «ВТБ-Арена» и других.

В Москве действует одна из крупнейших в мире сетей с распознаванием лиц: более 200 тысяч камер общей стоимостью около 5 млрд рублей. Российскую технологию NTechLab признали лучшей в результате тестирования Национального института стандартов и технологий США. NTechLab вели совместные разработки с GenetecInc.– поставщиком систем видеонаблюдения для американского правительства и спецслужб.

Эту систему начали разрабатывать ещё в 2015 году, а пилотный проект запустили в 2017: тогда это были 1,5 тыс. камер во дворах и подъездах. В 2018 году систему расширили, протестировав на чемпионате мира по футболу. Далее систему видеонаблюдения использовали во время пандемии в 2020 году. С её помощью выявлялинарушителей карантина и самоизоляции.

В феврале 2021 года появилась информация о том, что с помощью камер отслеживали участников митингов в Москве и привлекали их к ответственности. Полицейские останавливали людей на входе в метро или приходили к ним домой.

Правозащитники указывают на опасность технологии для обычных граждан. Например, юрист Алёна Попова неоднократно подавала иски к управлению МВД Москвы и московскому Департаменту информационных технологий с требованием запретить систему распознавания лиц.Безопасность безопасностью, но вторжение в частную жизнь никто не отменял.

Подготовил Марк Покровский