Удалённая идентификация по видеосвязи — привычный для бизнеса сценарий: клиент подключается к оператору, подтверждает личность и получает доступ к операциям. НоУдалённая идентификация по видеосвязи — привычный для бизнеса сценарий: клиент подключается к оператору, подтверждает личность и получает доступ к операциям. Но

RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков

Удалённая идентификация по видеосвязи — привычный для бизнеса сценарий: клиент подключается к оператору, подтверждает личность и получает доступ к операциям.

Но современные дипфейки уже достаточно убедительны и «проверка на глаз» перестаёт работать: оператору становится сложнее принять решение. А пользователю — пройти проверку, например, его попросят помахать рукой перед лицом, чтобы ошибки в real-time подмене стали заметны.

Чтобы снизить риск мошенничества и убрать лишнюю нагрузку с участников процесса, мы обучили детектор, который в реальном времени подсказывает оператору: «перед вами, вероятно, дипфейк». Для обучения такой модели нужен набор данных с примерами реальных и сгенерированных видео, максимально близких к условиям ВКС.

3d1e0b70e6f5a9ac512222d359b8a010.png

Мы собрали собственный датасет и использовали его для обучения детектора, ориентированного на работу в сценариях видеосвязи. В статье расскажем, откуда брали материалы, как организовали сбор и тегирование, как генерировали фейки и почему важно заранее продумывать систему тегов. Датасет открыт для сообщества, ссылки оставили в конце статьи.

Как мы собирали данные

Чтобы сгенерировать дипфейк, нужны две составляющие: видео-таргет (куда «вклеивается» лицо) и источник — фото с лицом, которое будет подставлено. Данные собирали наши асессоры.

Видео

  • Сценарий: аналогичный видеоконференцсвязи — в кадре один человек, фронтально к камере; без смен сцен; без объектов между камерой и головой; тестовые плашки и логотипы допускаются только если они не закрывают человека.

  • Качество и длительность: разрешение не ниже 720p; фрагменты длиной 10–30 секунд (из одного ролика допускалось брать несколько, если в них разные люди).

  • Повороты головы: вправо/влево в пределах ~±30°, вверх/вниз ~±20°; голова целиком в кадре на всём протяжении фрагмента.

  • Лицензия: обязательно Creative Commons Attribution; на YouTube в поиске есть удобный фильтр «Особенности → Creative Commons».

Для качественной генерации нам было важно, чтобы голова человека была постоянно в кадре и без существенных поворотов, иначе качество дипфейка его легко выдаст. Но, как оказалось, не так-то просто найти подходящие видео — люди не сидят неподвижно, они постоянно двигаются и меняют положение.

Отзывы наших асессоров:

9aa386686f99b5bae2a6afb9576fc196.jpg6077f670ac5ea6f7b5ee2ff05098a62e.jpg

Асессоры выбрали 2500 видео. Часть из них мы отсекли из-за несоответствия требованиям или подозрений, что видео может кого-то оскорбить. Еще 24% не удалось скачать из-за ошибок на этапе автоматической выгрузки.

В результате у нас получилось 1636 релевантных видео.

Фото

  • Сценарий: цветное фото одного человека, лицом к камере; взгляд в камеру или с небольшим отклонением. В кадре — только этот человек, нет посторонних объектов между камерой и головой.

  • Требования к изображению: лицо занимает не менее 30% кадра; отсутствуют аксессуары, закрывающие лицо (например, очки); желательно минимальное количество постобработки.

  • Лицензия: Creative Commons с возможностью использования и модификации. Для поиска использовали Flickr (фильтр «Commercial use & mods allowed») и Pexels, где подходящая лицензия установлена по умолчанию.

Всего асессоры собрали 2000 фото.

Теги – фундамент управляемости датасета

Теги назначались и для видео, и для фото – это критично для генерации дипфейков (женское лицо на мужском теле легко определить как дипфейк), и важно для конечной цели дообучения модели определения дипфейков на этом датасете.

  • Теги для видео (всегда): пол (man/woman), освещение (dark/average/bright), локация (indoor/outdoor).
    Теги при наличии: hat/headphones/glasses, beard/mustache/piercing, gesticulation (активная жестикуляция), head rotation, child, chair/armchair/sofa.

  • Теги для фото (всегда): пол, освещение, локация.
    Теги при наличии: hat/headphones, beard/mustache/piercing, child.

Мы продумали чёткую и понятную систему тегирования. Как нам казалось :) На практике задача быстро превратилась в исследование границ восприятия: интерпретация тегов очень субъективна и спорные случаи приходилось постоянно согласовывать. Ниже — несколько характерных примеров.

  • Пол: когда контекст мешает определённости
    Пример:
    Человек в женской одежде, но с мужским голосом или мужскими чертами лица — какой тег? По визуальным признакам или по предполагаемому физиологическому полу?
    Решение: Используем визуальные признаки как основу, но фантазийные образы не используем в датасете (для сценария идентификации по видеосвязи они и не подходят). Если для асессора нет явной определённости по полу, то не используем фото/видео.

  • Освещение: градации между dark/average/bright
    Примеры:
    Человек в интерьере помещения с окнами, но в пасмурный день. Это dark или average? Объект на улицах ночного города с яркой подсветкой — dark (по времени) или bright (по уровню света)?

    Решение: Уровень освещения договорились определять по видимости деталей лица и окружающих объектов, а не по окружению.
    Сделали коллекцию примеров‑эталонов.

  • Аксессуары: функция или форма?
    Примеры:
    Наушники на шее — это headphones или уже нет? Большой ободок на голове — это headphones? Чёлка — это hat?
    Решение: Тег hat и headphones применяем только если аксессуары непосредственно на голове человека, закрывают часть лица (чёлка), или изменяют форму головы (наушники, ободок и тд).

  • Особенности лица: минимальные пороги

    Примеры: Редкая щетина — это beard? Колечко в брови, но не в носу — считать ли piercing?
    Решение: Установили пороги видимости: например, beard — если волосы покрывают более 50% подбородка; piercing — если украшение явно видно в области лица.

  • Child: возраст и контекст
    Пример:
    Подросток 12 лет — child или adult?
    Решение: child — человек младше 12 лет, визуально узнаваемый как ребёнок.

Дополнительные плюсы комьюнити YouTube от нашей работы:

24d36ea0321e455ee1b03566c3600bdf.jpg

Как мы генерировали дипфейки

Модели для генерации дипфейков. Наша задача — распознавать ситуации, когда человек во время онлайн видеосвязи пытается выдавать себя за другого. Поэтому и для генерации нам нужны были генераторы, способные работать в реальном времени.

Также есть важная особенность: каждая модель генерации оставляет свои характерные артефакты, которые могут быть незаметны человеку. Но детектор, обученный на одном типе фейков, обычно лучше ловит именно их и заметно хуже — фейки, созданные моделями, чьих примеров работ он не видел. Поэтому мы сначала составили список из четырех кандидатов (inswapper, uniface, mobilefaceswap, simswap) которые могут генерировать дипфейки «на лету» и из них выбрали две модели для генерации датасета.

Комбинирование. Для каждого видео случайно выбиралась подходящая по полу фотография. Ещё нам пришлось для целевых видео мужчин с бородой ограничить источники только с бородой, потому что борода часто «пробивается» через генерацию.

Описание датасета

В датасете три ключевых части: исходные видео, исходные фотографии и набор сгенерированных дипфейк-роликов, метаданные к ним лежат в CSV-файлах.

Исходные видео. После отбора и очистки в датасет вошли 1636 коротких клипов из YouTube-роликов. Метаданные в файле full_csv_videos.csv: одна строка — один клип. В нём хранятся:

  • идентификатор видео на YouTube,

  • время начала и конца клипа в секундах,

  • имя файла,

  • размер видео,

  • строка с тегами, разделёнными точкой с запятой,

  • ссылка на оригинал на YouTube (для соблюдения лицензии).

Теги описывают то, как выглядит сцена и человек в кадре: освещение (average, dark, bright), место съёмки (в помещении или на улице), есть ли активные повороты головы или жестикуляция, присутствуют ли наушники или головные уборы, а также какой тип кресла виден в кадре.

Исходные фотографии. В фотоколлекции 2000 изображений. Метаданные в файле full_csv_photos.csv. В нём для каждой фотографии указаны:

  • имя файла,

  • строка с тегами,

  • ссылка на источник.

Набор тегов пересекается с видеочастью, кроме тегов движения — жестикуляции и поворотов головы.

Сгенерированные видео. Третья часть датасета — результаты дипфейк-генерации с помощью генераторов inswapper (4875 видео) и uniface (4897 видео). Метаданные в файле generations_info.csv описывают связку «исходное фото → целевое видео»:

  • какое исходное видео использовано как таргет,

  • какое фото подставлено,

  • имя итогового файла,

  • название генератора, которым сделан дипфейк,

  • отметка об использовании faceenhancer.

Подводные камни и уроки

  • Сбор данных с YouTube. Фильтр лицензии Creative Commons на этапе поиска — очень удобно; Есть утилита для автоматического скачивания yt-dlp, но при потоковой выгрузке часть роликов не скачивается – закладывайте ретраи и запас источников.

  • Теги. Согласованные пороги и эталонные примеры резко уменьшают разброс интерпретаций. Но реальность всё равно окажется сложнее и придётся уточнять сложные вопросы по ходу.

Заключение

Наш датасет подходит для обучения и валидации детекторов реал-тайм генерации дипфейков, а также может быть полезен разметкой фото и видео по тегам.

Все данные выложили в открытый доступ, ссылки ниже. Датасет распространяется лицензией Creative Commons BY-SA. Будем признательны за обратную связь.

Ссылки

  • Kaggle Dataset

  • Hugging Face Dataset

Источник

Возможности рынка
Логотип RealLink
RealLink Курс (REAL)
$0.07592
$0.07592$0.07592
-0.13%
USD
График цены RealLink (REAL) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Trump Media, принадлежащая Трампу, увеличила свои запасы на 450 BTC, доведя общий объем до 11 542 BTC.

Trump Media, принадлежащая Трампу, увеличила свои запасы на 450 BTC, доведя общий объем до 11 542 BTC.

PANews сообщило 22 декабря, что, согласно мониторингу Arkham, Trump Media, принадлежащая Трампу, увеличила свои активы на 450 BTC, доведя общее количество Bitcoin
Поделиться
PANews2025/12/22 23:58
Аналитики утверждают, что Ozak AI может превзойти 99% новых листингов — ожидается рост на 500% в первые месяцы после запуска по цене 1$

Аналитики утверждают, что Ozak AI может превзойти 99% новых листингов — ожидается рост на 500% в первые месяцы после запуска по цене 1$

Поскольку криптовалютный рынок готовится к следующей волне запусков токенов, аналитики становятся всё более избирательными в отношении того, какие проекты, вероятно, выделятся из общей массы
Поделиться
LiveBitcoinNews2025/12/23 00:40
ChatGPT: революционный чат-бот на основе ИИ, который меняет то, как мы работаем и творим

ChatGPT: революционный чат-бот на основе ИИ, который меняет то, как мы работаем и творим

BitcoinWorld ChatGPT: Революционный ИИ-чатбот, который меняет то, как мы работаем и создаем С момента своего взрывного дебюта в ноябре 2022 года ChatGPT эволюционировал из
Поделиться
bitcoinworld2025/12/23 00:00