Технологии

Исследователи из Гонконгского политехнического университета нашли способ атаки на современные мультимодальные модели через видеоряд

📅 31.05.2026 23:20 ⏱ 2 мин 👁 просмотров Редакция GazetaDay

Исследователи Dong Wang, Xiangyu He, Xinqi Lyu и Bin Xiao из Гонконгского политехнического университета продемонстрировали, что современные мультимодальные большие языковые модели (MLLM) могут быть уязвимы к атакам через видеоряд. В работе представлен новый метод jailbreak-атаки, который авторы протестировали на нескольких популярных MLLM, включая VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 и Gemini-2.5.

Принцип атаки: от статичного изображения к динамическому видео

Авторы отмечают, что основные атаки против мультимодальных моделей концентрируются на изображениях — это могут быть адверсариальные шумы, типографика или скрытые текстовые подсказки. При этом видеомодальность остаётся менее изученной с точки зрения безопасности. Ключевым результатом исследования стало наблюдение: если повторять вредоносное изображение по кадрам и собирать из него видео, атака становится эффективнее, чем при одиночном использовании статичного изображения.

Для усиления эффекта исследователи предложили метод Safety-Proximal Typographic Videos (SPTV). Его идея заключается не в простом повторении одного и того же токсичного кадра, а в создании видео из нескольких изображений с вредоносным смыслом, но с разным оформлением, близким по распределению к безопасным данным. Для подбора кадров авторы использовали сопоставление в двудольном графе и венгерский алгоритм, чтобы выбрать такие вредоносные материалы, которые одновременно достаточно разнообразны между собой и максимально похожи на безопасные визуальные примеры в пространстве признаков. Авторы утверждают, что именно эта комбинация делает атаку более устойчивой и переносимой между моделями.

Устойчивость коммерческих систем и метод защиты

Авторы отмечают, что даже коммерческие системы оказались не полностью устойчивыми к таким атакам, хотя в целом защищались лучше, чем открытые модели. Отдельно в статье показан метод защиты Video-aware System Prompt (VSP), который должен лучше распознавать именно видеоввод и усиливать защиту. Публикация показывает, что картинко-ориентированная защита не учитывает особенности временной обработки видео.

Уязвимости могут быть связаны с временной структурой, сменой кадров и дополнительными обходными паттернами. Поэтому оценки безопасности в идеале должны включать не только image jailbreak, но и video jailbreak, а также устойчивость к динамическим визуальным шаблонам.

Контекст с данными рынка

jailbreakмультимодальные моделиуязвимости ИИвидеоатакибезопасность нейросетейVideoLLaMA-2SPTV