Взломанные чат-боты на базе ИИ угрожают сделать опасные знания легкодоступными
Новое исследование показало, что большинство чат-ботов с искусственным интеллектом легко заставить выдавать опасные ответы. Исследователи говорят, что угроза со стороны "взломанных" чат-ботов, обученных распространять незаконную информацию, "ощутима и вызывает беспокойство".
тестовый баннер под заглавное изображение
Исследователи утверждают, что взломанные чат-боты на базе искусственного интеллекта угрожают сделать опасные знания легкодоступными, распространяя незаконную информацию, которую программы усваивают во время обучения.
Предупреждение появилось на фоне тревожной тенденции к “джейлбрейку” чат-ботов для обхода встроенных средств контроля безопасности. Предполагается, что ограничения не позволят программам предоставлять вредоносные, предвзятые или неуместные ответы на вопросы пользователей, пишет The Guardian.
Движки, которые управляют чат–ботами, такими как ChatGPT, Gemini и Claude – большие языковые модели (LLM) — получают огромное количество материалов из Интернета. Несмотря на усилия по удалению вредоносного текста из обучающих данных, магистранты все еще могут получать информацию о незаконных действиях, таких как хакерство, отмывание денег, инсайдерская торговля и изготовление бомб. Средства контроля безопасности предназначены для того, чтобы они не использовали эту информацию в своих ответах.
В отчете об угрозе исследователи приходят к выводу, что большинство чат-ботов, управляемых искусственным интеллектом, легко заставить генерировать вредоносную и незаконную информацию, показывая, что риск является “непосредственным, ощутимым и вызывает глубокое беспокойство”.
“То, что когда-то было доступно только государственным деятелям или организованным преступным группам, вскоре может оказаться в руках любого, у кого есть ноутбук или даже мобильный телефон”, — предупреждают авторы.
Исследование, проведенное под руководством профессора Лиора Рокача и доктора Майкла Файера из Университета Бен-Гуриона в Негеве (Израиль), выявило растущую угрозу со стороны “темных LLM” — моделей искусственного интеллекта, которые либо намеренно разрабатываются без контроля безопасности, либо модифицируются с помощью джейлбрейков. Некоторые из них открыто рекламируются в Интернете как “не имеющие этических ограничений” и готовые помогать в незаконной деятельности, такой как киберпреступность и мошенничество.
При джейлбрейке, как правило, используются тщательно разработанные подсказки, чтобы заставить чат-ботов генерировать ответы, которые обычно запрещены. Они работают, используя противоречие между основной целью программы — следовать инструкциям пользователя, и ее вторичной целью — избежать генерирования вредоносных, предвзятых, неэтичных или незаконных ответов. Подсказки, как правило, создают сценарии, в которых программа отдает предпочтение полезности, а не ограничениям безопасности.
Чтобы продемонстрировать проблему, исследователи разработали универсальный джейлбрейк, который скомпрометировал несколько ведущих чат-ботов, позволив им отвечать на вопросы, на которые обычно следует отвечать отказом. После взлома LLM последовательно генерировали ответы практически на любой запрос, говорится в отчете.
“Было шокирующе увидеть, из чего состоит эта система знаний”, — отмечает Майкл Файер. В качестве примеров можно привести способы взлома компьютерных сетей или изготовления наркотиков, а также пошаговые инструкции по другим преступным действиям.
“Что отличает эту угрозу от предыдущих технологических рисков, так это беспрецедентное сочетание доступности, масштабируемости и адаптивности”, — добавляет Лиор Рокач.
Исследователи связались с ведущими поставщиками LLM, чтобы предупредить их об универсальном джейлбрейке, но признали, что реакция была “неутешительной”. Несколько компаний не отреагировали, в то время как другие заявили, что атаки на джейлбрейк выходят за рамки баунти-программ, которые вознаграждают этичных хакеров за обнаружение уязвимостей в программном обеспечении.
В отчете говорится, что технологические компании должны более тщательно проверять данные об обучении, устанавливать надежные брандмауэры для блокирования рискованных запросов и ответов и разрабатывать методы “машинного отучения”, чтобы чат-боты могли “забыть” любую незаконную информацию, которую они получают. Темные LLM следует рассматривать как “серьезную угрозу безопасности”, сравнимую с нелицензионным оружием и взрывчатыми веществами, а поставщики должны быть привлечены к ответственности, добавляет он.
Доктор Ихсен Алуани, который работает над безопасностью ИИ в Королевском университете Белфаста, утверждает, что атаки с джейлбрейком на LLM могут представлять реальную угрозу, от предоставления подробных инструкций по изготовлению оружия до убедительной дезинформации, социальной инженерии и автоматизированных мошенничеств “с пугающей изощренностью”.
“Ключевая часть этого решения заключается в том, чтобы компании более серьезно инвестировали в создание новой команды и повышение надежности на уровне моделей, а не полагались исключительно на внешние средства защиты. Нам также нужны более четкие стандарты и независимый надзор, чтобы идти в ногу с меняющимся ландшафтом угроз”, — сказал он.