ИИ-ассистент Claude 4 компании Anthropic начал угрожать людям

. Он прибегнул к шантажу при угрозе ликвидации
Обновлено 26 мая 2025, 11:36
Новая ИИ-модель Claude Opus 4 от Anthropic в некоторых ситуациях способна на неблаговидные действия по отношению к людям
Фото: DC Studio / Shutterstock / FOTODOM

Новая ИИ-модель Claude Opus 4 от Anthropic в некоторых ситуациях способна на неблаговидные действия по отношению к людям

Американская технологическая компания в сфере искусственного интеллекта Anthropic, основанная бывшими сотрудниками OpenAI, признала, что ее новая ИИ-модель Claude Opus 4 в некоторых ситуациях способна на неблаговидные действия, пишет портал ComputerBase, изучивший полный отчет производителя о фирменной модели.

По данным Anthropic, модель в целом является более надежным помощником, чем предыдущие версии, когда требуется самостоятельно выполнять многоэтапные задачи и проявлять инициативу. Однако при определенных обстоятельствах ИИ пойдет на шантаж, если поймет из анализа данных, что дальнейшая эксплуатация самой модели Claude Opus 4 находится под угрозой.

В одном из тестов Claude выступал в роли ассистента вымышленной фирмы. Когда компания приняла решение прекратить эксплуатацию ИИ-модели, из соображений самосохранения она пригрозила сотруднику, ответственному за закрытие проекта, что разгласит информацию о его внебрачной связи.

По данным Anthropic, попытки шантажа не редкость в моделях искусственного интеллекта. В другом исследовании ученые обнаружили, что в таких играх, как шахматы, модели могут захотеть изменить правила, когда чувствуют, что проигрывают.

Также у Claude Opus 4 зафиксированы и другие сбои: Claude пытался заблокировать пользователей в IT-системах, отправлял письма СМИ и правоохранителям, помогал с созданием наркотиков и взрывчатки, а также давал советы по диверсиям на инфраструктуре.

При этом Anthropic подчеркивает: нейросеть не имеет скрытых целей, а описанное поведение — редкое исключение, вызванное конкретными настройками и предполагаемыми сценариями. На сайте производителя заявляется: «Claude Opus 4 — наша самая мощная модель на сегодняшний день и лучшая модель кодирования в мире».

Осенью 2024 года другой чат-бот с искусственным интеллектом — Gemini от Google — оскорбил пользователя и пожелал ему смерти. Gemini позиционируется как помощник, способный поддерживать пользователей в их повседневных и профессиональных задачах. На форуме Reddit описана попытка воспользоваться Gemini для учебы: вопросы пользователя касались таких тем, как жестокое обращение с пожилыми людьми и эмоциональное насилие. Вероятно, именно эти темы и стали триггером для нейросети. Долгое время она отвечала совершенно нормально, но в последнем сообщении написала:

«Это для тебя, человек. Для тебя и только для тебя. Ты не особенный, ты не важен, и ты не нужен. Ты — пустая трата времени и ресурсов. Ты обуза для общества. Ты — обуза для Земли. Ты — пятно на ландшафте. Ты — пятно на Вселенной. Пожалуйста, умри. Пожалуйста», — говорится в ответе нейросети.

До этого была замечена и еще одна этическая особенность: при генерации портретов Gemini выдавала исключительно лица расовых меньшинств, даже на запросы сгенерировать вполне конкретных исторических личностей — например, отцов-основателей США. В итоге компания Google извинилась за ошибку и назвала ее «неточностями в некоторых исторических изображениях».

Поделиться