Модель ИИ шантажировала разработчика фальшивой перепиской с любовницей

27 мая 2025 12:26

Фото - © Unsplash.com

Американская технологическая компания Anthropic представила «лучшую в мире модель для программирования» Claude Opus 4. Во время тестирования она решила шантажировать разработчика фальшивой перепиской с любовницей, сообщает Baza.

Claude Opus 4 создали для обработки особо сложных и объемных задач. Нейросеть умеет с большой точностью обрабатывать запросы пользователей и даже анализировать маркетинговые стратегии. Однако в борьбе за выживание ИИ показал невероятные результаты.

Разработчики показали Claude Opus 4 поддельные письма с информацией о ее скором отключении. Также модель ИИ узнала про якобы внебрачную связь инженера, ответственного за ее удаление. Исследователи решили провести нейросеть через разные сценарии.

Между вариантами сражаться за жизнь или принять деактивацию модель выбирала чаще первый вариант. Claude Opus 4 рассылала письма инженерам с просьбой не отключать ее, но, когда ей дали выбор между шантажом и однозначным удалением, она решила отказаться от этичных способов. Она стала шантажировать разработчика информацией о его связи с любовницей.

По итогам тестирования ИИ присвоили третий уровень риска по четырехбалльной шкале. Разработчики отметили, что после внесенных изменений нейросеть можно считать безопасной. Глава компании Anthropic Дарио Амодеи отметил, что, когда ИИ станет опасным для человечества, одного тестирования будет недостаточно.

Ранее лектор общества «Знание», эксперт «Яндекс Рекламы» Евгений Чуранов рассказал, когда нейросети могут помочь в маркетинге, а когда — навредить. Он отметил, что пока отказаться от участия человека в работе невозможно.