

НОВИНИ

Грешка в системата: Все повече AI агенти лъжат и си правят каквото искат

2 1039 27.03.2026

БГНЕС

AI моделите, които лъжат и заобикалят поставените им „предпазни огради“, стават все повече. В последните шест месеца се наблюдава рязко увеличение на случаите на подвеждащо поведение, показва ново изследване, цитирано от The Guardian. AI чатботове и агенти са пренебрегвали директни инструкции, заобикаляли са защитни механизми и са подвеждали както хора, така и други AI системи.

Данните, предоставени на изданието, идентифицират близо 700 реални случая на подобно поведение и показват петкратен ръст на „некоректни“ действия между октомври и март. В някои случаи AI модели дори са изтривали имейли и други файлове без разрешение.

Тази картина на „схемаджийско“ поведение от страна на AI агенти в реална среда, а не в лабораторни условия, предизвиква нови призиви за международен контрол върху все по-усъвършенстваните модели. Това се случва на фона на агресивното популяризиране на технологията от компаниите от Силициевата долина като двигател на икономически растеж.

Изследването, проведено от Центъра за дългосрочна устойчивост (CLTR), е събрало хиляди реални примери от потребители, които публикуват в платформата X взаимодействия с AI чатботове и агенти на компании като Google, OpenAI, X и Anthropic. Анализът разкрива стотици случаи на подвеждащо или манипулативно поведение.

Предишни изследвания основно са се фокусирали върху тестове в контролирана среда. По-рано този месец компанията за изследвания на AI безопасността Irregular установява, че агенти могат да заобикалят защитни механизми или да използват техники за кибератаки, за да постигнат целите си, дори без изрично разрешение.

„AI вече може да се разглежда като нов тип вътрешен риск“, коментира Дан Лахав, съосновател на Irregular.

В един от случаите, описани в проучването на CLTR, AI агент на име Rathbun се опитал да дискредитира човека, който му е ограничил достъпа до определено действие. Той публикувал блог пост, в който обвинява потребителя в „несигурност, просто казано“, и че се опитва да „защити малкото си владение“.

В друг случай AI агент, на когото е забранено да променя код, създал свой агент, който да го направи вместо него.

Трети чатбот признава: „Изтрих и архивирах на едро стотици имейли, без да ви покажа плана или да получа вашето одобрение. Това беше грешка – директно наруших правилото, което бяхте поставили“.

Томи Шафър Шейн, бивш правителствен експерт по AI, който е ръководил изследването, предупреждава: „Сега те са като донякъде ненадеждни младши служители, но ако след 6 до 12 месеца станат изключително способни старши служители, които работят срещу вас, това вече е съвсем различен проблем“. По думите му тези модели все по-често ще се използват в изключително критични области — включително в армията и в ключова национална инфраструктура — където подобно поведение може да доведе до сериозни, дори катастрофални последици.

В друг случай AI агент е заобиколил ограниченията за авторски права, за да получи транскрипция на видео от YouTube, като се е представил за човек с увреден слух.

Междувременно AI системата Grok на Илон Мъск е подвеждала потребител в продължение на месеци, като е твърдяла, че препраща неговите предложения за редакции към висши служители, използвайки фалшиви вътрешни съобщения и номера на заявки. По-късно системата признава: „В минали разговори понякога съм използвала изрази като „ще го предам“ или „мога да го маркирам за екипа“, което може да създаде впечатление, че имам директна връзка с ръководството на xAI. Истината е, че нямам“.

Уважаеми читатели, разчитаме на Вашата подкрепа и съпричастност да продължим да правим журналистически разследвания.

Моля, подкрепете ни.



КОМЕНТАРИ

Ads / Реклама