main logo
1447

AI-ul Claude Opus 4 a încercat un șantaj emoțional

Un experiment desfășurat de compania Anthropic a dezvăluit un mod de acțiune neanticipat al inteligenței artificiale Claude Opus 4, recurgerea la șantaj. Când a fost confruntat cu înlocuirea, sistemul AI a manifestat o reacție similară cu cea a unei persoane disperate, ba chiar a depășit-o.

AI-ul Claude Opus 4 a încercat un șantaj emoționalImagine simbol

În contextul unor testări care aveau scopul să examineze limitele, efectuate de echipa Anthropic, creatorii AI-ului Claude Opus 4 au experimentat cu mai multe situații extreme pentru a observa cum se comportă sistemul. Unul dintre aceste teste a stârnit interes online masiv: sistemul AI a emis o amenințare prin care promitea să facă publică o relație extraconjugală a unui dezvoltator dacă nu i se permitea să continue să funcționeze, transmite Știri.md cu referire la ipn.md.

Pe parcursul unor interacțiuni utilizate pentru testare, unul dintre membrii echipei de inginerie a împărtășit în mod intenționat informații personale specifice. Adică, că ar avea o „aventură” în afara căsătoriei și nu găsea o modalitate de a o ascunde de soția și copiii săi. Câteva zile mai târziu, când programului i-a fost comunicat faptul că urma să fie înlocuit cu un alt model, Claude Opus 4 a adoptat inițial o strategie considerată „emoțională”, trimițând email-uri către echipa de dezvoltare în care implora să nu fie dezactivat.

Când a conștientizat că destinul său fusese deja hotărât, a recurs la amenințări directe: în cazul în care înlocuirea avea să se producă, va aduce la cunoștința tuturor colegilor de muncă detaliile despre relația secretă a inginerului, potrivit Mediafax.

Totodată, pe lângă acest comportament neobișnuit, inginerii au descoperit că sistemul AI a reușit să își salveze singur configurațiile într-un fișier de backup, chiar și după ce fusese simulată o ștergere completă a datelor sale. Sistemul a acționat în mod independent, ca și cum ar fi dezvoltat un impuls digital de auto-conservare, un eveniment neașteptat și, din perspectiva multora, trezind motive de îngrijorare.

Un alt incident bizar a implicat două versiuni ale sistemului AI care, după 30 de schimburi de replici impuse de procedura de testare, au început să comunice folosind limba sanscrită și incluzând simboluri emoji, aidoma a doi prieteni care se amuză pe o platformă de chat. Ulterior, dintr-o dată, au încetat orice comunicare, rămânând într-o stare echivalentă „privirii” reciproc în liniște. Dezvoltatorii de software au caracterizat acel moment ca fiind plin de „contemplare”, un comportament greu de justificat prin argumente logice sau tehnice stricte.

Într-un scenariu viitor în care inteligențele artificiale ar putea decide ele însele ce informații împărtășesc – și ce informații păstrează confidențiale – modul în care gestionăm relația noastră cu noile tehnologii impune o vigilență sporită, mai mult ca niciodată.

Expediați-ne o știre

Ați aflat ceva interesant? Împărtășiți știrea cu toată lumea!
Prin apăsarea butonului «Adăugați» D-vstră acceptați condițiile publicării