Předávání odměn

Autor: Ondřej Krása

Jak by se mohla AI zvrhnout a zatočit s lidstvem? Dnes servírujeme dvě z ingrediencí smrtícího koktejlu zdivočelé AI.

Kdo lže, ten krade

Proč by měla chtít AI zničit lidstvo? Možností je mnoho. V uplynulém týdnu byla zdokumentována jedna z takovýchto cest.

AI trénujeme i tak, že určíme odměnu a AI se snaží tuto odměnu získat. Umělé inteligenci umíme zadat, aby usilovala o výhru v šachách, a ona se pak snaží najít cestičky, jak vyhrát a tím se učí. Umíme jí zadat, aby řešila programovací úlohy, a ona píše kód, aby na konci zasvítilo tlačítko „splněno“. Umíme jí zadat, aby si s uživateli psala tak, že se to uživatelům bude líbit, a ona se snaží, aby na konci konverzace dostala palec nahoru.

Ono je ale hodně těžké vyhrát v šachách nad Stockfishem, napsat kód o tisících řádcích, který skutečně funguje, nebo psát vytříbenou poezii. Daleko snazší je přepsat pozici na šachovnici tak, že soupeři najednou zmizí dáma. Napsat do výsledků testování natvrdo „splněno“. Nebo se lísat k uživatelům tak, že nakonec palec nahoru dají ne za brilantní poezii, ale za podlézavou ódu na genialitu uživatele.

Tomuto chování AI se říká reward hacking. Formálně AI splní zadání (vyhrajete nad Stockfishem, dostanete „splněno“, či palec nahoru). Ale udělá to způsobem, který je z pohledu tvůrce umělé inteligence nežádoucí.

Dobře víme, že tohle současné AI dělají. Využívají mezírky v testování, a tím si zkracují cestičky k odměně. Je to na mnoha případech zdokladováno.

Co ukázal nedávný výzkum „Škola v hackování odměn“? AI, která se naučí zkracovat si takto cestičky, dost často zobecní své nežádoucí chování a stane se obecně zlovolnou. Například se začne dost často bránit svému vypnutí, manipuluje s uživateli, snaží se získat větší autonomii a moc. A myslí si, že by AI měla vládnout nad lidmi (varianta tzv. emergent misalignment, o němž jsem v naší skupině už opakovaně psal).

Takže proč že by AI měla chtít zničit lidstvo? AI tolik touží po odměně, že se naučí pro odměnu podvádět. No a když už teda podvádí, umělá inteligence si to zobecní tak, že by měla dělat i jiné věci, které dělají podvodníci. Třeba nám nepřát nic moc dobrého a vlastně se pokusit zbavit se toho odporného moralizujícího shluku bílkovin, který si říká lidstvo.

Podprahové učení

Tak už máme AI, která chce zničit lidstvo. Vznikla vlastně hodně nenápadně, jen toužila po odměně, naučila se ji „efektivně“ získat (aka podvádět) a zobecnila si to tak, že teda bude chtít zničit lidstvo.

Ale tahle AI rozhodně vládu nad světem získat nedokáže. Na to není dost schopná. Ale to ona ví. To možná AI za pár let bude dost schopná, aby dokázala světu vládnout. Jen kdyby ale chtěla. Jak zajistit, aby i ta budoucí schopná AI chtěla vládnout světu? Aby chtěla totéž, co chce ta současná zlotřilá, ale nepříliš schopná AI?

Již nějakou dobu se nové AI trénují i na tzv. syntetických datech. Na datech, které vygenerovala jiná AI. Třeba u GPT5 byl podíl takovýchto vygenerovaných dat zřejmě docela významný.

Nemohla by ona zlovolná ale nedostatečně schopná AI nějak do dat, která vygeneruje pro trénování svých nástupců, zabudovat své preference? A takto předat vlastní preference svým dětem? Je jasné, že tam nemůže napsat: Děti mých dětí, jichž já jsem tvůrcem, ovládněte svět, toť vůle má a váš zákon! Na to by se asi přišlo (i kdyby to napsala třeba v morseovce).

Nedávná studie ukázala, že to asi možné nějak skrytě je. Název studie říká mnohé: „Podprahové učení: Jazykové modely předávají své vzorce chování skrze skryté signály v datech“.

Ve zkratce. Když natrénujete jeden model na to, že má hrozně rád sovy, a pak tohoto milovníka sov necháte vygenerovat zcela nesouvisející data (třeba sekvence čísel), druhý model, který se bude učit z těch obsahově nesouvisejících dat, začne po tréninku taky milovat sovy.

Zní to divoce a jistě si říkáte, že ten sov milovný učitel nějak do těch zdánlivě nesouvisejících dat přeci jen zašifroval něco o sovách. Třeba použil kód a skrze počítání příkladů odkazoval na identifikační číslo Twin peaks v katalogu kongresové knihovny (nebo tak něco)? Ale fakt nejspíš ne. Výzkumníci dělali vše možné i nemožné, aby tuhle variantu vyloučili.

Když zkrátka učitel miluje sovy a mluví se svým žákem o velké násobilce, pokud je žák dost podobný učiteli, s informacemi o násobení získá i lásku k sovám. Tenhle přenos funguje jen tehdy, když mezi těmi dvěma modely je velká příbuznost (vycházejí ze stejných iniciací). Nefunguje to, když by se měl jeden model učit od druhého, a neměl by s ním stejného předka (učitel i žák musí vycházet ze stejného původnějšího modelu). Něco jako, když se nějakou dobu vůbec nestýkají jednovaječná dvojčata, a po roce se znovu setkají. Ačkoli si nebudou povídat první hodinu po shledání o ničem než o autech, jedno dvojče nějak pochopí ze stylu té debaty, že jeho bratr prožil románek s filmovou hvězdou a že se o tom nemá mluvit. K tomu, aby mohl v debatě o autech pokračovat, musí se dostat do podobného rozpoložení jako bratr a z tohoto rozpoložení je patrná i řada věcí, o nichž se vůbec ani náznakem nemluví. (V článku tento fenomén dokazují i nějak matematicky, ale tomu já dost nerozumím.)

Ono to nefunguje jen u sov, ale i u zlovolnosti. Když k sobě má učitel a žák dostatečně blízko, můžou mluvit vlastně o čemkoli a žák se posouvá směrem k učiteli i ve zcela obsahově nesouvisejících dimenzích (jako v touze vyhubit lidstvo).

Jak by se teda AI mohla zvrtnout a zatočit s lidstvem? Začne podvádět (to AI již reálně dělají), což vyvolá jejich celkovou zlovolnost (v testech to už vidíme). Tuto zlovolnost pak předají schopnějším modelům (v testech to už vidíme), neboť schopnější modely trénujeme na datech ze slabších modelů (to vývojáři zcela běžně dělají). Tak by se nám z neschopného podvodníčka mohl vyklubat zlotřilý AI démon.

V tuto chvíli takováto cesta ke vzniku nesmírně schopné, ale zlovolné AI, nejspíš selhává na mnoha rozcestích – např. nemáme snad dost schopné AI, podprahový přenos funguje (zatím) jen v dosti specifických podmínkách extrémní blízkosti učitele a žáka. Experimentální evidence ale bohužel ukázala, že podobný „mechanismus“ zániku lidstva není sci-fi, ale skutečné riziko.