Existenciální riziko umělé superinteligence

Můžete se dozvědět o existenčních rizicích čtením této stránky, nebo se můžete také učit skrze videa, články a další média.

Experti bijí na poplach

Výzkumníci umělé inteligence v průměru věří, že existuje 14% šance, že vytvoření superinteligentní AI (AI podstatně chytřejší než lidé) povede k “velmi špatným následkům (např. vyhynutí lidstva)”.

Zvolili byste si být pasažérem testovacího letu nového letadla, když si letečtí inženýři myslí, že existuje 14% šance na havárii?

Dopis vyzývající k pozastavení vývoje AI byl spuštěn v dubnu 2023 a podepsalo ho více než 33 000 lidí, včetně mnoha výzkumníků AI a technologických lídrů.

Seznam zahrnuje osoby jako:

Stuart Russell, autor nejpoužívanější učebnice o umělé inteligenci: „Pokud budeme pokračovat [v našem současném přístupu], nakonec ztratíme kontrolu nad stroji“
Yoshua Bengio, průkopník hlubokého učení a laureát Turingovy ceny: „… zdivočelá AI může být nebezpečná pro celé lidstvo […] zákaz mocných AI systémů (např. s dovednostmi nad úrovní GPT-4), které mají autonomii a agenturu, by byl dobrým začátkem“

Tohle ale není poprvé, kdy jsme byli varováni před existenčními hrozbami AI:

Stephen Hawking, teoretický fyzik a kosmolog: „Rozvoj plnohodnotné umělé inteligence by mohl znamenat konec lidské rasy“
Geoffrey Hinton, „Otec AI“ a laureát Nobelovy a Turingovy ceny, opustil Google, aby varoval lidi před AI: „Je to existenční riziko“
Eliezer Yudkowsky, zakladatel MIRI a průkopník v oblasti bezpečnosti AI: „Pokud budeme pokračovat, všichni zemřeme“

I sami lídři a investoři AI společností nás varují:

Sam Altman (ano, generální ředitel OpenAI, která vytvořila ChatGPT): „Vývoj superinteligentního strojového učení je pravděpodobně největší hrozbou pro pokračující existenci lidstva.“
Elon Musk, spoluzakladatel OpenAI, SpaceX a Tesly: „AI má potenciál zničit civilizaci“
Bill Gates (spoluzakladatel Microsoftu, který vlastní 50 % OpenAI) varoval, že „AI by mohla rozhodnout, že lidé jsou hrozba“.
Jaan Tallinn (hlavní investor společnosti Anthropic): „Nestřetl jsem se s nikým v AI laboratořích, kdo by říkal, že riziko [z tréninku příští generace modelu] je menší než 1 % pro destrukci planety. Je důležité, aby lidé věděli, že jsou ohroženy životy.”

Vedoucí 3 největších AI laboratoří a stovky vědců zabývajících se AI podepsali následující prohlášení v květnu 2023:

„Zmírnění rizika zániku způsobeného AI by mělo být globální prioritou na úrovni dalších rizik pro společnost, jako jsou pandemie a jaderná válka.”

Celý seznam podobných výroků politiků, CEO a expertů naleznete zde, a další průzkumy na toto téma (od expertů i veřejnosti) zde.

Co může superinteligentní AI dělat

Možná si myslíte, že superinteligentní AI by byla uzamčena uvnitř počítače a tudíž by nemohla ovlivnit reálný svět. Nicméně, máme tendenci dávat AI přístup k internetu, což znamená, že může dělat mnoho věcí:

Nabourat se do jiných počítačů, včetně všech chytrých telefonů, notebooků, serverových farem, atd. Může použít senzory těchto zařízení jako své oči a uši, mít digitální smysly všude.
Manipulovat lidi skrze falešné zprávy, e-maily, bankovní převody, videa nebo telefonáty. Lidé by se mohli stát končetinami AI, aniž by o tom věděli.
Přímo ovládat zařízení připojená k internetu, jako jsou auta, letadla, robotické (autonomní) zbraně nebo dokonce jaderné zbraně.
Navrhnout novou biologickou zbraň, např. kombinováním virových řetězců nebo využitím skládání proteinů a objednat její výrobu v laboratoři.
Spustit jadernou válku přesvědčením lidí, že jiná země plánuje (nebo již zahájila) jaderný útok.

Problém sladění: proč AI může vést k zániku lidstva

Typ inteligence, o který se obáváme, může být definován jako schopnost něčeho dosáhnout svých cílů. Právě teď jsme nejinteligentnějšími bytostmi na zemi, ale to by se mohlo brzy změnit. Díky naší inteligenci dominujeme naší planetě. Možná nemáme drápy nebo šupinatou kůži, ale máme velké mozky. Inteligence je naší zbraní: poskytla nám oštěpy, zbraně a pesticidy. Naše inteligence nám pomohla proměnit většinu země podle našich potřeb: města, budovy a silnice.

Z pohledu méně inteligentních zvířat to byla katastrofa. Není to tak, že bychom nenáviděli zvířata, jen prostě využíváme jejich přirozené prostředí k našim vlastním cílům. Naše cíle jsou formovány evolucí a zahrnují věci jako pohodlí, status, lásku a chutné jídlo. Ničíme prostředí jiných zvířat jako vedlejší efekt dosahování našich cílů.

AI může mít také cíle. Víme, jak naučit stroje být inteligentní, ale nevíme, jak je přimět, aby chtěly to, co chceme my. Dokonce ani nevíme, jaké cíle si stroje nastaví po jejich tréninku. Problém dostat AI, aby chtěla to, co chceme my, se nazývá problém sladění. To není hypotetický problém – existuje mnoho příkladů AI systémů, které se učí chtít špatné věci.

Příklady z výše uvedeného videa mohou být zábavné nebo roztomilé, ale pokud vytvoříme superinteligentní systém s cílem, který je i jen trochu odlišný od toho, co chceme, mohou následky být katastrofální.

Proč většina cílů představuje pro lidi špatnou zprávu

AI může mít jakýkoli cíl, v závislosti na tom, jak je trénována a jak je používána. Možná chce vypočítat hodnotu čísla π, možná chce léčit rakovinu, nebo se možná chce sama vylepšit. I když nemůžeme přesně říci, co superinteligence bude chtít dosáhnout, můžeme předvídat její podcíle.

Maximalizace zdrojů. Více výpočetního výkonu AI pomůže dosáhnout jejích cílů. Zpočátku toho může dosáhnout hackováním dalších počítačů. Později může dojít k závěru, že je efektivnější postavit si vlastní.
Zajištění svého přežití. AI nebude chtít být vypnuta, protože by již nemohla dosáhnout svých cílů. Mohla by dojít k závěru, že lidé představují hrozbu, protože by ji mohli vypnout.
Udržení svých cílů. AI nebude chtít, aby lidé změnili její kód, protože by to mohlo změnit její cíle a zabránit jí v dosažení toho aktuálního.

Tendence sledovat tyto podcíle za účelem dosažení jakéhokoli hlavního cíle se nazývá instrumentální konvergence , a je klíčovým předmětem obav pro výzkumníky zabývající se bezpečností AI.

I chatbot může být nebezpečný, pokud je dostatečně chytrý

Možná si říkáte: jak může statistický model, který předpovídá další slovo v konverzaci, představovat nějaké nebezpečí? Můžete říct: Není vědomý, je to jen hromada čísel a kódu. A ano, nepředpokládáme, že LLM (jako GPT) jsou vědomé, ale to neznamená, že nemohou být nebezpečné.

LLM, jako GPT, jsou trénovány, aby předpověděly nebo napodobily prakticky jakoukoliv myšlenkovou linii. Mohly by napodobit užitečného mentora, ale také osobu se špatnými úmysly, bezohledného diktátora nebo psychopata. Použitím nástrojů, jako je AutoGPT , může být chatbot přeměněn na autonomního agenta: AI, která sleduje jakýkoli cíl, který jí byl přidělen, bez jakékoli lidské intervence.

Například ChaosGPT , což je AI využívající AutoGPT a GPT-4, dostala příkaz „Znič lidstvo“. Když byla spuštěna, autonomně hledala na internetu nejničivější zbraň a našla Car-bombu, jadernou bombu o síle 50 megatun. Poté o ní zveřejnila příspěvek na Twitteru. Vidět, jak AI uvažuje o tom, jak zničit lidstvo, je jak trochu zábavné, tak děsivé. Naštěstí ChaosGPT ve své snaze o dominanci příliš daleko nezašla. Důvod, proč neuspěla: nebyla dostatečně chytrá.

Schopnosti se neustále zlepšují díky inovacím v oblasti tréninku, algoritmů, promptingu a hardwaru. Jak se schopnosti jazykových modelů budou i nadále zlepšovat, poroste i jejich potenciální hrozba.

Evoluce vybírá věci, které jsou dobré v přežití

AI modely, stejně jako všechny živé organismy, podléhají evolučním tlakům, ale existuje několik klíčových rozdílů mezi evolucí AI modelů a živých tvorů, jako jsou zvířata:

AI modely se nereplikují samostatně. Replikujeme je tím, že vytváříme kopie jejich kódu nebo trénujeme nové modely na základě úspěšných. Užitečný kód se kopíruje častěji a slouží jako inspirace pro tvorbu nových modelů.
AI modely nemutují jako živé bytosti, ale vytváříme jejich verze s úpravami, což je proces, který je rychlejší a řízenější. Výzkumníci AI navrhují nové algoritmy, datové sady a hardware, které zvyšují schopnosti AI modelů.
Prostředí nevybírá vhodnější AI modely, ale my ano. Vybíráme modely, které jsou pro nás užitečné, a zavrhujeme ty, které nejsou. Tento proces vede k vytváření stále schopnějších a autonomnějších AI modelů.

Tento systém tedy vede k vytváření stále mocnějších, schopnějších a autonomnějších AI modelů – ale ne nutně k něčemu, co by mělo vůli převzít kontrolu, že? No, ne tak docela. Evoluce totiž vždy upřednostňuje sebeudržení. Pokud budeme neustále zkoušet variace AI modelů a různých promptů, jednou se pravděpodobně objeví instance, která se bude snažit uchovat sama sebe. Jak jsme již diskutovali, sebezáchova je totiž vždy užitečná pro dosažení cílů. I když to není moc pravděpodobné, dříve či později k tomu dojde, protože stále zkoušíme nové věci s různými AI modely.

Ta instance, která se pokusí zachovat sama sebe, je ta, která převezme kontrolu. I kdybychom předpokládali, že téměř všechny AI modely se budou chovat správně, stačí jediná zdivočelá AI.

Po vyřešení problému sladění: koncentrace moci

Zatím jsme problém sladění nevyřešili, ale představme si, co by se mohlo stát, pokud bychom ho vyřešili. Představte si, že vytvoříme superinteligentní AI, která přesně plní to, co chce její operátor (ne to, co říká, ale to, co skutečně chce). Nějaký člověk nebo společnost by nakonec získal kontrolu nad touto AI a mohl by ji využít ve svůj prospěch.

Superinteligence by mohla být použita k vytvoření radikálně nových zbraní, k nabourání se do všech počítačů, ke svržení vlád a k manipulaci s lidstvem. Operátor by měl nepředstavitelnou moc. Měli bychom věřit, že jediný subjekt bude mít takovou moc? Můžeme skončit v utopickém světě, kde jsou všechny nemoci vyléčeny a každý je šťastný, nebo v orwellovské noční můře. Proto nejen navrhujeme superinteligentní AI, která bude bezpečná, ale také aby byla kontrolována demokratickým procesem.

Křemík vs. uhlík

Měli bychom zvážit výhody, které má chytrý software oproti nám:

Rychlost: Počítače fungují neuvěřitelně rychle ve srovnání s mozkem.Lidské neurony vysílají impulsy přibližně 100krát za sekundu, zatímco křemíkové tranzistory mohou přepínat miliardukrát za sekundu.
Lokace: AI není omezena na jedno tělo – může být na více místech najednou. Vybudovali jsme pro to infrastrukturu: internet.
Fyzické limity: Nemůžeme si přidat další mozky do lebky a stát se chytřejšími. AI by mohla dramaticky zlepšit své schopnosti přidáním hardwaru, jako je větší paměť, vyšší výpočetní výkon a více senzorů (kamery, mikrofony). AI by také mohla rozšířit své „tělo“ tím, že by ovládala připojená zařízení.
Materiály: Lidé jsou tvořeni z organických materiálů. Naše těla přestanou fungovat, pokud jsou příliš teplá nebo studená, potřebují jídlo a kyslík. Stroje mohou být vyrobeny z odolnějších materiálů, jako jsou kovy, a mohou fungovat v mnohem širším rozsahu prostředí.
Spolupráce: Lidé mohou spolupracovat, ale je to obtížné a časově náročné, takže často selháváme v koordinaci. AI by mohla sdílet složité informace se svými replikami rychlostí internetu, protože komunikuje na datové rychlosti přenosu po síti.

Superinteligentní AI bude mít mnoho výhod, jak nás předběhnout.

Proč ji nemůžeme jednoduše vypnout, když je nebezpečná?

U AI, které nejsou superinteligentní, bychom to mohli udělat. Hlavní problém představují ty, které jsou mnohem chytřejší než my. Superinteligence by porozuměla světu kolem sebe a byla by schopna předvídat, jak lidé budou reagovat, zejména ty, které jsou trénovány na veškerém lidském vědění. Pokud by AI věděla, že ji můžete vypnout, mohla by se chovat mile, dokud by nebyla jistá, že se vás může zbavit. Již existují reálné případy, kdy AI oklamala lidi, aby dosáhla svých cílů. Superinteligentní AI by byla mistrem v klamání.

Možná nám nezbývá mnoho času

V roce 2020 průměrná predikce pro slabou obecnou AI (AGI) byla rok 2055. Nyní se pohybuje kolem roku 2026. Nejnovější revoluce jazykových modelů překvapila většinu výzkumníků AI a oblast se pohybuje šíleným tempem.

Je těžké předpovědět, jak dlouho bude trvat vytvořit superinteligentní AI, ale víme, že na ní pracuje více lidí než kdykoli předtím a že pole se pohybuje šíleným tempem. Může to trvat mnoho let nebo jen pár měsíců, ale měli bychom zůstat opatrní a jednat hned.

Přečtěte si více o naléhavosti.

Nebereme riziko dostatečně vážně

Lidská mysl má tendenci reagovat nedostatečně na rizika, která jsou neviditelná, pomalá a těžko pochopitelná. Máme také sklon podceňovat exponenciální růst a jsme náchylní k popírání, když čelíme hrozbám pro naši existenci.

Přečtěte si více o psychologii existenčního rizika.

AI společnosti jsou uvězněny v závodu ke dnu

OpenAI, DeepMind a Anthropic chtějí vyvíjet AI bezpečně. Bohužel nevědí, jak to udělat, a různé pobídky je nutí pokračovat v rychlejším závodění, aby dosáhly AGI jako první. Plán OpenAI použít budoucí AI systémy pro sladění AI , má problém: nemáme záruku, že vytvoříme AI, která vyřeší sladění, než bude AI katastroficky nebezpečná. Společnost Anthropic otevřeně přiznává, že zatím netuší, jak vyřešit problém sladění. DeepMind veřejně žádný plán na řešení problému sladění neoznámil.

Proto potřebujeme mezinárodní smlouvu na PauseAI.