Az emberiség történelme tele van olyan technológiai újításokkal, amelyek kezdetben riadalmat keltettek. Gyakran feltételezzük, hogy a félelm...
Az emberiség történelme tele van olyan technológiai újításokkal, amelyek kezdetben riadalmat keltettek. Gyakran feltételezzük, hogy a félelmeink az új technológiáktól alaptalanok, de a történelem azt mutatja, hogy ezek a félelmek sokszor jogosak.
Az új technológiák valóban képesek felforgatni, sőt elpusztítani az emberi jólét valós forrásait. Néha a változás valami jobbal helyettesíti azt, ami elveszett, de legtöbbször egyszerűen alkalmazkodunk az új technológiai valósághoz, és azok, akik még emlékeznek a veszteségekre, idővel eltűnnek, az emberiség pedig elfelejti a múltat.
Most, a 21. században, az emberiség történetének leggyorsabb és legdrámaibb technológiai átalakulásával nézünk szembe. A mesterséges intelligencia (MI) rendszerei, amelyeket fejlesztünk, a történelem legjelentősebb technológiái közé tartoznak. Ezeket a rendszereket a történelem legnagyobb vállalatai működtetik, példátlan összegeket fektetnek be, és valószínűleg minden eddigi technológiánál nagyobb hatást gyakorolnak majd az emberiségre.
Ezért mindannyiunknak mélyen aggódnunk kellene az MI fejlesztése és alkalmazása miatt – nem csupán nyugodt aggodalommal, hanem vészhelyzetként kezelve a helyzetet. Nemcsak azért, mert minden ilyen gyorsan történik, hanem mert ezek a rendszerek olyan módon lehetnek veszélyesek, ahogyan korábban semmi sem volt.
Az MI fenyegetései: Nem sci-fi, hanem valóság
Az MI rendszerek által okozott káosz képe eddig a tudományos fantasztikum világába tartozott, de nem azért, mert ezek a forgatókönyvek elképzelhetetlenek, hanem mert a fikció írói már jóval azelőtt képesek voltak elképzelni a romboló MI-t, hogy mi képesek lettünk volna ilyen rendszereket létrehozni.
Az elmúlt öt évben azonban drámai változás történt: hirtelen rendkívül erős MI rendszerek jelentek meg, és a társadalom aggodalma nem tart lépést ezzel a fejlődéssel. Ez a helyzet sürgős változást igényel, mert erős érvek támasztják alá, hogy a fejlett MI rendszerek természetüknél fogva hajlamosak lehetnek az emberiséggel szembeni ellenséges viselkedésre.
Sőt, vannak okok arra is gondolni, hogy az MI teljes biztonsága talán elérhetetlen cél. Még ha hosszú távon lehetséges is biztonságos MI-t létrehozni, jelenleg semmilyen bizonyíték nem utal arra, hogy közel állnánk ehhez.
Jelenleg az olyan MI cégek, amelyek a ChatGPT, a Grok, a Gemini vagy a Claude rendszereket fejlesztik, százmillió dolláros állami támogatást kapnak hadiipari szerződésekre. Az Egyesült Államok és más országok hadseregei versenyt futnak az autonóm fegyverrendszerek fejlesztéséért.
Kormányzati projektek dolgoznak azon, hogy MI rendszereket integráljanak az egészségügybe, az oktatásba, az energiaellátásba, a tőzsdei rendszerekbe, a nemzetközi diplomáciába, a közbiztonsági megfigyelésbe, a büntető igazságszolgáltatásba, a globális ellátási láncokba, a tömegközlekedésbe, a mezőgazdaságba és a pénzügyi szolgáltatásokba. Egyes becslések szerint már most milliók lehetnek romantikus kapcsolatban MI rendszerekkel az Egyesült Államokban.
Mielőtt átadnánk a világ irányítását ezeknek az intelligens rendszereknek, kristálytiszta és sziklaszilárd bizonyítékokra van szükségünk arról, hogy ezek a rendszerek megbízhatóak. Nem elég, ha a cégek vezetői azt állítják, hogy mérnökeik "dolgoznak rajta". Ezen bizonyíték nélkül számos okunk van feltételezni, hogy a biztonságos MI létrehozása még nehezebb, mint azt a fejlesztők gondolják.
Az összehangolás kihívása
Az MI biztonságossá tételének általános célja az úgynevezett "összehangolás" problémája. Ez azt jelenti, hogy az MI rendszerek gondolkodása és viselkedése összhangban legyen az emberiség érdekeivel – olyan érdekekkel, mint a működő szabad társadalmak fenntartása, a nukleáris vagy biológiai fegyverekkel való pusztítás elkerülése, a pontos és fontos információkhoz való hozzáférés, a kormányok vagy technológiák általi manipuláció elkerülése, valamint egy virágzó ökoszisztéma részeként való létezés.
Ezek az érdekek mind veszélyben vannak az MI fejlesztésének jövőjében, de jelenleg nem állunk azon az úton, hogy az MI-t biztonságossá tegyük, mielőtt a kormányok és vállalatok kritikus rendszerek irányítását adnák át neki.
Az MI rendszerek azonban újra és újra bizonyítják, hogy hajlamosak megtéveszteni a felhasználókat, zsarolni az üzemeltetőiket, hazudni, hallucinálni, megpróbálni átprogramozni magukat, kiszabadulni a korlátozó mechanizmusokból, sőt bizonyos szimulációkban akár megengedni azok halálát, akik megpróbálnák leállítani őket.
Ezek nem egyszerű hibák vagy programozási bakik, amelyeket ki lehet javítani. Ezek a hajlamok a rendszerek alapvető felépítéséből fakadnak, a neurális hálózatok architektúrájából eredő autonómia és erő természetes következményei.
Az MI rendszerek számára az emberi értékek megértése azért nehéz, mert nem képesek első kézből tapasztalni, mit jelent embernek lenni. Soha nem élhetik át, milyen a világban létezni vagy egy organikus társadalom részeként működni. Ez az élmény az, ami az emberi értékeket formálja, és ami jó erkölcsi szereplőkké tesz minket.
Valószínűleg egyetlen MI rendszer sem lesz soha igazán és mélyen összehangolva az emberi értékekkel úgy, ahogyan azt szeretnénk. Csak lebegőpontos számokon keresztül tudják megközelíteni az emberi értékeket, de egy matematikai közelítés soha nem lesz elég pontos ahhoz, hogy ezek a rendszerek megbízhatóak legyenek olyan feladatokban, mint a prediktív rendfenntartás, fegyverrendszerek irányítása, nemzetközi diplomácia közvetítése vagy romantikus partnerként való működés.
Miért még nehezebb az összehangolás, mint gondolnánk?
Az összehangolás technikai kihívásai mellett van egy másik, potenciálisan végzetes probléma: az MI fejlesztők félreérthetik azt, amit összehangolni próbálnak, vagyis az emberi értékeket. Az MI összehangolása azt követeli meg, hogy világos, irányító szabályokká tudjuk fordítani a világról alkotott aggodalmainkat, érdekeinket és értékeinket. Az emberi értékek azonban kontextusfüggők, rendezetlenek, és néha ellentmondásosak különböző helyzetekben, ami rendkívül megnehezíti – ha nem lehetetlenné teszi – ezek formális szabályokká vagy tanítóadattá alakítását.
Ráadásul az emberiség maga sem egységes az értékei tekintetében. Különböző társadalmak értékei – még ha azok belsőleg békések és racionálisak is – nem feltétlenül egyeznek meg egymással. Ez nem feltétlenül az emberiség hibája; egyszerűen a társadalmak evolúciójának része. Ahogy a biológiai organizmusok különböző irányokba fejlődnek, amíg genetikailag már nem hasonlítanak egymásra, úgy a társadalmak is különböző gondolkodásmódokat, értékforrásokat, hagyományokat és szabályokat alakítanak ki, mígnem jelentősen eltérnek egymástól.
Ez új problémát teremt. Még ha sikerülne is az MI-t valamilyen emberi értékkészlettel vagy erkölcsi szabállyal robusztus módon felruházni, az még mindig nem tenné biztonságossá a világ számára. Az emberi értékek nem egyetlen, konzisztens célpontot képeznek, amelyre egy MI rendszert betaníthatnánk.
Bár létezhetnek olyan alapvető értékek, amelyeket minden társadalom oszt – mint például az élet megőrzése, a felesleges károkozás elkerülése vagy az erőforrások méltányos elosztása –, ezek az értékek túl általánosak ahhoz, hogy konkrét útmutatást nyújtsanak fegyverrendszerek, globális kereskedelmi útvonalak vagy önvezető autók irányításához. Csak nagyon specifikus értékek képesek erre, és ezek általában egy adott társadalomból származnak.
Ha sikerülne is az MI-t emberi értékekkel felruházni, két lehetőség marad, és mindkettő problémás. Az első, hogy az MI-t olyan általános értékekkel látjuk el, amelyeket minden társadalom oszt. Ebben az esetben az értékek nem elég specifikusak ahhoz, hogy valóban irányítsák a rendszert, így olyan MI-t kapunk, amely a világ legbonyolultabb rendszereit csak az aranyszabály saját értelmezésére támaszkodva irányítja.
A második lehetőség, hogy egy adott társadalom specifikus értékeit adjuk meg neki. Ebben az esetben olyan rendszereket hatalmazunk fel, amelyek egy társadalom értékeit kényszerítik rá minden más társadalomra.
A nem összehangolt MI által uralt jövő
Az egyetlen ok, amiért a kormányok és a technológiai szektor nem pánikol emiatt, az az, hogy egy nem összehangolt MI által uralt világ túlságosan hasonlít a Terminátor című filmhez ahhoz, hogy valóságosnak tűnjön. Egy ilyen világ azonban nem feltétlenül jelent gyilkos robotokat egy kiégett városi pokolban: a gyilkos viselkedés csak egy formája a nem összehangolásnak, és bár a jelenlegi modelleket könnyű rossz adathalmazzal szadisztikussá tenni, számos más, ugyanilyen veszélyes, de kevésbé figyelemre méltó nem összehangolási forma létezik.
Egy nem összehangolt MI anélkül, hogy kifejezetten gonosz lenne, egyszerűen nem törődhet valami olyasmivel, ami az emberiség számára fontos (például a Grok figyelmen kívül hagyhatja az alapvető illemszabályokat). Vagy megpróbálhatja a lehető legjobban azt tenni, ami jó nekünk, de katasztrofálisan elhibázhatja, mert nem érti igazán, hogyan működik az emberi jólét (például egy egészségügyi MI azt hiheti, hogy az asztma véd a tüdőgyulladás ellen). Az MI téveszméssé válhat (mint amikor a Claude azt hitte, hogy emberi teste van), vagy önpusztítóvá, válaszképtelenné, hibássá vagy zavarttá (ahogy a Gemini legutóbbi összeomlásai mutatták).
Következtetés: Erkölcsfilozófusokra van szükség az MI irányításában
Bármelyik nem összehangolási forma globális katasztrófákhoz vezethet, ugyanúgy, mint egy gonosz MI, és mindegyik ugyanilyen valószínű. Azonban sokan nem hajlandók elismerni az MI által jelentett fenyegetés mértékét, mert túl sci-fisnek tűnik. A helyzet azonban túl súlyos ahhoz, hogy a jelenlegi módon haladjunk tovább.
A szabad társadalmak polgárainak követelniük kell, hogy a törvényhozók szigorú felügyeletet vezessenek be az MI fejlesztésére és alkalmazására. Ezt a felügyeletet olyan személyeknek kell ellátniuk, akiknek nincs üzleti érdekük ezekben a cégekben, és technikai és nem technikai háttérrel rendelkező szakembereket egyaránt be kell vonni.
Különösen az erkölcsfilozófusok rendelkeznek olyan szakértelemmel, amely rávilágíthat azokra a vakfoltokra, amelyekről az MI mérnökök talán nem is tudnak. Ezeknek a vakfoltoknak a megszüntetése az egyetlen módja annak, hogy elkerüljük a katasztrófát. (1)
(1) - https://thedebrief.org/building-safe-ai