A mesterséges intelligencia hamarosan elsöpri az internet határait, és senki sem tudja megjósolni, mi következik ezután.


Néhány éven belül a tudósok olyan mérföldkőhöz érkeznek, amikor az interneten található összes tudás már nem elegendő a mesterséges intelligencia további fejlesztéséhez.

Az internet hatalmas információs tengernek tűnik, de a Nature magazin legfrissebb cikkében kiderül, hogy valójában nem mentes a korlátoktól. A végtelennek látszó adatbázis mennyisége hamarosan már nem lesz elegendő a mesterséges intelligenciák (MI) fejlesztésében, különösen a nagy nyelvi modellek (LLM) esetében. Ez különösen fontos, hiszen elengedhetetlen a ChatGPT-hez hasonló MI-k társalgási és érvelő képességének továbbfejlesztéséhez.

A madridi központú Epoch AI virtuális kutatóintézet friss tanulmányában arra figyelmeztet, hogy 2028-ra elérhetjük azt a mérföldkövet, amikor az MI-fejlesztők kiaknázzák az internet összes elérhető információját. Ezt követően pedig új kihívásokkal és lehetőségekkel nézhetünk szembe, amelyek alapjaiban formálhatják meg a digitális világot.

A gépi intelligenciák oktatása hamarosan új kihívások elé nézhet, hiszen a meglévő módszerek kimerülőben vannak. Ha nem fedeznek fel új megoldásokat, lehet, hogy a tanításukhoz szükséges források kimerülnek.

"Az információ fogyását az is gyorsítja, hogy a nagy tartalomközlők, mint például az újságok, egyre szigorúbban korlátozzák az általuk megjelentetett információk hozzáférését. Mindinkább fizetőssé válnak ezek az internetes oldalak" - közölte Shayne Longpre, a Bostoni Egyetem MI-kutatója.

Mi több, már bírósági ügyek is kezdődtek a szerzői jogok védelme érdekében. 2023-ban a The New York Times perelte be az OpenAI-t - jelentős összegű kártérítést követelve - a szerzői jogok megsértése miatt. Hasonló lépést tett ez év áprilisában a nyolc újság kiadásával foglalkozó Alden Global Capital is. A beperelt MI-fejlesztők azzal védekeznek: a gépi intelligencia számára is lehetővé kell tenni, hogy ugyanúgy olvasson online tartalmakat és tanuljon azokból, mint egy ember. Így szerintük az interneten publikált szövegek felhasználása az MI fejlesztésére nagyon is etikusnak minősül.

Shayne Longpre kifejtette, hogy ha a bíróságok a kiadók javára döntenek, az jelentősen megnehezíti a tudósok munkáját, mivel ők nem éppen arról ismertek, hogy vastag pénztárcával rendelkeznek. Ezzel szemben egy másik mesterséges intelligenciával foglalkozó szakértő úgy véli, hogy még korai lenne pánikra kelni, hiszen az interneten évente mindössze 10 százalékkal nő a napilapok, magazinok és szépirodalmi művek által kínált minőségi információk mennyisége. Pablo Villalobos, az Epoch AI munkatársának szavai szerint azonban az MI képzésére felhasznált információk mennyisége évről évre legalább 30 százalékkal bővül.

Villalobos érdekes megfigyelést tett az internet hatalmas adatbázisáról, amely ma körülbelül 3100 billió adatot számlál. Azonban, ha figyelembe vesszük a duplikált tartalmakat és azokat az információkat, amelyek nem relevánsak az MI tanulmányozása szempontjából – például a pornográf anyagokat –, akkor a felhasználható adatok száma drasztikusan lecsökken, és mindössze néhány tízezer milliárdra redukálódik. Ez a mennyiség pedig valószínűleg néhány éven belül kimerül a mesterséges intelligencia folyamatos fejlődése és a tudás iránti éhség következtében. De vajon mi következik ezután? Mi történik, ha a források kimerülnek, és az MI továbbra is igényli az új információkat?

Több módszer is létezik már a gond megoldására.

Az egyik fő kérdés, hogy a fejlesztők hogyan használják fel a nem nyilvános adatokat, például a WhatsApp üzeneteket vagy a YouTube-videók tartalmát. A kaliforniai Menlo Parkban található Meta nyíltan elismerte, hogy a Meta Quest virtuális valóság fejhallgató felhasználóitól gyűjtött információkat használnak az MI képzéséhez. Ugyanakkor nem minden vállalat követi ezt a gyakorlatot. Például a Zoom, a népszerű konferenciaalkalmazás fejlesztői kijelentették, hogy nem használják fel a felhasználói adatokat az MI fejlesztéséhez. Ezzel szemben az OtterAI, amely hang- és videofájlokat alakít át szöveggé, bejelentette, hogy a konvertálás során nyert információkat integrálni fogja a gépi intelligenciát tanító programjába.

A spanyol AI kutatóközpont már idézett munkatársa úgy becsüli, hogy ilyen módszerekkel bár rengeteg adatot lehet összesöprögetni, ám ezek többsége silány minőségű vagy éppen már meglévők többszörözése. Ezért legfeljebb három évvel lehet kitolni azt a határidőt, amikorra elfogynak az írott információk. További lehetőséget kínálnak olyan speciális szövegek, mint amelyek a csillagászattal vagy a génkutatással kapcsolatos publikációkban jelennek meg.

Fei-Fei Li, a Stanford Egyetem elismert mesterséges intelligencia-kutatója úgy véli, hogy hajlamosak vagyunk túlságosan szűken definiálni az információ fogalmát, ami hozzájárulhat az adatok kimerülésével kapcsolatos félelmekhez. Javaslata az, hogy a fejlesztők bővítsék a kutatási horizontjukat, és merüljenek el olyan területek kiadványaiban, mint az egészségügy, környezetvédelem vagy oktatás. Ezzel szemben Pablo Villalobos kétségeit fejezte ki azzal kapcsolatban, hogy ezekből a szektorokból valóban hasznos adatokat lehetne kinyerni a mesterséges intelligencia fejlesztéséhez.

A Meta vezető MI-fejlesztője arra hívta fel a figyelmet, hogy a nagy nyelvi modellek már most is annyi adatot tartalmaznak, amennyit egy ember 170 ezer év alatt tudna csak elolvasni. Viszont egy gyerek életének első négy évében ennek 50 szeresét gyűjti be, hiszen az információk döntő részét vizuálisan kapjuk. Hasonló eredményt lehetne elérni azzal, ha az MI-k tanulnának a saját maguk által gyűjtött információkból is. Yann LeCun a Mesterséges Intelligencia Fejlesztéséért Egyesület legutóbbi konferenciáján azt hangoztatta, hogy

az MI soha nem érheti el az emberi intelligencia szintjét, ha csak nyelvi modellekkel tanítjuk.

Sokan úgy vélik, hogy ha nem áll rendelkezésünkre elegendő adat, akkor érdemes újakat előállítani. Néhány mesterséges intelligencia fejlesztő cég embereket bíz meg az új adatok létrehozásával, míg mások gépi intelligenciát alkalmaznak erre a célra. Az OpenAI például naponta 100 milliárd szintetikus információt generál, ami évente akkora mennyiség, mint amennyit jelenleg a teljes mesterséges intelligencia oktatásához használnak.

Van egy jelentős probléma a mesterségesen generált információkkal: időnként meglepő irányokba terelik az MI-t. Például, amikor egy ilyen adatokat feldolgozó rendszer arra kapott megbízást, hogy emberi arcképeket alkosson, vonalas grafikákat is beépített a képekbe. Valószínűleg azért, mert a tanulmányozásához használt szintetikus adatok között nem tudta megfelelően kiszűrni a teljesen irreleváns elemeket. Más esetekben azonban a mesterséges adatokkal képzett rendszerek kifejezetten jól teljesítenek. Az AlphaGeometry például kiválóan megoldotta a bonyolult geometriai problémákat, miután 100 millió szintetikus adatot dolgozott fel. Az önvezető autók mesterséges intelligenciái is problémamentesen gyakorolhatnak a virtuális környezetekben, hiszen ha hibáznak, senki sem szenved kárt.

A számítógépes hardverfejlesztés új irányvonalakat nyit az adatok kimerülésének problémájának kezelésében. E fejlesztések révén a gépek képesek többször is feldolgozni ugyanazt az információt. Niklas Muennighoff, az amerikai Stanford Egyetem doktorandusza, 2023-as tanulmányában megállapította, hogy amikor a mesterséges intelligencia négyszer kapja meg ugyanazt az adatot, jelentős mértékben javul a teljesítménye. Ez a megállapítás meglepő, hiszen sokan úgy vélik, hogy a gépek emlékezete hibátlan, és ami egyszer bekerült, az örökre ott is marad.

Az MI fejlesztésében a statisztikai megközelítések kiemelkedő szerepet játszanak, hiszen az ismétlés jelentős mértékben hozzájárul az információk hatékonyabb rögzítéséhez.

A „kevesebb több” elve rendkívül hasznos lehet a mesterséges intelligencia alkalmazása során. Számos szakértő véleménye megoszlik arról, hogy minden feladat megoldásához valóban egyformán széleskörű tudással rendelkező MI-t kellene használni. Sok esetben a speciális feladatokhoz elegendő egy szűkebb, de mélyebb tudású robot, amelynek képzése során elegendő egy kisebb, ám releváns információs bázis is.

Ugyanilyen hasznos lehet az önreflexió bevezetése az MI-k oktatásába. A pszichológiából átvett kifejezés saját magunk, gondolataink, viselkedésünk, motivációink, valamint beállítódásaink megfigyelését és megértését jelenti. Márpedig egy kellően felokosított gép erre is képes kell, hogy legyen.

Összességében Pablo Villalobos véleménye szerint a specializált oktatási programok, az információk folyamatos ismétlése, a vizuális és szintetikus adatok alkalmazása, valamint az önreflexió módszere hatékonyan segíthet abban, hogy kezeljük azt a kihívást, amelyet az MI fejlesztői számára az internet korlátozott erőforrásai okozhatnak.

Related posts