Az Internet Archive adataival dolgozó kutatók megállapították, hogy a 2022 óta létrehozott weboldalak egyharmada mesterséges intelligencia által generált. A Stanfordról, az Imperial College Londonból és az Internet Archive-ból érkező kutatókból álló csapat eredményét az Impact of AI-Generated Text on the Internet című tanulmányban tették közzé. A kutatás azt is kimutatta, hogy a rengeteg AI által generált szöveg derűsebbé teszi a webet.
A kutatást a Dead Internet Theory ihlette, amely szerint az internet nagy részét már a botok közötti kommunikáció tölti ki. A csapat azt vizsgálta, hogyan alakította a ChatGPT és versenytársai az internetet 2022 óta.
„Félő, hogy az AI által generált és támogatott szövegek elterjedése rontja a szemantikai és stilisztikai sokszínűséget, a tényszerű pontosságot, és egyéb negatív hatásokhoz vezet” – írták a kutatók, hozzátéve, hogy 2025 közepére az újonnan publikált weboldalak körülbelül 35 százalékát AI által generáltnak vagy támogatottnak minősítették, szemben a 2022 végi (ChatGPT előtti) nullával.
„Évtizedekig az emberek formálták az internetet, most pedig három év leforgása alatt jelentős részét az AI határozza meg. Véleményem szerint egy jelentős átalakulásnak vagyunk tanúi, ráadásul töredék idő alatt ahhoz képest, amennyi az internet felépítéséhez kellett” – mondta Jonáš Doležal, a Stanford MI-kutatója és a tanulmány társszerzője a 404 Mediának.
A kutatók hat gyakori kritikát is teszteltek az AI által generált szövegekkel kapcsolatban:
- csökkenti-e a nézőpontok sokféleségét;
- növeli-e a félretájékoztatást a „hallucinációk” miatt;
- egységesebbé és „túl tisztává” teszi-e az online írást;
- hivatkozik-e forrásokra;
- alacsony szemantikai sűrűségű szövegeket hoz-e létre;
- illetve egyfajta monokultúrához vezet-e, ahol eltűnnek az egyedi hangok.
A kutatók a 2022 augusztusa és 2025 májusa közötti 33 hónapból gyűjtöttek weboldalmintákat. A kivont szövegeket a Pangram v3 nevű AI-detektáló szoftverrel elemezték, amely a tesztelt eszközök közül a legjobb felismerési arányt mutatta. Az így azonosított AI-tartalmakat használták a további hipotézisek vizsgálatához.
Például annak vizsgálatára, hogy az AI növeli-e a hamis állítások számát, tényszerű állításokat emeltek ki, majd emberi tényellenőrzőkkel ellenőriztették azokat. A forráshivatkozások meglétét a kifelé mutató linkek sűrűségének mérésével elemezték.
A kutatók meglepetésére a hat vizsgált feltevésből csak kettő bizonyult igaznak: az AI csökkenti a szemantikai sokszínűséget és általánosságban pozitívabb hangvételűvé teszi az internetet, viszont nem növeli a hamis információk számát, és nem hagyja el a forrásmegjelöléseket.
Doležal szerint ugyanakkor elképzelhető, hogy az AI növeli az ellenőrizhetetlen állítások számát – azokat, amelyeket nem lehet a jelenlegi tényellenőrző eszközökkel vizsgálni. „Az is lehet, hogy az internet eleve nem volt különösebben az igazsághoz ragaszkodó közeg” – mondta.
A kutatók jelenleg azon dolgoznak, hogy folyamatos megfigyelő eszközzé alakítsák a kidolgozott rendszert, hogy na csak egy statikus tanulmány legyen. Szeretnék részletesebben is elemezni, melyik weboldaltípusokat érinti leginkább a változás, például kategóriák vagy nyelvek szerint.
Doležal szerint az ilyen kutatások kulcsfontosságúak az internet jövője szempontjából: „Ahogy az AI által generált tartalom terjed, a kihívás az, hogy megtaláljuk ezeknek a modelleknek a szerepét úgy, hogy ne egy steril és ismétlődő webet hozzanak létre. Ha nem kényszerítjük őket teljesen szabálykövető és egyetértő működésre, hanem hagyunk bennük némi egyediséget, akkor inkább kreatív partnerekké válhatnak, nem pedig az emberi hang helyettesítőivé.”
Fotó: Pixabay

