2 Minutės
Apple tyrimas atskleidžia generatyvaus dirbtinio intelekto ribotumus atliekant sudėtingas užduotis
Naujausi Apple atlikti tyrimai atskleidė reikšmingas pažangių generatyviojo dirbtinio intelekto (DI) modelių ribas sprendžiant problemas. Tyrimas parodė, kad šie DI modeliai geba įveikti vidutinio sudėtingumo užduotis, tačiau susiduria su sunkumais spręsdami sudėtingesnes užduotis, taip atskleisdami esminius skirtumus tarp mašininio apdorojimo ir žmogaus mąstymo.
DI modelių vertinimas pagal skirtingą užduočių sudėtingumą
Apple mokslininkai vertino naujausių didelių loginių modelių (DLR) – tokių kaip Claude 3.7 Sonnet Thinking ir DeepSeek-R1 – veikimą. Šie modeliai buvo testuojami kontroliuojamose aplinkose, naudojant klasikines mįsles, tokias kaip Hanojaus bokštas ar perkėlimo per upę užduotys. Tikslas buvo įvertinti ne tik galutinius DI pateiktus atsakymus, bet ir jų vidinius sprendimų priėmimo procesus.
Tyrimo rezultatai atskleidė, kad paprastesnėse situacijose tradiciniai kalbos modeliai (LLM), neturintys aiškių loginio samprotavimo mechanizmų, veikė tiksliau ir sunaudojo mažiau skaičiavimo išteklių. Didėjant užduoties sudėtingumui, modeliai, naudojantys struktūruotus sprendimų priėmimo metodus, pavyzdžiui, „mąstymo grandinės“ metodą, rodė pagerėjimą. Tačiau susidūrus su itin sudėtingomis užduotimis, visi DI modeliai prarasdavo tikslumą, nors skaičiavimo išteklių pakako.
Netikėti elgsenos modeliai DI samprotavime
Išsamesnė analizė atskleidė netikėtus DI modelių elgsenos modelius. Pradžioje didėjant užduoties sudėtingumui, jų samprotavimo trukmė ilgėjo. Tačiau artėjant nesėkmei, šis procesas staiga trumpėjo, nors DI modeliams išteklių netrūko.
Be to, net pateikus aiškius nuoseklius instrukcijų žingsnius, modeliams sunkiai sekėsi tiksliai jas vykdyti sprendžiant sudėtingas užduotis. Tai rodo esminius loginių gebėjimų trūkumus. Pastebėta ir tai, kad žinomos užduotys buvo sprendžiamos daug sėkmingiau nei mažai žinomos, todėl aiškiai matoma didelė priklausomybė nuo treniravimo duomenų, o ne nuo tikrųjų, apibendrinamų samprotavimo gebėjimų.
Išvados
Apple tyrimas pabrėžia dabartinius generatyvinio dirbtinio intelekto modelių ribotumus, mėginant imituoti žmogišką samprotavimą, ypač sprendžiant sudėtingas problemas. Šie rezultatai parodo būtinybę toliau tobulinti DI technologijas ir siekti sumažinti atotrūkį tarp mašininio apdorojimo ir žmogaus pažintinių savybių.

Komentarai