ChatGPT-4.5 kalon pragun e Testit të Turingut

Që në vitin 1950, në agimin e epokës së kompjuterëve, matematikani dhe shkencëtari britanik i kompjuterëve, Alan Turing, e dinte se makinat një ditë do t’i rivalizonin aftësitë bisedore të njerëzve. Për të ilustruar këtë ide, Turingu zhvilloi testin e tij të famshëm që mban emrin e vet, testi i Turingut, për të matur nëse një makinë është bërë sintaksisht e padallueshme nga krijuesit e saj prej mishi e gjaku.

Në dekadat që pasuan, testi i Turingut është cilësuar shpesh si një pikë referimi tejet e rëndësishme për aftësitë e kompjuterëve dhe inteligjencës artificiale (IA). Dhe në një test të fundit, pjesëmarrësit ngatërruan GPT-4.5, modelin më të fundit të gjuhës së madhe (LLM) të OpenAI, për një njeri në 73 për qind të rasteve, shumë mbi normën 50 për qind të rastësisë. Një punim që diskuton rezultatet e këtij testi u ngarkua në serverin e publikimeve paraprake arXiv nga shkencëtarë të Universitetit të Kalifornisë në San Diego (UC San Diego) në fund të muajit të kaluar.

“Rezultatet përbëjnë provën e parë empirike që ndonjë sistem artificial kalon një test standard tre-palësh të Turingut,” shkruajnë autorët. “Këto rezultate kanë pasoja për debatet rreth llojit të inteligjencës që shfaqin modelet e mëdha gjuhësore dhe ndikimet sociale e ekonomike që ka të ngjarë të kenë këto sisteme.”

Megjithëse është mbresëlënëse, GPT-4.5 kishte disa “hile” nën mëngë për t’u paraqitur si njeri. Së pari, autorët i dhanë udhëzime modelit për të adoptuar një “personalitet njerëzor,” që në thelb rezultoi në tekste të mbushura me zhargon të internetit dhe përgjigje disi të çuditshme nga ana sociale. Pikërisht me këtë persona, LLM-ja arriti rezultatet më të larta, ndërsa pa të, GPT-4.5 ishte shumë më pak bindëse, me vetëm 36 për qind shkallë suksesi.

Këto rezultate u arritën në një test trepalësh, që do të thotë se pjesëmarrësit bisedonin njëkohësisht me një njeri dhe një IA dhe përpiqeshin të identifikonin se cili ishte cili. Cameron Jones, një nga bashkautorët e studimit, e përshkroi këtë lloj testi (që zgjat rreth pesë minuta) si “versionin më të pranuar gjerësisht” të testit të Turingut në një postim në X.

Edhe pse është një arritje inxhinierike e jashtëzakonshme, kalimi i testit të Turingut nuk është tregues që kemi zhvilluar tashmë inteligjencën artificiale të përgjithshme (AGI), kupa e shenjtë e botës së IA-së. Testi i Turingut vlerëson vetëm një lloj inteligjence, dhe disa argumentojnë se njerëzit zotërojnë nëntë forma të ndryshme inteligjence, përfshirë ndërpersonalen, intrapersonalen, vizual-hapësinoren dhe ekzistencialen. Për këtë arsye (dhe jo vetëm), disa e konsiderojnë testin e Turingut si të vjetruar.

Megjithatë, disa mendojnë se ky moment përfaqëson më shumë një të vërtetë për njerëzit, sesa për modelet e IA-së. Studimi vëren, për shembull, se shumë pjesëmarrës e zgjodhën GPT-4.5 bazuar në atmosferë më shumë se në logjikë, mbështeteshin në emocione dhe ndjesi në vend që të bënin pyetje faktike ose të analizonin arsyetimin e modelit. John Nosta, themelues i grupit të ekspertëve NostaLab, shkroi në Psychology Today se testi i Turingut është “përmbysur”:

“Nuk është më një test për makinat, por për ne. Dhe gjithnjë e më shumë, ne po dështojmë. Sepse nuk e vlerësojmë më njerëzimin bazuar në substancën njohëse. E vlerësojmë sipas ndjesisë që na jep. Dhe ajo ndjesi, ‘instinkti’, ‘atmosfera’, është tani pika e dobët e dallimit tonë. Dhe modelet gjuhësore, veçanërisht kur janë të përgatitura me ‘persona’, mund ta shfrytëzojnë këtë me një saktësi befasuese.”

Edhe pse ky test nuk përfaqëson momentin e shumëpërfolur të singularitetit, kur inteligjenca artificiale kapërcen tonën, Jones tha në X se është e mundur që LLM-të tani mund të zëvendësojnë njerëzit në biseda të shkurtra, duke çuar në automatikim të punëve, sulme të avancuara të inxhinierisë sociale dhe prishje më të përgjithshme të shoqërisë.

Kjo është arsyeja pse është më e rëndësishme se kurrë më parë të rregullohet zhvillimi i IA-së, ose të paktën t’i qasemi me një kujdes të madh. Fatkeqësisht, qeveria amerikane aktualisht nuk ka asnjë oreks për të frenuar ambiciet gjithnjë e më njerëzore të inteligjencës artificiale.

Social Media

VIDEOLAJM / Belbëzime dhe ngatërrime fjalësh në Kuvend, gjendja e çuditshme e Oerd Bylykbashit teksa lexonte raportin për Ballukun

Belinda Balluku dhe standardi i reagimit publik: kur heshtja bëhet formë përgjegjësie institucionale

Kuvendi voton, rrëzohet me 82 vota kërkesa e SPAK për imunitetin e Ballukut

FOTOLAJM / PD shfaqet si ‘dashnore’ e SPAK, por fytyra e Bylykbashit flet shumë…

Qëndrimi i Ramës, si burrë shteti

Sherri në Parlament, Sekretariati i Etikes përjashton me 10 ditë nga Kuvendi Bardhin dhe Balliun

Arrest apo presion procedural? Pse kërkesa për masë më të rëndë ndaj Belinda Ballukut ngre më shumë pikëpyetje sesa prova

Argumentet/ Pse Partia Socialiste e rrëzoi kërkesën e SPAK?

PS nuk jep aprovim për arrestimin e Ballukut

Manja: S’gjykojmë fajësinë apo provat! Kuvendi nuk zëvendëson gjykatën!

Ulsi Manja prezanton raportin e PS për Ballukun: Narrativa e SPAK se mund të prishë provat apo të arratiset, hipotetike

“Nuk e kam penguar e as do e pengoj drejtësinë”, Balluku: Do vijoj rrugëtimin tim për të nxjerr të vërtetën në dritë

Do ta dominoj Barrikadën e Bibës me lojë dhe rezultat” – Deklarata e fortë e Endri Vrapit

Rrëfimi i ndjerë i këngëtares shqiptare për të birin: Ishte ndyshe nga fëmijët e tjerë… doja t’i jepja fund jetës

E premte me diell dhe temperatura deri në 19 gradë celcius…parashikimi i motit për sot

Dosja e Erion Veliajt, caktohet me short treshja gjykuese/ Do gjykohet nga Ëngjëllushe Tahiri, Alma Kodraliu dhe Rudina Palloj

Zbulohet mesazhi i Ramës për Ballukun para largimit të saj nga Qeveria: Doni apo nuk doni ju, është e vështirë…