OpenAI a prezentat aseară un agent integrat în ChatGPT care poate simula modul în care utilizator folosește un PC. La propriu agentul folosește un “computer virtual” pentru a rezolva sarcini complexe și mixte. Adică poate căuta informații pe diverse site-uri, le poate extrage, poate interacționa cu site-urile respective și poate chiar să folosească diverse aplicații pentru a genera documente, prezentări sau grafice.
OpenAI spune că agentul poate să lucreze în interesul utilizatorului pentru a vizualiza un calendar și să pregătească utilizatorul pentru viitoare întâlniri cu clienții, să caute și să cumpere anumite produse online, să planifice un meniu pentru cine și să găsească și ingredientele de cumpărat șamd.
Agentul OpenAI folosește și el niște instrumente proprii, precum un browser text, un browser cu interfață vizuală și un terminal pentru a face el diverse script-uri. În principiu, acest nou agent este bazat pe două produse deja existente de la ChatGPT. Este vorba despre Deep Search și Operator.
În prezentare, unul dintre cei de la OpenAI îl folosește pentru a planifica participarea la o nuntă. Îl roagă pe agent să-i găsească o ținută care să fie potrivită pentru eveniment și pentru vremea de afară, să îi găsească locuri la hotel și să găsească și un cadou pentru miri.
Partea interesantă este că el arată live tot ceea ce face, deci îl poți supraveghea dacă vrei și chiar îl poți întrerupe pentru a-i mai adăuga detalii sau cerințe. Pe măsură ce agentul avansează în rezolvarea cerinței tale, poate să îți ceară singur mai multe detalii sau să te roage să confirmi anumite lucruri sau să îți ceară permisiune (de exemplu înainte să trimită un mail).
Nu-i extrem de rapid, îi ia 15-20 de minute ca să rezolve o cerință, în funcție de complexitatea ei, dar hey, probabil că nouă ne-ar lua în anumite cazuri și mai multe ore. Pare că nu este genul de unealtă căreia să-i dai prompt-ul și să aștepți să-ți genereze rezultatul, ci mai degrabă îi dai promptul și o lași să ruleze în background.
Nu știu cum vă sună vouă asta, dar mie îmi sună a și mai multe job-uri anulate. Pur și simplu agentul acesta ar putea să facă lejer un job low-level în domeniul IT. De exemplu să facă troubleshooting și să recomande sau chiar să aplice diverse soluții după un manual de instrucțiuni.
Se pare că OpenAI nu a lansat un browser, așa cum scriam al începutul săptămânii, însă un astfel de agent mi se pare mult mai avansat. Și acest agent este doar varianta OpenAI. Însă și Anthropic (care-i are pe cei de la Amazon în spate) are un tool similar, denumit “Computer use”. Probabil că următorul pas este ca și Google să anunțe ceva similar pentru Gemini. De fapt probabil că fiecare companie de AI va lansa ceva simiar anul acesta.
Dacă vreți să vedeți prezentarea, o las mai jos:
Technologia!

