Tehnologie

Meta Platforms a lansat marţi cea mai mare versiune a modelelor sale de inteligenţă artificială Llama 3

By Bogdan Ciuca

Posted on 24 iulie 2024

Foto: iStock

Meta Platforms a lansat marţi cea mai mare versiune a modelelor sale de inteligenţă artificială Llama 3, cea mai mare parte gratuită, oferind abilităţi multilingve şi măsurători generale de performanţă care urmează modelelor plătite ale unor rivali precum OpenAI, transmite Reuters.

Noul model Llama 3 poate conversa în opt limbi, poate scrie cod de calculator de calitate superioară şi poate rezolva probleme de matematică mai complexe decât versiunile anterioare, a spus compania-mamă Facebook în postări pe blog şi într-un document de cercetare care anunţă lansarea.

Cele 405 de miliarde de parametri ai săi, sau variabilele pe care algoritmul le ia în considerare pentru a genera răspunsuri la întrebările utilizatorilor, depăşesc versiunea anterioară lansată anul trecut, deşi Llama 3 este încă mai mică decât modelele de top oferite de concurenţi.

În schimb, modelul OpenAI GPT-4 are 1.000 de miliarde de parametri, iar Amazon investeşte într-un model cu 2.000 de miliarde de parametri.

Lansarea vine în timp ce companiile tehnologice se întrec pentru a arăta că portofoliile lor în creştere de modele lingvistice mari, avide de resurse, pot oferi câştiguri suficient de semnificative în domenii problematice cunoscute, cum ar fi raţionamentul avansat, pentru a justifica sumele uriaşe care au fost investite în ele.

Pe lângă modelul său emblematic cu 405 miliarde de parametri, Meta lansează şi versiuni actualizate ale modelelor Llama 3, mai mici, de 8 miliarde şi 70 de miliarde de parametri, introduse iniţial în primăvară, a spus compania.

Toate cele trei modele noi sunt multilingve şi pot gestiona solicitări mai mari ale utilizatorilor printr-o ”fereastră de context” extinsă, despre care şeful AI generativ al Meta, Ahmad Al-Dahle, a spus că ar îmbunătăţi experienţa de generare a codului de computer în special.

”Acesta a fost feedbackul numărul unu pe care l-am primit de la comunitate”, a declarat Al-Dahle pentru Reuters, într-un interviu, menţionând că ferestrele de context mai mari oferă modelelor ceva asemănător cu o memorie mai lungă care ajută la procesarea cererilor în mai mulţi paşi.

Meta îşi lansează modelele Llama în mare parte gratuit pentru utilizarea de către dezvoltatori, o strategie pe care directorul general Mark Zuckerberg spune că va da roade sub formă de produse inovatoare şi un angajament mai mare pe reţelele sociale de bază ale companiei.

Unii investitori au ridicat totuşi din sprâncene cu privire la costurile aferente.

De asemenea, compania are de câştigat dacă dezvoltatorii optează pentru a folosi modelele sale gratuite în detrimentul celor plătite, ceea ce ar submina modelele de afaceri ale rivalilor săi.

Odată cu anunţul său, Meta a prezentat câştiguri la testele cheie de matematică şi cunoştinţe care ar putea face acea perspectivă mai atrăgătoare.

Deşi progresul în dezvoltarea AI este dificil de măsurat, rezultatele testelor furnizate de Meta par să sugereze că cel mai mare model Llama 3 al său aproape ete egal şi, în unele cazuri, depăşeşte Sonnetul Claude 3.5 al Anthropic şi GPT-4o al OpenAI, care sunt considerate pe scară largă drept cele mai puternice două modele de frontieră de pe piaţă.

Pe criteriul de referinţă MATH al problemelor de cuvinte matematice la nivel de competiţie, de exemplu, modelul lui Meta a înregistrat un scor de 73,8, în comparaţie cu 76,6 al lui GPT-4o şi 71,1 al lui Claude 3.5 Sonnet.

Modelul a obţinut 88,6 la MMLU, un punct de referinţă care acoperă zeci de materii din matematică, ştiinţe şi ştiinţe umaniste, în timp ce GPT-4o a obţinut 88,7 şi Claude 3,5 Sonnet a obţinut 88,3.

În lucrarea lor, cercetătorii Meta s-au referit, de asemenea, la viitoarele versiuni ”multimodale” ale modelelor, care urmează să fie lansate la sfârşitul acestui an, cu capacităţile de imagine, video şi vorbire pe stratul modelului de text de bază Llama 3.

Experimentele timpurii arată că acele modele pot funcţiona ”competitiv” cu alte modele multimodale, cum ar fi Gemini 1.5 al Google şi Claude 3.5 Sonnet al Anthropic, au spus ei.