Alapmodell
Az alapmodell, amely nagy X-modell (LxM) néven is ismert, egy gépi tanulási vagy mély tanulási modell, amely hatalmas adatkészleteken lett kiképezve, így a felhasználási esetek széles körében alkalmazható. Az alapmodellek leggyakoribb példái a generatív mesterséges intelligencia alkalmazások, mint például a Nagy Nyelvi Modellek (Large Language Models).[1]
Az alapmodellek építése gyakran rendkívüli mértékben erőforrás-igényes, a legfejlettebb modellek több száz millió dollárba kerülnek, hogy fedezzék a hatalmas adathalmazok beszerzésének, gondozásának és feldolgozásának költségeit, valamint a képzéshez szükséges számítástechnikai teljesítményt. Ezek a költségek a kifinomult infrastruktúra, a meghosszabbított képzési idők és a fejlett hardverek, például a GPU-k iránti igényből származnak. Ezzel szemben egy meglévő alapmodellnek egy adott feladatra adaptálása, vagy közvetlen használata sokkal kevésbé költséges, mivel ez kihasználja az előre betanított képességeket, és jellemzően csak a kisebb, feladatspecifikus adatkészletek finomhangolását igényli.
Az alapmodellek korai példái a nyelvi modellek (LMs), mint például az OpenAI GPT-sorozata és a Google BERT-je.[2][3] Az alapmodelleket, a szövegek mellett számos modalitáson keresztül is fejlesztették — így például a DALL-E-t és a Flamingót[4] a képekhez, a MusicGent[5] a zenéhez, az RT-2-t[6] pedig a robotvezérléshez. Az alapmodelleket olyan területekre is fejlesztik, mint a csillagászat,[7] a radiológia,[8] a genomika, a zene,[9] a kódolás,[10] az idősoros előrejelzés,[11] a matematika[12] és a kémia.[13]
Definíciók
[szerkesztés]A Stanfordnak az Emberközpontú Mesterséges Intelligenciáért Intézete (Stanford Institute for Human-Centered Artificial Intelligence - HAI) Alapítványi Modellek Kutatóközpontja (Center for Research on Foundation Models - CRFM) 2021 augusztusában alkotta meg az „alapmodell” kifejezést[14]. Ez „bármelyik széles körű adatokon (általában nagymértékű önfelügyeletet alkalmazva) kiképzett modellre vonatkoztatható, amely feladatok széles köréhez adaptálható (pl. finom hangolással). Az "alapmodell" kifejezés megalkotása azon a megfigyelésükön alapult, hogy a már létező kifejezések, bár átfedték egymást, nem voltak megfelelőek, így azt állították, hogy " a (nagy) nyelvi modell " kifejezés túl szűk, mivel a hangsúly nem csak a nyelven van; az "önfelügyelt modell" túlságosan specifikus a képzési célhoz; az "előképzett modell" pedig azt sugallja, hogy a figyelemre méltó műveletek mind az "előképzés után" történnek.[15] Az "alapmodell" kifejezést választották az "alapozó modell" helyett[16], mert az "alapozás" azt implikálná, hogy ezek a modellek az "alapmodellektől" eltérő módon nyújtanak alapelveket.[17]
Az alapmodellek kormányzati szabályozása során jogi definíciók születtek.
- Az Egyesült Államokban A mesterséges intelligencia veszélytelen, biztonságos és tisztességes fejlesztéséről és használatáról szóló végrehajtási rendelet (Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence) úgy definiálja az alapmodellt, mint "olyan mesterséges intelligencia modellt, amely széles körű adatokon lett kiképezve; általában önfelügyeletet használ; legalább tízmilliárd paramétert tartalmaz; és sokféle környezetben alkalmazható".[18]
- Az Egyesült Államokban a Don Beyer (D, VA) és Anna Eshoo (D, CA) parlamenti képviselők által javasolt 2023-as Mesterséges intelligencia alapmodell átláthatósági törvény (AI Foundation Model Transparency Act)[19] a következőképpen definiálja az alapmodellt: "ez olyan mesterséges intelligencia-modell, amely széles körű adatokon van kiképezve, általában önfelügyeletet használ, legalább 1 000 000 000 paramétert tartalmaz, sokféle környezetben és kontextusban alkalmazható, vagy könnyen módosítható egy adott kontextushoz, hogy magas szintű teljesítményt mutasson olyan feladatokban, amelyek komoly kockázatot jelenthetnek a biztonságra, a nemzetgazdasági biztonságra, a nemzeti közegészségügyre, vagy a közbiztonságra, vagy ezek bármely kombinációjára."
- Az Európai Unióban, az Európai Parlamentnek az EU mesterséges intelligencia törvényével (E.U. AI Act) kapcsolatos egyeztetett álláspontja úgy definiálja az alapmodellt, mint "olyan mesterséges intelligencia modellt, amely széles körű adatokon lett kiképezve, a kimenetek általánosságára tervezték és jellgzetes egyedi feladatok széles körére adaptálható".
- Az Egyesült Királyságban a Verseny- és Piachatóság AI alapmodellekről készült első jelentése (Competition and Markets Authority AI Foundation Models: Initial Report) úgy definiálja az alapmodellt, mint "az AI-technológia egy olyan típusát, amely hatalmas mennyiségű adatra van kiképezve, és amely sokféle feladathoz és művelethez adaptálható".
Csak az Egyesült Államok definíciói hivatkoznak az alapmodellek méretére és a köztük levő nagyságrendbeli különbségekre. Beyer és Eshoo definíciója azt is kiemeli, hogy az alapmodelleknek el kell érniük bizonyos teljesítményszintet, amely potenciális veszélyt jelent. Ezzel szemben, az EU definíciója szerint, a modellnek általános outputra tervezettnek kell lennie. Valamennyi definíció egyetért abban, hogy az alapmodelleket az adatok széles skáláján kell kiképezni, hogy számos területen alkalmazhatók legyenek.
Történet
[szerkesztés]Az alapmodellek technológiailag olyan bevált gépi tanulási technikák felhasználásával épülnek fel, mint a mély neurális hálózatok (deep neural networks), a transzfer tanulás (transfer learning) és az önfelügyelt tanulás (self-supervised learning). Az alapmodellek eltérnek a korábbi technikáktól, mivel általános célú modellek, amelyek újrafelhasználható infrastruktúraként működnek, nem pedig egyedi és egyszeri feladat-specifikus modellek.
A számítógépes parallelizmus (pl. a CUDA GPU-k) és a neurális hálózati architektúra új fejlesztései (pl. a transzformerek), valamint a betanítási adatok minimális felügyelet melletti fokozott felhasználása, mind hozzájárultak az alapmodellek térnyeréséhez. Az alapmodellek, a 2010-es évek végén, a mélytanulási modellek legújabb hullámaként kezdtek megvalósulni.[20] A mély tanulással kapcsolatos legtöbb korábbi munkához képest, ezek a nyelvi modellek demonstrálták a sokkal nagyobb, web-alapú adatkészleteken, önfelügyelt (self-supervised) célokkal (pl. a következő szó előrejelzése egy nagy szövegkorpuszban) való képzésben rejlő lehetőségeket. Ezek a korábbi munkákra, például a word2vec-re és a GloVe-re épülő megközelítések, eltértek a korábbi, felügyelt (supervised) megközelítésektől, amelyek annotált adatokat (pl. tömeges forrásból származó címkéket) igényeltek.
A Stable Diffusion és a ChatGPT 2022-es kiadása (amelyet eredetileg a GPT-3.5 modell hajtott) vezettek ahhoz, hogy az alapmodellek és a generatív mesterséges intelligencia széles körben elterjedt a közbeszédben. A LLaMA, a Llama 2 és a Mistral 2023-as kiadása pedig hozzájárult ahhoz, hogy nagyobb hangsúly helyeződjön arra, hogy hogyan adják ki az alapmodelleket sok támogatást és ellenőrzést igénylő, nyílt alapmodellekként.[21][22]
Kapcsolódó fogalmak
[szerkesztés]Határmodellek
[szerkesztés]Bizonyos, rendkívül fejlett alapmodellekre a „határmodellek" kifejezést használják, amely arra utal, hogy ezek potenciálisan „veszélyes képességekkel rendelkeznek ahhoz, hogy komoly közbiztonsági kockázatot jelentsenek".[23] Ezek a „veszélyes képességek" az ilyen modellek véletlen vagy szándékos rossz célokra való használatából fakadnak. Ez utóbbi, a modellek hatalmas erejével társulva, súlyos károkhoz vezethet. Néhány AI-kutató feltételezése szerint az alapmodellek folyamatos fejlődésével, szinte minden következő generációs alapmodell határmodellnek minősül majd.
Mivel a veszélyes képességek fogalma eredendően szubjektív, nincs szigorú meghatározás arra vonatkozóan, hogy mely alapmodellek minősülnek határmodellnek. Létezik azonban néhány általánosan elfogadott elképzelés a kellően veszélyes képességekről:
- Új biológiai, vagy vegyi fegyverek tervezése és egységesítése.[24]
- Meggyőző, személyre szabott dezinformáció előállítása és terjesztése, minimális felhasználói utasítással[25]
- Soha nem látott támadó kiberképességek kihasználása[26]
- Az emberi irányítás kikerülése megtévesztő eszközökkel
A határmodellek egyedi képességei miatt nehéz hatékonyan szabályozni fejlesztésüket és bevezetésüket. Felbukkanó természetük miatt, az új veszélyes képességek önmagukban is megjelenhetnek a határmodellekben, mind a fejlesztési szakaszban, mind a telepítésük után.[23] Ráadásul, mivel a határmodellek a telepítésük után is folytatják az adaptálódást, továbbra is nehéz a már telepített modellekből származó összes kárt enyhíteni. Ha, történetesen, egy határmodell nyílt forráskódú, vagy online kiadásra kerül, a modell gyorsan elterjedhet, ami az elszámoltathatóság hiánya miatt, tovább akadályozza a szabályozást.
Általános célú MI
[szerkesztés]A felhasználási esetek széles skálájához való alkalmazkodó képességük miatt, az alapmodelleket időnként az általános célú mesterséges intelligencia példáinak tekintik. Az EU MI-törvényének megalkotásakor az Európai Parlament megállaapította, hogy az általános célú mesterséges intelligencia-technológiák új hulláma alakítja a teljes mesterséges intelligencia-ökoszisztémát.[27] Az ökoszisztéma teljesebb szerkezete, a konkrét általános célú MI-rendszerek tulajdonságain túl, az MI-politika és -kutatás tervezését is befolyásolja.[28] Az általános célú mesterséges intelligencia rendszerek gyakran megjelennek az emberek mindennapi életében olyan alkalmazásokon és eszközökön keresztül is, mint a ChatGPT vagy a DALL-E.
Az olyan kormányzati szervek, mint az EU Parlament, kiemelt prioritásúként határozták meg az általános célú mesterséges intelligencia, így például az alapmodellek szabályozását. Az általános célú mesterséges intelligencia rendszereket gyakran nagy méret, átláthatatlanság és felbukkanó képességek jellemzik, amelyek mindegyike okozhat nem szándékolt károkat. Az ilyen rendszerek a későbbi alkalmazásokra is nagy hatással vannak, ami tovább fokozza a szabályozás szükségességét. A kiemelkedő jogszabályok tekintetében, számos érdekelt fél szorgalmazta, hogy az EU MI-törvénye tartalmazzon korlátozásokat az általános célú MI-rendszerekre nézve, amelyek mindegyike az alapmodellekre is vonatkozna.
Technikai részletek
[szerkesztés]Modellezés
[szerkesztés]Ahhoz, hogy egy alapmodell hatékonyan általánosítható legyen, gazdag reprezentációkat kell szereznie a képzési adatokról. Ennek egyik eredményeként, az alapmodellek építése során, gyakran előnyben részesítik a nagy léptékű adatokat hatékonyan feldolgozó, expresszív modell architektúrákat. Jelenleg, számos változatában, a Transzformer architektúra a de facto választás az alapmodellek építéséhez.[29]
Képzés
[szerkesztés]Az alapmodellek a képzési célkitűzés(ek) optimalizálásával épülnek fel: egy matematikai függvény határozza meg, hogy a modell paraméterei hogyan frissüljenek a modellnek a betanítási adatokon alapuló előrejelzései alapján.[30] A nyelvi modelleket gyakran képezik ki a következő tokenek előrejelzésére, amely azt jelenti, hogy a modell, bizonyos mértékben, képes megjósolni egy sorozatban a következő tokent. A képmodelleket általában kontrasztív tanulási vagy diffúziós képzési célokkal képezik. A kontrasztív tanuláshoz a képeket véletlenszerűen kibővítik, mielőtt a modell reprezentációkból eredő hasonlóság alapján értékelnék őket. A diffúziós modelleknél a képek zajosak, a modell pedig megtanulja fokozatosan megszüntetni a zajt a célnak megfelelően. Léteznek multimodális képzési célok is, amikor egyes modellek képzése során a képeket és a szövegeket elkülönítik, míg mások egyidejűleg vizsgálják ezeket.[31] Általánosságban elmondható, hogy az alapmodellek képzési céljai elősegítik az adatok széles körben hasznos reprezentációinak megtanulását.
Az alapmodellek és az őket működtető nagyobb adatkészletek térnyerésével, egy képzési célnak, az értelmes adatpontok érdekében, képesnek kell lennie internetes léptékű adatmennyiség elemzésére. Ezen túlmenően, mivel az alapmodelleket általános feladatok megoldására tervezték, a képzési céloknak teljeskörűeknek kell lenniük, vagy képesnek kell lenniük az adott tartományon belüli lehetőségek széles skálájának kezelésére. Végül, az alapmodell képzési céloknak arra kell törekedniük, hogy jól skálázhatók, és számítástechnikalag hatékonyak legyenek. Mivel a modell mérete és a számítási teljesítmény egyaránt releváns korlátok, a képzési célnak képesnek kell lennie az ilyen szűk keresztmetszetek leküzdésére.
Adatok
[szerkesztés]A nagy mennyiségű adaton kiképzett alapmodellek a „minél több adat, annál jobb” elve alapján működnek.[32] A teljesítményértékelés rámutatott azonban arra, hogy a több adat ugyan általában jobb teljesítményt eredményez, de az adatok mennyiségének növekedésével problémák is felmerülnek. Az adatméret növekedésével ugyanis egyre nehezebbé válnak olyan feladatok, mint az adatkészlet kezelése, az adatok új alkalmazásokba való integrálása, az adatlicencek betartásának biztosítása és az adatminőség megőrzése. Az alapmodellekkel szemben támasztott speciális igények csak súlyosbították ezeket a problémákat, mivel a nagy alapmodelleknél továbbra is jellemző, hogy nyilvános, webről lekapart adatokat használnak. Az alapmodellek tartalmazzák a keresőmotorok adatait és a SEO metacímkék adatait is. A nyilvános webes adatok továbbra is bőséges erőforrást jelentenek, de a képzési folyamatba való sikeres integrálásukat megelőzően, szigorú moderálást és adatfeldolgozást igényelnek az alapmodell-fejlesztőktől.[33]
Az alapmodellek képzése gyakran azzal a kockázattal jár, hogy megsértik a felhasználók magánéletét, mivel a személyes adatok bizonyos módokon, a megadott körön túl is nyilvánosságra hozhatók, gyűjthetők, vagy felhasználhatók. Még ha nem is szivárog ki személyes adat, a modellek akaratlanul is veszélyeztethetik a biztonságot az alapmodell tanult viselkedéséből eredően.[34] Az adatminőség egy másik kulcsfontosságú szempont, hiszen a webről lekapart adatok gyakran torzított, ismétlődő és mérgező anyagokat tartalmaznak. Egyes alapmodellek üzembe helyezése után továbbra is gondot okoz a jó minőségű adatok biztosítása, mivel az adatok kis részhalmazaiból továbbra is felbukkanhat nemkívánatos viselkedés.
Rendszerek
[szerkesztés]Az alapmodellek mérete az őket futtató számítógépes rendszereken is problémákat okozhat. Az átlagos alapmodell túl nagy ahhoz, hogy egyetlen gyorsító memóriában lehessen futtatni és már a kezdeti betanítási folyamat is drága erőforrásokat igényel.[35] Az előrejelzések szerint, az ilyen jellegű problémák a jövőben tovább súlyosbodnak, ahogy az alapmodellek új magasságokba emelkednek. E kényszerűség miatt, a kutatók elkezdték vizsgálni a modell méretének tömörítési lehetőségeit a szoros modellkövetkeztetések alkalmazásával.
A GPU-k (Graphics Processing Units - grafikus adatfeldolgozó egységek) a gépi tanuláshoz leggyakrabban választott számítástechnikai hardverek, a nagy memóriájuk és az erős teljesítményük miatt. A tipikus alapmodell-képzéshez sok GPU-ra van szükség, amelyek mindegyikét párhuzamosan, gyors összeköttetésekkel csatlakoztatják egymáshoz. Ezen a területen egyre nagyobb dilemmához vezetett az a tény, hogy a megfelelő hatékonyságú GPU beszerzése számos alapmodell-fejlesztő számára kihívást jelent. A nagyobb modellek nagyobb számítási teljesítményt igényelnek, de gyakran a jobb számítási hatékonyság árán. Mivel a képzés továbbra is időigényes és drága, a számítási teljesítmény és a számítási hatékonyság közötti kompromisszum miatt csak néhány kiválasztott vállalat engedheti meg magának a nagy, korszerű alapmodellek gyártási költségeit. Egyes technikák, például a tömörítés és a desztilláció megfizethetőbbé tehetik az inferenciát, de nem tudják teljesen leküzdeni ezt a gyengeséget.
Méretezés
[szerkesztés]Az alapmodellek pontossága és képességei gyakran előre láthatóan a modell méretével és a betanítási adatok mennyiségével. arányosak. Konkrétabban, felfedeztek olyan skálázási törvényeket, azaz, adatalapú, empirikus trendeket, amelyek az erőforrásokat (adatok, modell mérete, számítási használat) a modell képességeihez kapcsolják. Különösen a számítás, az adatkészlet mérete és a paraméterek száma határozza meg egy modell minőségét, amelyek mindegyike hatványtörvény-kapcsolatot mutat a végteljesítménnyel.
Bár, fedeztek már fel megtört skálázási törvényeket is, amelyekben ez a kapcsolat, (a törés(ek) nek nevezett pontokon), finoman átlényegül egy bizonyos kitevőjű hatványtörvényről egy másik (eltérő) kitevővel rendelkező hatványtörvénnyé. Ha az ember nem gyűjti ki valamelyik konkrét pontot a szünet(ek)hez közeledve (vagy az/ok után), nehéz lehet pontos következtetést levonni.
Adaptáció
[szerkesztés]Az alapmodellek eleve többcélúak, ezért ezeknek a modelleknek egy adott felhasználási esetre való alkalmazásához valamilyen adaptációra van szükség. Minimálisan adaptálni kell a modelleket a szóbanforgó feladat (a feladat részleteinek) elvégzéséhez, de gyakran jobb teljesítmény érhető el az érintett területhez való, kiterjedtebb adaptációval (domain specializáció).
Számos módszer (pl. felszólítás, kontextuson belüli tanulás, finomhangolás, LoRA) különböző kompromisszumokat kínál az adaptáció költségei és a modellek specializációjának mértéke között. Az alapmodell adaptálásakor figyelembe kell venni néhány fő szempontot: a számítási költségvetést és az adatok elérhetőségét. Az alapmodellek nagyon nagyok lehetnek, méretüket tekintve akár billió paraméteresek is, így az alapmodell teljes adaptálása számítástechnikailag költséges lehet. Ezért a fejlesztők időnként csak az utolsó neurális réteget vagy csak a torzítási vektorokat adaptálják, hogy időt és helyet takarítsanak meg.[36] A különösen speciális alkalmazások esetében előfordulhat, hogy speciális adatok nem állnak rendelkezésre az alapmodell elégséges adaptálásához. Ilyen körülmények között az adatokat kézzel kell címkézni, ami nemcsak költséges, hanem szakértői tudást is igényelhet.
Értékelés
[szerkesztés]Az értékelés kulcsfontosságú része az alapmodellek kialakításának. Az értékelés nemcsak a nagy teljesítményű modellek előrehaladásának nyomon követését teszi lehetővé, hanem viszonyítási alapokat (benchmarks) is teremt a jövőbeli modellfejlesztéshez. Az érintettek az értékelésekre támaszkodnak a modell viselkedéseinek megértéséhez, és ezen viselkedések különböző tulajdonságaiba való bepillantáshoz. Hagyományosan az alapmodelleket egymáshoz viszonyítva olyan szabványosított feladat-benchmarkokon keresztül értékelik, mint az MMLU,[37] az MMMU,[38] a HumanEval,[39] és a GSM8K.[40] Figyelembe véve, hogy az alapmodellek többcélúak, egyre gyakrabban dolgoznak ki meta-benchmarkokat, amelyek aggregálják a különböző, alapul szolgáló benchmarkokat. Ilyen például az LM-Harness,[41] a BIG-Bench,[42] a HELM,[43] az OpenLLM Leaderboard,[44] a DecodingTrust,[45] és a HEIM.[46]
Mivel az alapmodellek hasznossága saját általános képességeiktől és a finomhangolt alkalmazások teljesítményétől függ, az értékelésnek mindkét mérőszámra ki kell terjednie. Ezért a megfelelő értékelésnek az alapmodell downstream alkalmazásainak aggregált vizsgálatán, valamint az alapmodell közvetlen tulajdonságainak vizsgálatán kell alapulnia. Az értékelés további objektivitása biztosítása érdekében, a már létező értékelési keretek némelyike az összes adaptációs erőforrást figyelembe veszi, ami, az összes érdekelt javára, még tájékozottabb elemzésekhez vezet.[47]
Ellátási lánc
[szerkesztés]Általános képességeik lehetővé teszik az alapmodellek számára, hogy egyedülálló szerepet töltsenek be a mesterséges intelligencia számos upstream és downstream technológia által táplált ökoszisztémájában[48]. Egy alapmodell betanítása többféle erőforrást igényel (pl. adatok, számítások, munkaerő, hardver, kód), hiszen az alapmodellek gyakran óriási mennyiségű adatot és számítást foglalnak magukban (amit számítási teljesítménynek is neveznek). Az alapmodellek nagy fejlesztési költségei, ugyanakkor nem drága adaptációs igényei miatt, az MI-környezet a mesterséges intelligencia-vállalatok egy kis csoportjára tolódott el, amelyek alapmodelleket készítenek a downstream adaptációhoz.[49] Így a legtöbb alapmodellt gyártó cég adatszolgáltatásra specializálódott (pl. Scale AI,[50] Surge AI[51]) és számítástechnikai szolgáltatást nyújtó (pl. Amazon Web Services, Google Cloud, Microsoft Azure) vállalatokhoz szervezi ki (outsource) ezt a lépést.
Ezután az alapmodell-fejlesztő átveszi az adatokat, és a beszerzett számítási eredményeket használja az alapmodell tényleges betanításához. Az alapmodell teljes felépítése után az adat- és munkaerőigények nagy része csökken. A fejlesztési folyamatnak ebben a szakaszában a hardver és a számítástechnika a legszükségesebb, és egyben, a legexkluzívabb erőforrás. A nagyobb és komplexebb mesterséges intelligencia betanításához kulcsfontosságú a megfelelő mennyiségű számítás. Azonban a számítástechnikai háttér néhány kiválasztott entitás kezében koncentrálódott, amelyektől a legtöbb alapmodell-fejlesztő függő helyzetbe került. Az alapmodell-fejlesztés ellátási lánca erősen ezen szolgáltatók köré összpontosul. A számítás is költséges; 2023-ban az MI-vállalatok a teljes tőkéjének több mint 80%-át számítási erőforrásokra költötték.[53]
Képességeik működtetéséhez az alapmodellek nagy mennyiségű általános adatot igényelnek. A korai alapmodellek csupán az internet részhalmazaiból lekapart adatokból nyerték az információt. Az alapmodellek méretének és hatókörének növekedésével egyre nagyobb mennyiségű internetes kaparásra lett szükség, amelynek eredményeként megnőtt a torzított, vagy mérgező adatok megjelenésének valószínűsége. Ezek a mérgező vagy elfogult adatok aránytalanul károsíthatják a marginalizált csoportokat, és súlyosbíthatják a meglévő előítéleteket.[54]
A felügyelet nélküli képzés során felmerült rossz minőségű adatok problémájának megoldása érdekében néhány alapmodell-fejlesztő kézi szűrést alkalmaz. Ez az adatmunka néven ismert gyakorlat magával hozta a saját problémáit.[55] Az ilyen kézi adat-méregtelenítést, a munkaerőköltségek csökkentése érdekében, gyakran kiszervezik, ami azt jelenti, hogy egyes dolgozók óránként kevesebb, mint 2 USA dollárt keresnek.
Az alapmodellt ezután a fejlesztőn, vagy egy külső szervezeten keresztül online tárolják. A megjelenést követően, más felek alkalmazásokat gyárthatnak az alapmodell alapján, akár finomhangolással, akár teljesen új célokra. Az emberek ezután hozzáférhetnek ezekhez az alkalmazásokhoz, hogy különféle eszközeiket szolgálják, lehetővé téve egy-egy alapmodell működését és széles közönséghez való elérését.
Kiadási stratégiák
[szerkesztés]Felépítése után egy alapmodell a sokféle lehetséges mód valamelyikén kerül kiadásra. Egy kiadásnak számos aspektusa van, ilyenek maga az eszköz, kinek van hozzáférése, idővel hogyan változik a hozzáférés, és a használat feltételei.[56] Mindezek a tényezők hozzájárulnak ahhoz, hogy az alapmodell hogyan befolyásolja a downstream alkalmazásokat. Az alapmodell kiadásának két leggyakoribb formája az API-kon (alkalmazásprogramozási felületeken) keresztül történő kiadás, és a közvetlen modell letöltés.
Amikor egy modellt API-n keresztül adnak ki, a felhasználók lekérdezhetik a modellt és kaphatnak válaszokat, de magához a modellhez nem férhetnek hozzá közvetlenül. Ehhez képest a közvetlenül letölthető modellhez a felhasználók hozzáférhetnek és módosíthatják azt. Gyakran mindkét kiadási stratégiát nyílt kiadásnak (open release) minősítik. A nyílt kiadás pontos meghatározása vitatott, de az Open Source Initiative definíciója mégfelel a széles körben elfogadott követelményeknek.
Néhány nyitott alapmodell: a PaLM 2, a Llama 2, a Granite és a Mistral. Mivel a nyílt alapmodellek jobban támogathatják a kutatást és könnyebben fejleszthetők, érzékenyebbek a rossz célra szolgáló felhasználásra is. A nyílt alapmodelleket bárki letöltheti, és ezek a különösen hatékonyan működő modellek finomhangolhatók arra, hogy szándékosan vagy szándékolatlanul kárt okozzanak.
A zárt kiadás során az alapmodell a nyilvánosság számára nem hozzáférhető, hanem csak egy szervezeten belül használható. Az ilyen kiadások biztonságosabbnak tekinthetők, de nem kínálnak többletértéket a kutatói közösség vagy a nagyközönség számára.
Egyes alapmodellek, mint például a Google DeepMind Flamingója[57] teljesen zártak, ami azt jelenti, hogy csak a modellfejlesztő számára érhetők el; mások, mint például az OpenAI GPT-4-e, korlátozott hozzáférésűek, a nyilvánosság számára elérhetőek, de csak fekete dobozként; és más, további modellek, mint például a Meta Llama 2-je, nyitottak, széles körben elérhető modellsúlyokkal, amelyek lehetővé teszik a downstream módosításokat és ellenőrzéseket.
Jegyzetek
[szerkesztés]- ↑ Competition and Markets Authority (2023). AI Foundation Models: Initial Report. Available at: https://assets.publishing.service.gov.uk/media/65081d3aa41cc300145612c0/Full_report_.pdf
- ↑ Rogers. "A Primer in BERTology: What we know about how BERT works".
{{cite arXiv}}
:|arxiv=
required (help) - ↑ Haddad: How does GPT-4 work and how can you start using it in ChatGPT? (angol nyelven). Al Jazeera. (Hozzáférés: 2024. október 20.)
- ↑ Tackling multiple tasks with a single visual language model, <https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model>. Hozzáférés ideje: 13 June 2022
- ↑ Copet. "Simple and Controllable Music Generation".
{{cite arXiv}}
:|arxiv=
required (help) - ↑ Speaking robot: Our new AI model translates vision and language into robotic actions (amerikai angol nyelven). Google, 2023. július 28. (Hozzáférés: 2023. december 11.)
- ↑ Nguyen. "AstroLLaMA: Towards Specialized Foundation Models in Astronomy".
{{cite arXiv}}
:|arxiv=
required (help) - ↑ Tu. "Towards Generalist Biomedical AI".
{{cite arXiv}}
:|arxiv=
required (help) - ↑ Engineering: LLark: A Multimodal Foundation Model for Music (amerikai angol nyelven). Spotify Research, 2023. október 13. (Hozzáférés: 2023. december 11.)
- ↑ Li. "StarCoder: may the source be with you!".
{{cite arXiv}}
:|arxiv=
required (help) - ↑ Se: Revolutionizing Time Series Forecasting: Interview with TimeGPT's creators (angol nyelven). Turing Post, 2024. április 5. (Hozzáférés: 2024. április 11.)
- ↑ Azerbayev. "Llemma: An Open Language Model For Mathematics".
{{cite arXiv}}
:|arxiv=
required (help) - ↑ Orbital
- ↑ Introducing the Center for Research on Foundation Models (CRFM). Stanford HAI, 2021. augusztus 18. (Hozzáférés: 2022. június 11.)
- ↑ Reflections on Foundation Models. Stanford HAI, 2021. október 18. (Hozzáférés: 2023. május 22.)
- ↑ Bommasani: Reflections on Foundation Models. Stanford CRFM, 2021. október 18. (Hozzáférés: 2023. december 11.)
- ↑ Marcus: Has AI found a new Foundation? (angol nyelven). The Gradient, 2021. szeptember 11. (Hozzáférés: 2023. december 11.)
- ↑ House: Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence (amerikai angol nyelven). The White House, 2023. október 30. (Hozzáférés: 2024. február 12.)
- ↑ AI Foundation Model Transparency Act
- ↑ Liang, Percy; Bommasani, Rishi & Lee, Tony et al. (2023-10-01), "Holistic Evaluation of Language Models", Annals of the New York Academy of Sciences 1525 (1): 140–146, DOI 10.1111/nyas.15007
- ↑ Joint Statement on AI Safety and Openness (angol nyelven). Mozilla, 2023. október 31. (Hozzáférés: 2024. február 12.)
- ↑ Hawley and Blumenthal Demand Answers from Meta, Warn of Misuse After 'Leak' of Meta's AI Model (angol nyelven). Senator Josh Hawley, 2023. június 6. (Hozzáférés: 2024. február 12.)
- ↑ a b Anderljung, Markus; Barnhart, Joslyn & Korinek, Anton et al. (2023-11-07), Frontier AI Regulation: Managing Emerging Risks to Public Safety
- ↑ Singhal (2023. augusztus 1.). „Large language models encode clinical knowledge” (angol nyelven). Nature 620 (7972), 172–180. o. DOI:10.1038/s41586-023-06291-2. ISSN 1476-4687. PMID 37438534. PMC 10396962.
- ↑ Nori, Harsha; King, Nicholas & McKinney, Scott Mayer et al. (2023-04-12), Capabilities of GPT-4 on Medical Challenge Problems
- ↑ Generative AI and the New Frontier in Cybersecurity (angol nyelven). AI Business, 2024. február 7.
- ↑ General-purpose artificial intelligence | Think Tank | European Parliament (angol nyelven). www.europarl.europa.eu. (Hozzáférés: 2024. február 12.)
- ↑ Ecosystem Graphs: The Social Footprint of Foundation Models
- ↑ Bommasani, Rishi; Klyman, Kevin & Longpre, Shayne et al. (2023-10-19), The Foundation Model Transparency Index
- ↑ Claude Elwood (1948. július 1.). „A Mathematical Theory of Communication”. Bell System Technical Journal.
- ↑ Radford, Alec; Kim, Jong Wook & Hallacy, Chris et al. (2021-02-26), Learning Transferable Visual Models From Natural Language Supervision
- ↑ Kaplan, Jared & McCandlish, Sam (2020-01-22), Scaling Laws for Neural Language Models
- ↑ Jo, Eun Seo. Lessons from archives: Strategies for collecting sociocultural data in machine learning, Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency, 306–316. o.. DOI: 10.1145/3351095.3372829 (2020. január 27.). ISBN 978-1-4503-6936-7
- ↑ Bender, Emily M.. On the Dangers of Stochastic Parrots: Can Language Models be Too Big? 🦜, Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, FAccT '21. New York, NY, USA: Association for Computing Machinery, 610–623. o.. DOI: 10.1145/3442188.3445922 (2021. március 1.). ISBN 978-1-4503-8309-7
- ↑ Brown, Tom B.; Mann, Benjamin & Ryder, Nick et al. (2020-07-22), Language Models are Few-Shot Learners
- ↑ Zaken, Elad Ben; Ravfogel, Shauli & Goldberg, Yoav (2022-09-05), BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models
- ↑ Papers with Code - MMLU Benchmark (Multi-task Language Understanding) (angol nyelven). paperswithcode.com. (Hozzáférés: 2024. április 21.)
- ↑ MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI
- ↑ Papers with Code - HumanEval Benchmark (Code Generation) (angol nyelven). paperswithcode.com. (Hozzáférés: 2024. április 21.)
- ↑ Papers with Code - GSM8K Benchmark (Arithmetic Reasoning) (angol nyelven). paperswithcode.com. (Hozzáférés: 2024. április 21.)
- ↑ EleutherAI/lm-evaluation-harness, <https://github.com/EleutherAI/lm-evaluation-harness>. Hozzáférés ideje: 2024-04-21
- ↑ Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
- ↑ Holistic Evaluation of Language Models (HELM). crfm.stanford.edu. (Hozzáférés: 2024. április 21.)
- ↑ open-llm-leaderboard (Open LLM Leaderboard). huggingface.co, 2023. november 9. (Hozzáférés: 2024. április 21.)
- ↑ DecodingTrust Benchmark. decodingtrust.github.io. (Hozzáférés: 2024. április 21.)
- ↑ Holistic Evaluation of Image Models (HEIM). crfm.stanford.edu. (Hozzáférés: 2024. április 21.)
- ↑ Linzen (2020. július 1.). „How Can We Accelerate Progress Towards Human-like Linguistic Generalization?”. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Online, 5210–5217. o, Kiadó: Association for Computational Linguistics. DOI:10.18653/v1/2020.acl-main.465.
- ↑ Ecosystem Graphs for Foundation Models. crfm.stanford.edu. (Hozzáférés: 2024. február 13.)
- ↑ Market Concentration Implications of Foundation Models
- ↑ Accelerate the Development of AI Applications | Scale AI (angol nyelven). scale.com. (Hozzáférés: 2024. április 21.)
- ↑ Surge AI | World's Most Powerful Data Labeling Platform (angol nyelven). www.surgehq.ai. (Hozzáférés: 2024. április 21.)
- ↑ 2024 AI Index - chapter 1 pp. 37–39, 2024. április 15.
- ↑ pnp: Computational Power and AI (amerikai angol nyelven). AI Now Institute, 2023. szeptember 27. (Hozzáférés: 2024. február 13.)
- ↑ Tiku. „These fake images reveal how AI amplifies our worst stereotypes”, Washington Post (Hozzáférés: 2024. február 13.) (angol nyelvű)
- ↑ How the AI industry profits from catastrophe (angol nyelven). MIT Technology Review. (Hozzáférés: 2024. február 13.)
- ↑ Liang: The Time is Now to Develop Community Norms for the Release of Foundation Models. Stanford CRFM, 2022. május 17.
- ↑ Alayrac, Jean-Baptiste; Donahue, Jeff & Luc, Pauline et al. (2022-11-15), Flamingo: a Visual Language Model for Few-Shot Learning
Fordítás
[szerkesztés]Ez a szócikk részben vagy egészben a Foundation model című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.