Jak je Chat GPT trénován?

jak se trénuje Chat GPT 768x435-718x.jpg

Pokud jste se setkali s ChatGPT, možná jste slyšeli, že je trénován na rozsáhlém korpusu dat. Ale co to přesně znamená? V tomto článku se budeme zabývat podrobnostmi, jak je ChatGPT trénovaný."

ChatGPT je předtrénovaný jazykový model, který byl upraven kombinací technik supervizovaného a zesíleného učení. Tréninkový proces ChatGPT zahrnoval vstup velkého množství textových dat do modelu a upravování jeho parametrů tak, aby mohl generovat text podobný textu v tréninkovém korpusu.

Při této metodě bylo použito nestřeženého učení, což znamená, že model nebyl explicitně zpětně vazben na to, zda jeho generovaný text byl správný nebo nesprávný. Místo toho model nastavuje své parametry na základě pravděpodobnosti, že generovaný text je podobný textu v trénovacím korpusu.

GPT-3, mateřský model ChatGPT-3, je jedním z největších jazykových modelů vůbec, s 175 miliardami parametrů a kontextem 2048-tokenů. Je trénován na stovkách miliard slov z Common Crawl, WebText2, Books1/2, Wikipedia v angličtině a ukázkách kódu v CSS, JSX, Pythonu a dalších programovacích jazycích.

Metodou výcviku použitou pro GPT-3 je generativní předtrénování, což znamená, že je trénován, aby předpověděl následující token nebo slovo ve vstupní větě.

Nejlepší Chat GPT alternativa

Nadzorované učení

Model ChatGPT byl doladěn procesem supervizního učení lidskými trenéry. Tito trenéři vedli rozhovory, přičemž převzali roli uživatele a asistenta AI.

Dostávali návrhy od modelu, které jim měly pomoci sestavit své odpovědi, ty pak byly smíchány s datasetem InstruktGPT, který byl konvertován do podoby dialogu.

Zesilování učení

Model byl dále vylepšen pomocí posilovacího učení s využitím metody Proximal Policy Optimization (PPO). Lidský trenéři hodnotili odpovědi generované modelem ze předchozích konverzací a použili hodnocení k vytvoření modelů odměn. Poté byl model dolaďován na základě těchto modelů odměn.

Proces doladění byl prováděn několikrát za účelem dosažení lepšího výkonu. Algoritmy PPO jsou v porovnání s jinými algoritmy nákladově efektivní a mají rychlejší výkon, což z nich dělá ideální volbu pro tento proces.

OpenAI nadále sbírá informace od uživatelů, kteří interagují s ChatGPT, které je možné dále využít pro vylepšení a zdokonalení modelu.

Uživatelé mají možnost hlasovat o odpovědích ChatGPT buď upvotem nebo downvotem a mohou také poskytnout další zpětnou vazbu. Tyto údaje jsou používány k dalšímu zlepšování výkonu modelu a zpřesňování jeho schopnosti generovat text podobný tomu, který vytváří člověk.

Data použitá k trénování modelu

ChatGPT-3 je jazykový model dopracovaný z řady GPT-3.5, který byl trénován na superpočítačové infrastruktuře Azure AI. Byl trénován na masivním množství textu odkrytého z internetu, což zahrnuje knihy, diskusní fóra, články, webové stránky, akademické práce, kód a jiné zdroje.

Korpus textových dat, který byl použit pro trénování ChatGPT-3, měl velikost přes 45 terabytů, což je extrémně velké a přispívá k modelové schopnosti generovat texty, které jsou podobné těm, které by mohl produkovat novinář nebo autor.

Související články

Zobrazit více >>