Trénink velkých jazykových modelů posunul z laboratorní disciplíny do hlavního proudu vývoje podnikových řešení. Vývojáři dnes čelí nejen technickým výzvám, ale i novým právním mantinelům, expanzi open‑source architektur a tlaku na transparentnost datového původu. Tento článek nabízí ucelený přehled toho, co dnes obnáší trénink AI modelu – s odkazy na aktuální případy, rozhodnutí i technologický vývoj.
Trénovací pipeline: z čeho se skládá
Trénování velkého jazykového modelu (LLM) dnes běžně zahrnuje tyto fáze:
Fáze | Popis |
---|---|
Sběr dat | Shromáždění rozsáhlých textových korpusů (web, knihy, kód, dokumentace) |
Filtrace a tokenizace | Odstranění balastu, duplicit, tokenizace pro vstup do neuronových sítí |
Pre-trénink | Statistické učení struktury jazyka |
Fine-tuning | Ladění modelu na konkrétní doménu nebo styl komunikace |
Alignment | Úprava výstupů pomocí zpětné vazby (např. RLHF) |
Architektonicky dnes většina týmů využívá efektivní trénovací frameworky jako DeepSpeed, Axolotl, vLLM, nebo přechází na menší specializované modely (Mistral, Phi-3).
Jaká data lze použít k tréninku a proč na tom záleží
Volba trénovacích dat přímo ovlivňuje výkon i právní postavení modelu. V červnu 2025 americký federální soud rozhodl ve prospěch společnosti Meta, která při tréninku modelu LLaMA využila pirátské kopie knih z databáze Library Genesis. Podle soudce Vince Chhabrii šlo o tzv. transformativní užití (fair use), protože model nepřevzal texty doslovně, ale použil je k učení jazykových vzorců (The Verge, 2025).
Souběžně Anthropic obhájil trénink svého modelu Claude na naskenovaných fyzických knihách, zakoupených legálně. Soudce William Alsup přirovnal trénink AI ke způsobu, jakým se člověk učí číst a psát: čtení není kopírování, ale učení se principu (AP News, 2025).
Srovnání typů dat:
Typ dat | Výhody | Rizika |
---|---|---|
Knihy | Jazyková kvalita, hlubší kontext | Autorská práva (EU), omezené domény |
Webové články | Rozsah, aktuálnost | Bias, nepravdivost, duplicita |
Repozitáře s kódem | Formální syntaxe, funkční příklady | GPL/MIT licence – nutné ověřit právní kompatibilitu |
Vlastní firemní data | Doménová relevance, know-how | GDPR, interní data governance, nutnost pseudonymizace |
Syntetická data | Kontrolovaný obsah, laditelné vlastnosti | Potenciální přenos biasu, omezená kreativita |
V Evropské unii však nelze spoléhat na fair use – zde platí směrnice DSM (2019/790), která umožňuje použití dat pro text and data mining, ale pouze v případě, že držitel práv aktivně nevyloučil svá díla z analýzy. To znamená, že vývojáři v EU musí doložit legální původ dat.
Vývoj technologií: rostoucí kontext a specializace
Trénování dnes neznamená jen naučit model „číst texty“, ale také zvládnout dlouhý kontext, efektivní inference, nástroje, reasoning a odpovědnost.
Vývoj maximálního kontextu AI modelů (2018–2025):
Zatímco GPT-2 pracoval s 2048 tokeny, dnešní modely jako Claude 4 nebo MiniMax-M1 udrží až 1 milion tokenů. To umožňuje:
Načíst celé účetní uzávěrky, smlouvy, CRM historii.
Trénovat agenty s „pamětí“ a plánovacími schopnostmi.
Eliminuje nutnost segmentace v RAG systémech.