Trénování AI modelů v roce 2025: Data, právo a technologický skok vpřed

Umělá inteligence

4 července, 2025

Trénink velkých jazykových modelů posunul z laboratorní disciplíny do hlavního proudu vývoje podnikových řešení. Vývojáři dnes čelí nejen technickým výzvám, ale i novým právním mantinelům, expanzi open‑source architektur a tlaku na transparentnost datového původu. Tento článek nabízí ucelený přehled toho, co dnes obnáší trénink AI modelu – s odkazy na aktuální případy, rozhodnutí i technologický vývoj.

Trénovací pipeline: z čeho se skládá

Trénování velkého jazykového modelu (LLM) dnes běžně zahrnuje tyto fáze:

Fáze	Popis
Sběr dat	Shromáždění rozsáhlých textových korpusů (web, knihy, kód, dokumentace)
Filtrace a tokenizace	Odstranění balastu, duplicit, tokenizace pro vstup do neuronových sítí
Pre-trénink	Statistické učení struktury jazyka
Fine-tuning	Ladění modelu na konkrétní doménu nebo styl komunikace
Alignment	Úprava výstupů pomocí zpětné vazby (např. RLHF)

Architektonicky dnes většina týmů využívá efektivní trénovací frameworky jako DeepSpeed, Axolotl, vLLM, nebo přechází na menší specializované modely (Mistral, Phi-3).

Jaká data lze použít k tréninku a proč na tom záleží

Volba trénovacích dat přímo ovlivňuje výkon i právní postavení modelu. V červnu 2025 americký federální soud rozhodl ve prospěch společnosti Meta, která při tréninku modelu LLaMA využila pirátské kopie knih z databáze Library Genesis. Podle soudce Vince Chhabrii šlo o tzv. transformativní užití (fair use), protože model nepřevzal texty doslovně, ale použil je k učení jazykových vzorců (The Verge, 2025).

Souběžně Anthropic obhájil trénink svého modelu Claude na naskenovaných fyzických knihách, zakoupených legálně. Soudce William Alsup přirovnal trénink AI ke způsobu, jakým se člověk učí číst a psát: čtení není kopírování, ale učení se principu (AP News, 2025).

Srovnání typů dat:

Typ dat	Výhody	Rizika
Knihy	Jazyková kvalita, hlubší kontext	Autorská práva (EU), omezené domény
Webové články	Rozsah, aktuálnost	Bias, nepravdivost, duplicita
Repozitáře s kódem	Formální syntaxe, funkční příklady	GPL/MIT licence – nutné ověřit právní kompatibilitu
Vlastní firemní data	Doménová relevance, know-how	GDPR, interní data governance, nutnost pseudonymizace
Syntetická data	Kontrolovaný obsah, laditelné vlastnosti	Potenciální přenos biasu, omezená kreativita

V Evropské unii však nelze spoléhat na fair use – zde platí směrnice DSM (2019/790), která umožňuje použití dat pro text and data mining, ale pouze v případě, že držitel práv aktivně nevyloučil svá díla z analýzy. To znamená, že vývojáři v EU musí doložit legální původ dat.

Vývoj technologií: rostoucí kontext a specializace

Trénování dnes neznamená jen naučit model „číst texty“, ale také zvládnout dlouhý kontext, efektivní inference, nástroje, reasoning a odpovědnost.

Vývoj maximálního kontextu AI modelů (2018–2025):

Zatímco GPT-2 pracoval s 2048 tokeny, dnešní modely jako Claude 4 nebo MiniMax-M1 udrží až 1 milion tokenů. To umožňuje:

Načíst celé účetní uzávěrky, smlouvy, CRM historii.
Trénovat agenty s „pamětí“ a plánovacími schopnostmi.
Eliminuje nutnost segmentace v RAG systémech.

Kontaktujte nás

Open-source modely a trénink na vlastních datech

Rok 2025 je i rokem otevřených modelů – společnosti jako Mistral, Meta, Cohere nebo Nous publikují vlastní váhy, které vývojáři využívají k tréninku vlastních doménových modelů. Pro vlastní trénink či fine-tuning doporučujeme:

Mistral 7B / 8x7B (multi-expertní architektura)
LLaMA 3 (Meta) – s verzemi 8B a 70B (vydáno duben 2025)
Nous Hermes 2, Dolphin 2.6, Phi-3 – optimalizováno pro nízké náklady
Claude 4 fine-tuning – dostupný omezeně v režimu Constitutional AI

Open-source přístup snižuje náklady a zvyšuje kontrolu, ale klade nároky na dokumentaci:

jak byla data vyčištěna,
jaký byl prompt/response formát (např. ChatML),
jaká bezpečnostní opatření byla zavedena.

Doporučení pro tréninkové týmy

Oblast	Doporučení
Výběr dat	Používat legální a deduplikovaná data, dokumentovat jejich původ
Tréninková architektura	Využívat Axolotl, DeepSpeed, vLLM nebo MosaicML pro škálovaný vývoj
Právní audit	Pracovat s právníkem při použití knih, web scrapes, repozitářů
Model alignment	Integrovat RLHF, Constitutional AI nebo preference learning
Testování a hodnocení	Validovat výstupy z pohledu faktické přesnosti, etiky a bezpečnosti

Trénování modelu není jen otázka technologií, ale otázka strategického rozhodování: kde jsou naše data, co můžeme použít, jak vysvětlit výstup, a jak ochránit soukromí i práva třetích stran.

Rok 2025 přináší nejen modely s milionovým kontextem, ale i precedensy, které mění pravidla. A v tomto prostředí bude vítězit ne ten, kdo má největší model – ale ten, kdo má nejlépe vedený trénink.