
On-premise LLM nasadenie zvažujú najmä firmy s citlivými dátami, reguláciou alebo vysokým objemom AI prevádzky. Dôvody sú jasné: NIS2, advokátske alebo bankové tajomstvo, obavy z US CLOUD Act, dátová suverenita a ekonomika pri veľkom objeme tokenov.
Tento článok je technický a ekonomický sprievodca: modely, hardware, softvérový stack, compliance a hranica, kedy vlastná infraštruktúra dáva zmysel.
1. Prečo on-premise LLM
Compliance a regulácia
Zdravotníctvo, financie, advokácia, kritická infraštruktúra a verejná správa často nemôžu posielať citlivé dáta do verejného cloudu bez dôkladnej právnej a bezpečnostnej architektúry.
Dátová suverenita
Ak model beží vo vlastnom dátovom centre alebo v kontrolovanom privátnom prostredí, firma má väčšiu kontrolu nad vstupmi, logmi, prístupmi a životným cyklom dát.
Ekonomika pri veľkom objeme
Pri miliónoch tokenov denne môže byť vlastný model lacnejší než API. Závisí to od využitia GPU, ceny elektriny, podpory a tímu.
Latencia
Model v rovnakom dátovom centre môže odpovedať rýchlejšie než vzdialené API, najmä pri interných aplikáciách s veľkým počtom krátkych dopytov.
Prispôsobenie
Self-hosted model sa dá lepšie doplniť o vlastné filtre, RAG, bezpečnostné vrstvy a doménové úpravy.
2. Open-source LLM modely
Llama
Silná voľba pre všeobecné enterprise použitie, veľká komunita a dobrá dostupnosť nástrojov.
Mistral
Zaujímavý pre európske firmy, často dobrý pomer výkonu, ceny a licenčných možností.
Qwen
Silný pri technických a multilingválnych úlohách, podľa konkrétnej verzie a veľkosti modelu.
DeepSeek
Vhodný pri scenároch, kde rozhoduje efektivita, kód alebo špecifické technické úlohy.
Phi
Menšie modely vhodné na úzke úlohy a lacnejšiu prevádzku, nie ako univerzálna náhrada veľkých modelov.
3. Hardware
Departmental tier
Menšie use case pre jeden tím. Jedna alebo dve GPU, menší model, obmedzený počet používateľov. Vhodné na pilot a interné nástroje.
Enterprise tier
Stredne veľká firma potrebuje redundantnejší server, väčšie GPU, monitoring, zálohovanie a jasnú podporu.
Heavy enterprise
Veľké objemy, viac modelov, vysoká dostupnosť a dedikovaný MLOps tím. Náklady sú vysoké, ale pri dostatočnom objeme môžu dávať ekonomický zmysel.
České dátové centrá
Pre firmy, ktoré nechcú vlastnú serverovňu, dáva zmysel housing alebo private cloud v lokálnom dátovom centre s jasnými zmluvami a fyzickou bezpečnosťou.
4. Softvérový stack
- Inference engine: vLLM, TensorRT-LLM, llama.cpp alebo podobné nástroje podľa modelu.
- Serving a orchestrácia: API vrstva, rate limiting, fronty a routing medzi modelmi.
- RAG a embedding: vektorová databáza, embedding modely a reranking.
- Monitoring: latencia, kvalita odpovedí, využitie GPU, náklady a incidenty.
- Security: IAM, šifrovanie, auditné logy, sieťová segmentácia a DLP.



