Україна розпочала один із найамбітніших технологічних проєктів за всю історію незалежності — створення власної великої мовної моделі (LLM), яку вже називають «цифровим мозком» країни. Як писав Ukrainian Wall, за цим стоїть Міністерство цифрової трансформації, яке поставило за мету не просто наздогнати глобальний розвиток штучного інтелекту, а забезпечити цифровий суверенітет держави.
Проєкт, що отримав назву «Сяйво», стартував близько півтора року тому. Його ключовим партнером став «Київстар» — компанія взяла на себе фінансування, формування технічної команди та інженерну розробку. Держава, зі свого боку, відповідає за координацію, доступ до даних і формування правових та етичних рамок. За задумом, модель має стати базовим шаром для державних сервісів, взаємодії громадян із цифровими продуктами та елементом аналітичної й безпекової системи.
Чому строки зсуваються і що пішло не за планом
Початково в уряді розраховували показати перші результати наприкінці 2025 року, а навесні 2026-го відкрити модель для публічного тестування. Однак реальність виявилася складнішою. Першою серйозною проблемою стала робота з даними: для навчання потрібні величезні масиви текстів, а значна частина українських архівів, наукових робіт і державних документів або юридично захищена, або фізично не оцифрована. Довелося створювати окрему систему анонімізації, очищення та юридичної перевірки контенту.
Другим викликом став кадровий голод. Фахівців із досвідом тренування великих мовних моделей в Україні обмаль, а глобальний ринок таких спеціалістів надзвичайно конкурентний. Частину команди довелося формувати з інженерів суміжних напрямів і додатково навчати специфіці LLM-розробки, що розтягнулося на місяці.
Технічні особливості: не Nvidia, а Google
Ще один несподіваний поворот — вибір апаратної платформи. Українська LLM будується не на звичних для індустрії графічних процесорах Nvidia, а на інфраструктурі Google TPU. Це означало не лише інший стек технологій, а й необхідність перебудови частини процесів навчання моделей. Наразі команда завершує роботу над першою, малою моделлю обсягом близько чотирьох мільярдів параметрів — це технічний полігон для відпрацювання ключових процесів.
Після завершення малого етапу розробники одразу перейдуть до великої моделі, пропускаючи проміжну стадію. Базою для неї стане Google Gemma 4 — сучасна система, яка значно перевершує попередні версії за логічним мисленням, математичними задачами та здатністю працювати з довгими контекстами. Водночас український токенайзер, який уже створено для оптимізації роботи з мовою, доведеться адаптувати під нову архітектуру.
Українська мова — без перекладацького посередника
Окремий акцент у проєкті зроблено на прямій роботі з українською мовою. Більшість глобальних моделей сьогодні опрацьовують українські запити через англомовний «проміжний шар» — текст фактично перекладається, а потім обробляється, що призводить до втрати нюансів і стилістики. Для «Сяйва» формуються спеціалізовані українськомовні корпуси даних обсягом у десятки терабайтів. До наповнення залучені десятки державних і недержавних інституцій — медіа, університети, видавництва та архіви.
Паралельно держава будує власну AI-інфраструктуру в межах проєкту AI Factory: створюються GPU-вузли, системи охолодження та сховища даних. Частину обладнання вже закуплено, а в перспективі інфраструктура має розширитися до десятків обчислювальних кластерів. Оновлений графік передбачає, що велика українська LLM може бути готова до тестування приблизно наприкінці 2026 року, після чого її планують передати державі й розгорнути на національній інфраструктурі, перенісши з хмарних сервісів.
Раніше Ukrainian Wall писав: японія відкриває двері українському IT: кого торкнеться новий цифровий проєкт.
Ми вже повідомляли: ШІ проти росії на фронті: які технології вже працюють і хто за цим стоїть.