Украина начала один из самых амбициозных технологических проектов за всю историю независимости — создание собственной большой языковой модели (LLM), которую уже называют «цифровым мозгом» страны. Как писал Ukrainian Wall, за этим стоит Министерство цифровой трансформации, поставившее цель не просто догнать глобальное развитие искусственного интеллекта, а обеспечить цифровой суверенитет государства.
Проект, получивший название «Сияние», стартовал около полутора лет назад. Его ключевым партнером стал «Киевстар» — компания взяла на себя финансирование, формирование технической команды и инженерную разработку. Государство, со своей стороны, отвечает за координацию, доступ к данным и формирование правовых и этических рамок. По замыслу, модель должна стать базовым слоем для государственных сервисов, взаимодействия граждан с цифровыми продуктами и элементом аналитической и безопасной системы.
Почему сроки сдвигаются и что пошло не по плану
Изначально в правительстве рассчитывали показать первые результаты в конце 2025 года, а весной 2026-го открыть модель для публичного тестирования. Однако реальность оказалась сложнее. Первой серьезной проблемой стала работа с данными: для обучения нужны огромные массивы текстов, а значительная часть украинских архивов, научных работ и государственных документов либо юридически защищена, либо физически не оцифрована. Пришлось создавать отдельную систему анонимизации, очистки и юридической проверки контента.
Вторым вызовом стал кадровый голод. Специалистов с опытом тренировки больших языковых моделей в Украине немного, а глобальный рынок таких специалистов чрезвычайно конкурентен. Часть команды пришлось формировать из инженеров смежных направлений и дополнительно обучать специфике LLM-разработки, что растянулось на месяцы.
Технические особенности: не Nvidia, а Google
Еще один неожиданный поворот — выбор аппаратной платформы. Украинская LLM строится не на привычных для индустрии графических процессорах Nvidia, а на инфраструктуре Google TPU. Это означало не только другой стек технологий, но и необходимость перестройки части процессов обучения моделей. Сейчас команда завершает работу над первой, малой моделью объемом около четырех миллиардов параметров — это технический полигон для отработки ключевых процессов.
После завершения малого этапа разработчики сразу перейдут к большой модели, пропуская промежуточную стадию. Базой для нее станет Google Gemma 4 — современная система, значительно превосходящая предыдущие версии по логическому мышлению, математическим задачам и способности работать с длинными контекстами. В то же время украинский токенайзер, уже созданный для оптимизации работы с языком, придется адаптировать под новую архитектуру.
Украинский язык — без переводческого посредника
Отдельный акцент в проекте сделан на прямой работе с украинским языком. Большинство глобальных моделей сегодня обрабатывают украинские запросы через англоязычный «промежуточный слой» — текст фактически переводится, а затем обрабатывается, что приводит к потере нюансов и стилистики. Для «Сияния» формируются специализированные украиноязычные корпуса данных объемом в десятки терабайт. К наполнению привлечены десятки государственных и негосударственных институций — медиа, университеты, издательства и архивы.
Параллельно государство строит собственную AI-инфраструктуру в рамках проекта AI Factory: создаются GPU-узлы, системы охлаждения и хранилища данных. Часть оборудования уже закуплена, а в перспективе инфраструктура должна расшириться до десятков вычислительных кластеров. Обновленный график предусматривает, что большая украинская LLM может быть готова к тестированию примерно в конце 2026 года, после чего ее планируют передать государству и развернуть на национальной инфраструктуре, перенеся из облачных сервисов.
Ранее Ukrainian Wall писал: япония открывает двери украинскому IT: кого коснется новый цифровой проект.
Мы уже сообщали: ИИ против россии на фронте: какие технологии уже работают и кто за этим стоит.