Душанбе, 07 июля, — ИА «Караван Инфо». Впервые в истории Таджикистана создан искусственный интеллект, который полноценно понимает и обрабатывает таджикский язык — модель SoroLLM.
SoroLLM — первая нейросеть, специально обученная на таджикской речи с учётом её множества диалектов и региональных особенностей. Проект разработан командой исследователей из zehnlab.ai, стремящихся учесть уникальный синтаксис, редкую лексику и различные варианты произношения, характерные для таджикского языка.

25 июня модель была официально представлена президенту Эмомали Рахмону в рамках открытия первого в стране Центра вычислительных ресурсов для искусственного интеллекта. Это событие стало важным шагом в цифровом развитии Таджикистана и подчеркнуло значимость локальных технологий.
До появления SoroLLM таджикский язык был практически не представлен в крупных языковых моделях мирового уровня, таких как GPT или LLaMA. В отличие от них, SoroLLM адаптирована именно под особенности таджикского языка — от северных говоров до памирских диалектов.
«Нам важно, чтобы модель не просто распознавала таджикский язык, а улавливала всё его разнообразие», — отмечают разработчики.
Проект находится в активной фазе развития: в ближайших планах — интеграция мультимодальных функций, которые позволят работать не только с текстом, но и с аудио- и видеоданными.
Команда приглашает всех жителей страны принять участие в улучшении модели — для этого достаточно заполнить короткую Google-форму, рассказав о своём диалекте.
ФОТО: из открытых источников