Казахстанская компания Cybernet AI создала крупнейшую модель искусственного интеллекта для автоматического распознавания речи на тюркских языках. Об этом сообщает Министерство цифрового развития, инноваций и аэрокосмической промышленности РК.
Это первая ASR-модель такого масштаба, разработанная в Центральной Азии специально для тюркской языковой группы, а не адаптированная из англоязычных аналогов. Проект получил поддержку Astana Hub и Министерства ИИ и цифрового развития, а инфраструктуру предоставила компания Microsoft в рамках программы для стартапов.
По словам управляющего директора Astana Hub Таната Ускембаева, разработка позволит странам тюркского мира масштабировать цифровые сервисы на родных языках с использованием ИИ-технологий. Для Казахстана это переход от потребителя глобальных решений к создателю конкурентоспособных технологий.
Модель поддерживает шесть языков: казахский, турецкий, узбекский, кыргызский, азербайджанский и татарский. Важная особенность — корректное распознавание смешанной тюркско-русской речи, характерной для общения клиентов с бизнесом и госслужбами.
Ранее страны Центральной Азии использовали международные ASR-системы, ориентированные на английский язык. Такие решения плохо учитывали тюркскую фонетику, акценты и код-свитчинг, что снижало качество голосовых AI-сервисов.
«Мы сознательно отказались от адаптации англоязычных моделей и создали систему, понимающую живые, смешанные формы разговорного языка», — отметил технический директор Cybernet AI Рашид Исмаилов.
Целевая аудитория разработки — компании с большими объемами голосовых коммуникаций: банки, телеком-операторы, контакт-центры, логистические и сервисные организации, госструктуры. Модель устойчива к шумам, акцентам и переключению языков внутри одного предложения.
Cybernet AI — участник Astana Hub, специализируется на защищенных корпоративных AI-решениях для финансового сектора и регулируемых отраслей. Компания работает в Казахстане, Узбекистане, Кыргызстане, США, Мексике, Египте, Великобритании и странах ЕС. Платформа поддерживает 34 языка.