17 сентября 2024

Новая ИИ-технология в «VK Видео» повысила качество субтитров

Точность анализа и расшифровки речи на платформе «VK Видео» возросла на 25%. Внедрение новых алгоритмов искусственного интеллекта позволило сервису создать инструмент для автоматического распознавания речи и генерации субтитров для клипов, шоу, роликов и другого видеоконтента. Повышение качества субтитров связано также и с тем, что нейросети быстро осваивают новые слова, включая профессиональные термины, имена собственные, мемы и акронимы.

Автоматическое создание субтитров осуществляется с помощью машинных моделей (ML), которые формируют текст, расставляют знаки препинания и синхронизируют его с видео. Процесс обработки аудиопотока проходит несколько этапов, что позволяет повысить точность распознавания. Нейросеть сначала удаляет посторонние шумы, затем распознает речь и превращает ее в текст.

Следующий этап – работа моделей пунктуации и денормализации, которые преобразуют набор распознанных слов в грамматически правильный и легко воспринимаемый текст. После этого ИИ синхронизирует текст с аудиодорожкой. В ближайшее время искусственный интеллект сможет различать речь разных спикеров и разделять ее на отдельные реплики, что еще больше улучшит качество субтитров.

Технология субтитров востребована среди пользователей «VK Видео», как тех, кто имеет нарушения слуха, так и тех, кто предпочитает смотреть видео без звука по различным причинам. За последний месяц количество пользователей, использующих эту функцию в веб-версии, увеличилось на 28 %. В результате субтитры используются в видеоконтенте 11 % всей аудитории платформы «VK Видео».

Источник: CNews