В настоящей статье описывается экспериментальное исследование, направленное на решение проблемы обучения моделей для распознавания речи в условиях малого объема обучающих речевых и текстовых данных. Подробно рассматриваются существующие подходы к решению данной проблемы, в частности, использование преодобученных многоязычных моделей и аугментация данных. В работе проведена адаптация многоязычных моделей на базе Wav2Vec и Whisper к ливвиковскому наречию карельского языка и проведено исследование применения внешней языковой модели для повышения точности распознавания интегральной системы. Кроме того, в статье описаны специально собранная и подготовленная речевая база данных и базовая система распознавания, созданная на основе тулкита Kaldi. Приведены количественные результаты тестирования, которые подтверждают эффективность выбранных методов: так, использование моделей на архитектуре Трансформер, в частности, Wav2Vec, позволило достичь более высоких показателей, чем у базовых моделей, обученных с помощью программных средств Kaldi. Дообучение моделей Wav2Vec снизило количество неправильно распознанных слов до 24,73% на валидационной и до 25,25% на тестовой выборках, а использование модели Wav2Vec-BERT 2.0 с внешней языковой моделью дополнительно уменьшило количество неправильно распознанных слов до 17,12% и 17,72% соответственно. Статья адресована, в первую очередь, специалистам, занимающимся разработкой систем автоматического распознавания речи для малоресурсных языков и распознаванием речи на прибалтийско-финских языках, в частности, результаты этой работы могут найти практическое применение в полевых исследованиях, при записи текстов на карельском.
В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой тематике. Определены основные трудности, связанные с применением классических схем автоматического распознавания речи к материалу малоресурсных языков, и очерчен круг основных методов, использующихся для решения обозначенных проблем. В статье подробно рассматриваются методы аугментации данных, переноса знаний и сбора речевого материала. В зависимости от конкретной задачи, выделяются методы аугментации аудиоматериала и текстовых данных, переноса знаний и мультизадачного обучения. Отдельный раздел статьи посвящен существующему информационному обеспечению, базам данных и основным принципам их организации с точки зрения работы с малоресурсными языками. Делаются выводы об оправданности методов аугментации данных и переноса знаний для языков с минимальным информационным обеспечением. В случае полного отсутствия данных для конкретного языка и родительских моделей структурно схожих языков предпочтительным вариантом является сбор новой базы данных, в том числе, при помощи краудсорсинга. Многозадачные модели переноса знаний оказываются эффективными в том случае, если исследователь располагает набольшими наборами данных. Если доступны данные по языку с достаточными ресурсами, предпочтительной является работа с языковой парой. Сделанные в результате данного обзора выводы в дальнейшем предполагается применить при работе с малоресурсным карельским языком, для которого авторы статьи создают систему автоматического распознавания речи.
1 - 2 из 2 результатов