Всё шло к этому. Мы решили задачу омографов в русском языке (это был только первый релиз, но мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ.
Вы уже много раз упоминали, что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось.
Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU).
Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит.
Выбор пал на модель v5_cis_base_nostress из релиза по следующим причинам:
Она поддерживает 20 популярных языков России и СНГ;
Мы точно уверены в лицензии этой модели, т.к. она целиком и полностью сделана на наших данных;
Она подразумевает "обязательность" (можно конечно не ставить, но звучать будет так себе, будто язык заплетается) простановки ударения только на славянских языках (русский, украинский, белорусский). На остальных языках - модель "сама" ставит ударение. Плюсы и минусы такого подхода расписаны в оригинальной статье;
В идеальных условиях модель генерирует порядка 100 секунд аудио в секунду, что позволяет её использовать и для синтеза и для более требовательных к задержке кейсов;
В модели присутствуют одни и те же дикторы на своём родном языке и на русском языке.
Есть следующие моменты, которые мы планируем править в следующих релизах:
Пока омографы не завезли в инсталлятор. Думаем как лучше сделать интерфейс;
Ударения и буква ё автоматически проставляются моделью-акцентором. Если нужно проставить вручную, ударение ставится так к+ошка;
У интерфейса есть некоторые моменты, связанные с отзывчивостью, мы планируем поработать над этим;
Отсутствует поддержка омографов для всех языков и явной проставки ударений для языков кроме славянских;
Акценторы сделаны на базе словарей из 4M, 3M и 2M слов для русского, украинского и белорусского языков соответственно;
Пока не до конца использованы нативные возможности модели по управлению высотой и скоростью речи;
Ряд мелких недочётов.
Самый простой способ следующий:
Зайти на страничку, скачать .exe файл, установить;
Установить программу для озвучки текста, которая работает с SAPI5-интерфейсом. Я тестировал на Балаболке, но у вас может быть своя любимая.
Системные требования:
64-битная Windows;
Мы тестировали на Windows 10 и Windows 11;
Windows XP скорее всего не будет работать, Windows 7 не тестировали.
Будем признательны вам за обратную связь, по сути это пробный релиз для сбора граблей. Обратите внимание, что языки в принципе можно смешивать и что один и тот же диктор присутствует по два раза - как бы на русском и на своём родном языке (у части дикторов русский тоже родной, или более родной, там зависит от человека).
В инсталляторе присутствуют реквизиты для добровольных донатов разработчику SAPI5-интерфейса. Если вам очень сильно поможет читалка - вы можете поддержать его напрямую. Обращаю также внимание, что человек не в последнюю очередь старался и для себя, т.к. является незрячим.
Ссылка для скачивания .exe релиза - https://github.com/snakers4/silero-models/releases/tag/v5.2;
Программа Балаболка - https://www.cross-plus-a.com/ru/balabolka.html;
Наши модели для простановки ударений - https://github.com/snakers4/silero-stress;
Наши модели синтеза - https://github.com/snakers4/silero-models;
Новые модели опубликованные в рамках проекта - https://github.com/snakers4/silero-models?tab=readme-ov-file#v5-cis-base-models;
Примеры запуска моделей для языков России и СНГ;
Обновление проекта silero-stress.
Источник



Скопировать ссылкуX (Twitter)LinkedInFacebookEmail
Prenetics при поддержке Дэвида Бекхэма отказывается от bitco