Всё шло к этому. Мы решили задачу омографов в русском языке (это был только первый релиз, но мы уже готовим большое расширение). Мы попробовали насколько это фиВсё шло к этому. Мы решили задачу омографов в русском языке (это был только первый релиз, но мы уже готовим большое расширение). Мы попробовали насколько это фи

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

06ca4a94262b31f042a1b59bfdfc4427.png

Всё шло к этому. Мы решили задачу омографов в русском языке (это был только первый релиз, но мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ.

Вы уже много раз упоминали, что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось.

Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU).

Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит.

Выбор модели

Выбор пал на модель v5_cis_base_nostress из релиза по следующим причинам:

  • Она поддерживает 20 популярных языков России и СНГ;

  • Мы точно уверены в лицензии этой модели, т.к. она целиком и полностью сделана на наших данных;

  • Она подразумевает "обязательность" (можно конечно не ставить, но звучать будет так себе, будто язык заплетается) простановки ударения только на славянских языках (русский, украинский, белорусский). На остальных языках - модель "сама" ставит ударение. Плюсы и минусы такого подхода расписаны в оригинальной статье;

  • В идеальных условиях модель генерирует порядка 100 секунд аудио в секунду, что позволяет её использовать и для синтеза и для более требовательных к задержке кейсов;

  • В модели присутствуют одни и те же дикторы на своём родном языке и на русском языке.

Текущие ограничения экранной читалки

Есть следующие моменты, которые мы планируем править в следующих релизах:

  • Пока омографы не завезли в инсталлятор. Думаем как лучше сделать интерфейс;

  • Ударения и буква ё автоматически проставляются моделью-акцентором. Если нужно проставить вручную, ударение ставится так к+ошка;

  • У интерфейса есть некоторые моменты, связанные с отзывчивостью, мы планируем поработать над этим;

  • Отсутствует поддержка омографов для всех языков и явной проставки ударений для языков кроме славянских;

  • Акценторы сделаны на базе словарей из 4M, 3M и 2M слов для русского, украинского и белорусского языков соответственно;

  • Пока не до конца использованы нативные возможности модели по управлению высотой и скоростью речи;

  • Ряд мелких недочётов.

Как попробовать?

Самый простой способ следующий:

  • Зайти на страничку, скачать .exe файл, установить;

  • Установить программу для озвучки текста, которая работает с SAPI5-интерфейсом. Я тестировал на Балаболке, но у вас может быть своя любимая.

Системные требования:

  • 64-битная Windows;

  • Мы тестировали на Windows 10 и Windows 11;

  • Windows XP скорее всего не будет работать, Windows 7 не тестировали.

Будем признательны вам за обратную связь, по сути это пробный релиз для сбора граблей. Обратите внимание, что языки в принципе можно смешивать и что один и тот же диктор присутствует по два раза - как бы на русском и на своём родном языке (у части дикторов русский тоже родной, или более родной, там зависит от человека).

Дисклеймер

В инсталляторе присутствуют реквизиты для добровольных донатов разработчику SAPI5-интерфейса. Если вам очень сильно поможет читалка - вы можете поддержать его напрямую. Обращаю также внимание, что человек не в последнюю очередь старался и для себя, т.к. является незрячим.

Ссылки

  • Ссылка для скачивания .exe релиза - https://github.com/snakers4/silero-models/releases/tag/v5.2;

  • Программа Балаболка - https://www.cross-plus-a.com/ru/balabolka.html;

  • Наши модели для простановки ударений - https://github.com/snakers4/silero-stress;

  • Наши модели синтеза - https://github.com/snakers4/silero-models;

  • Новые модели опубликованные в рамках проекта - https://github.com/snakers4/silero-models?tab=readme-ov-file#v5-cis-base-models;

  • Примеры запуска моделей для языков России и СНГ;

  • Обновление проекта silero-stress.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.