Meta Voicebox е нов генератор на глас от текст с ИИ

Meta Voicebox е нов генератор на глас от текст с ИИ

Meta продължава разработките си на продукти с технологии, включващи изкуствен интелект (ИИ), а най-новото ѝ решение е Voicebox. Генеративен модел за текст към глас на база на зададен текст.

Той е обучен с над 50 000 часа нефилтриран звук, като от Meta са използвали записи на реч и преписи от аудиокниги от публични домейни на английски, френски, испански, немски, полски и португалски.

Това позволява постигането на по-естествено звучаща реч независимо от говорения език. Освен това компютърно генерираното съдържание е с едва 1% грешки с деградиране спрямо до 70% при съществуващи TTS модели.

Първоначално услугата е обучена да предсказва речеви сегменти на база на тези около тях, както и от транскрипта на пасажа. След това моделът може да приложи тези умения за цялото съдържание.

Voicebox може активно да редактира звукови клипове, да премахва шум от речта и да заменя не добре изговорени думи. Иначе е заложено на метод на обучение, наречен Flow Matching, който постига високи нива на точност.

Meta обаче засега не планира да пуска новото си решение към крайните потребители заради потенциала за злоупотреби. От компанията все пак споделят, че се надяват в бъдеще технологията да може да бъде прилагана в сферата на здравеопазването.

Източник: Meta


Втора употреба с гаранция