Функция синтеза голоса тестируется в интерфейсах

синтеза голоса;yandex.ru
синтеза голоса;yandex.ru

Инструмент группы CMA Media, который называется MaX (Media Audio Experience), предназначен для адаптации статей к устной речи с помощью голоса, воспроизводящего человеческую интонацию. Мы его послушали.

С июня подписчики La Provence обнаружили новую кнопку на веб-сайте и мобильном приложении своей газеты. Это MaX, Media Audio Experience , функция, которая в настоящее время тестируется на интерфейсах марсельской ежедневной газеты, прежде чем будет распространена на все издания прессы, объединенные под баннером CMA Media ( La Provence , La Tribune , La Tribune Dimanche и т. д.) с января 2026 года.

Его обещание? Преобразование текста, написанного редакционными журналистами, в аудио с помощью ИИ. Разработка MaX является результатом сотрудничества между BGG X (дочерняя технологическая компания американского консалтингового гиганта Boston Consulting Group ), лабораторией ИИ Kyutai , Gemini (филиал ИИ Google) и, наконец, Mistral AI . Система также вдохновлена ​​радио благодаря вкладу журналистов из RMC (под баннером CMA Media).

В эту среду заинтересованные стороны проекта собрались на выставке VivaTech на стенде CMA CGM, материнской компании группы CMA Media, чтобы представить инновацию. Это была возможность увидеть ее в действии в статье, опубликованной 10 июня в La Provence , о гуманитарном судне, поддерживающем Палестину .

Подражайте радио
Чтобы использовать новый инструмент, просто перейдите к статье, которую вы хотите прослушать, с веб-сайта La Provence или мобильного приложения и запустите MaX. Затем женский голос читает заголовок, затем текст статьи после короткого джингла. Миссия выполнена на интонации синтезированного голоса, клонированного с голоса актрисы дубляжа лабораторией Kyutai . За исключением нескольких капель предложения, которые выдают машину, но не влияют на комфорт прослушивания, это фактически почти неотличимо от человеческой записи.

При повторном прослушивании мы замечаем изменения, внесенные в текст языковой моделью Gemini, используемой для его устной передачи. Например, слово «arraisonné» было заменено на «intercepté» в аудио, поскольку оно было сочтено слишком формальным. Длинные цитаты, которые трудно понять устно, также трансформируются, иногда сокращаются, иногда перефразируются. Наконец, машина систематически помещает имя цитируемого человека перед его словами, как это сделал бы радиожурналист.

источник публикации:Le Figaro

дата публикации 13.06.2025

Оставьте первый комментарий

Оставить комментарий