search
Cloud Блог – Google Speech-to-Text теперь включает улучшенную транскрипцию звонков и видео, автоматическую пунктуацию и распознавание метаданных.

Google Speech-to-Text теперь включает улучшенную транскрипцию звонков и видео, автоматическую пунктуацию и распознавание метаданных.

Google объявил о крупном обновлении своей технологии Cloud Speech-to-Text, которое сделает API более полезным для бизнеса, включая усовершенствованные телефонные звонки и транскрипцию видео.

Теперь Text-to Speech, сервис Google Cloud Platform (GCP), позволяет разработчикам использовать голосовые ответчики в колл-центрах, дает возможность устройствам Internet of Things (IoT) общаться с пользователями и превращать текстовые сообщения в голосовой формат. Это свидетельствует, что технический гигант все больше заинтересован в предоставлении бизнеса решений, работающих на базе искусственного интеллекта Google.

Cloud Speech-to-Text — ранее известная как API Cloud Speech — была впервые обнародована в 2016 году, технология доступна уже около 3-х лет. По данным Google, за это время использования API растет более чем вдвое каждые полгода.

Обновления Cloud Speech-to-Text включает модели распознавания речи, приспособленные для конкретных случаев использования, включая транскрипции телефонных звонков и транскрипции аудио из видео. Клиенты могут выбрать модель, которая лучше всего отвечает потребностям их бизнеса.

Обновления также включает в себя одну из первых в области программ для входа в систему регистрации данных, которая называется «enhanced phone_call». Она использует данные клиентов для совершенствования системы и имеет на 54% меньше ошибок, чем основная модель «phone_call».

Google также опубликовал видеомодель, которая была оптимизирована для обработки аудио из видео и / или аудио с несколькими динамиками. Эта модель использует алгоритм машинного обучения, схожий с тем, что используется в субтитрах YouTube и на 64% уменьшает количество ошибок по сравнению с обычной моделью.

Cloud Speech-to-Text также теперь включает автоматическую пунктуацию в транскрипциях языка благодаря новой нейронной сети LSTM. Модель может автоматически предлагать комы, знаки вопроса и тире в тексте. Это может быть полезным для транскрипций конференц-связи, а также для записи голоса.

 

Пользователи также могут добавлять метаданные к транскрибированию видео и предоставлять отзывы команде Google Cloud Platform для совершенствования продукта. Например, вы можете описать записанное аудио или добавить теги, вроде «голосовые команды приложения для покупок» или «баскетбольные спортивные телевизионные шоу», а Google Cloud агрегирует эту информацию от всех пользователей Cloud Speech-to-Text и использует для улучшения работы технологии в следующих проектах.

По словам Дэна Ахарони, продакт-менеджера Google Cloud AI:

«Доступ к качественной технологии транскрибирования речи открывает целый мир возможностей перед компаниями, которые хотят коммуницировать и научиться у своих пользователей. С этим обновлением Cloud Speech-to-Text Вы получаете доступ к последним разработкам нашей команды экспертов из машинного обучения, с помощью простого REST API»

Стоимость API составляет 0,006 долларов США за 15 секунд аудио для всех, кроме видеомодели, которая стоит 0,012 доллара за 15 секунд.

Для клиентов Cloudfresh доступны специальные цены на сервис с оплатой по безналичному расчету в гривне, долларах США или Евро. Также компания предоставит все необходимые бухгалтерские и юридические документы. А вишней на торте будет помощь с использованием, настройкой и дальнейшей технической поддержкой сервисов Google Cloud Platform.

Сторінка доступна українською мовою: Перейти