Усовершенствованные модели и функции Speech-to-Text

От анализа вызовов к автоматизированным видеосубтитрам — интерфейс Speech меняет способ взаимодействия людей и открывает новые возможности для бизнеса. Ведь технология распознавания речи лежит в основе всех преобразований и воплощает новые идеи в жизнь.

Google Cloud Speech-to-Text API позволяет пользователям отправлять аудиосообщения различных форматов и получать их транскрипцию. А возможности этой технологии поддерживают тысячи различных решений, включая Contact Center AI и Video Transcription.

Speech-to-Text максимально доступная, эксклюзивная и чрезвычайно полезная технология. Поэтому мы рады анонсировать вам ее обновленные функции, которые включают:

семь абсолютно новых языков;
усовершенствование и расширение телефонии до трех новых языков;
адаптация речи для 68 новых языков;
диаризация спикеров в 10 новых языках;
и автоматическая пунктуация для 18 новых языков.

Благодаря этому, более чем 200 000 пользователей смогут воспользоваться технологией Speech-to-Text впервые, а более 3 миллиардов получат более точную и функциональную транскрипцию.

Расширение поддержки

С момента первого анонса Speech-to-Text, Google постоянно расширяет спектр поддерживаемых языков (до 127 в общей сложности) для обеспечения высококачественной технологии распознавания речи. Сейчас пользователям станут доступны 7 новых языков: бирманская, эстонский, узбекская, пенджабский, албанский, македонский и монгольский

Sourcenext, производитель портативного голосового переводчика Pocketalk, является одной из организаций, которая пользуется всесторонней языковой поддержкой Google Cloud Speech-to-Text.

«Широкие возможности Google Cloud Speech-to-Text, сделали возможным создание нашего Pocketalk», — сказал Хаджиме Каватаке, операционный директор по технологической стратегии, Sourcenext Corporation. «Благодаря чему повысилось качество нашего продукта, поскольку клиенты могут получать высокоточные и надежные переводы из любой точки мира».

Усовершенствованная модель телефонии

Весной 2018 Google запустил расширенную модель транскрипции телефонии для английского языка (США), что повысило уровень распознавания речи и транскрипции для клиентов с неидеальными аудиоданными телефонов и видеозвонков. Благодаря этому уровень качества вырос на 62%, по сравнению с базовой моделью, и помог Contact Center AI трансформировать работу call-центра.

Мы объявляем о поддержке трех новых языков в Speech-to-Text: английского, русского и испанского (США).

Одним из первых, кто воспользовался этой функцией, стал Voximplant — облачная платформа для разработчиков коммуникационных сервисов и приложений, со многими корпоративными клиентами в России. Они мгновенно осознали исключительную точность новой модели, о чем свидетельствуют слова Алексея Айларова, Генерального директора Voximplant:

«Мы начали сотрудничать с Google Cloud, потому что хотели обновить нашу голосовую платформу с помощью технологии Google AI. Поскольку мы часто получаем аудиосигналы телефонных сетей с низкой пропускной способностью, усовершенствованные модели телефонии меняют правила игры, обеспечивая повышенную точность разговоров между людьми и виртуальными агентами. Мы в восторге от стремления Google Cloud предоставлять высококачественные моделей еще большему количеству пользователей».

Адаптация речи

Адаптация речи позволяет пользователям настраивать мощные модели Google в режиме реального времени. С помощью языковой адаптации можно сделать распознавания имен и названий продуктов. Также есть возможность задать API пути возвращения информации, что значительно улучшает качество распознавания речи.

Google внедряет новую технологию, которая улучшает языковую адаптацию в 68 новых регионах. Это нововведение позволит пользователям детально контролировать влияние речевой модели на важнейшие термины. Кроме этого, добавляется большее количество популярных «числовых классов» на нескольких новых языках:

французском
немецком
испанском
японской
мандаринском

и других.

Диаризация спикеров

Диаризация — это возможность автоматически определять отдельные слова и предложения различных спикеров в аудиофайле, что позволяет пользователям понять не только то, что было сказано, но и кто сказал. Возможность с легкостью добавлять субтитры к аудио- или видео- файлам стала доступна для 10 новых языков:

Английском (UK)
Испанском
Японском
Мандаринском

и других.

Автоматическая пунктуация

Пунктуация является ключевым фактором, позволяющим повысить точность транскрипции и качество перевода. Поэтому благодаря внедрению автоматической пунктуации в 18 новых языках, большинство пользователей смогут получать стенограммы, которые в точности будут воспроизводить контекст, который пытался передать определенный пользователь. Вот перечень языков, которым стала доступна эта функция:

Немецкий
Французский
Японский
Шведский

и другие.

Итак, новые языки и совершенствовании функции интерфейса позволят миллиарду пользователей по всему миру использовать высококачественную технологию распознавания речи. Если Вы заинтересованы в трансформации своей организации с помощью технологии Speech-to-Text — обращайтесь в Cloudfresh! Наши сертифицированные Google Cloud эксперты проконсультируют и сделают все необходимое для того, чтобы Вы использовали существующие технологии максимально эффективно.

Cвяжитесь с Сloudfresh

Читать дальше

14.09.2021

5 шпаргалок, которые помогут вам при работе с Google Cloud

23.09.2020

9 способов резервного копирования ваших систем SAP в Google Cloud

27.10.2023

Разспознование речи от Google Cloud: зачем использовать этот сервис