5 шпаргалок, которые помогут вам при работе с Google Cloud
Усовершенствованные модели и функции Speech-to-Text теперь доступны новым языкам
От анализа вызовов к автоматизированным видеосубтитрам — интерфейс Speech меняет способ взаимодействия людей и открывает новые возможности для бизнеса. Ведь технология распознавания речи лежит в основе всех преобразований и воплощает новые идеи в жизнь.
Google Cloud Speech-to-Text API позволяет пользователям отправлять аудиосообщения различных форматов и получать их транскрипцию. А возможности этой технологии поддерживают тысячи различных решений, включая Contact Center AI и Video Transcription.
Speech-to-Text максимально доступная, эксклюзивная и чрезвычайно полезная технология. Поэтому мы рады анонсировать вам ее обновленные функции, которые включают:
- семь абсолютно новых языков;
- усовершенствование и расширение телефонии до трех новых языков;
- адаптация речи для 68 новых языков;
- диаризация спикеров в 10 новых языках;
- и автоматическая пунктуация для 18 новых языков.
Благодаря этому, более чем 200 000 пользователей смогут воспользоваться технологией Speech-to-Text впервые, а более 3 миллиардов получат более точную и функциональную транскрипцию.
Расширение поддержки
С момента первого анонса Speech-to-Text, Google постоянно расширяет спектр поддерживаемых языков (до 127 в общей сложности) для обеспечения высококачественной технологии распознавания речи. Сейчас пользователям станут доступны 7 новых языков: бирманская, эстонский, узбекская, пенджабский, албанский, македонский и монгольский
Sourcenext, производитель портативного голосового переводчика Pocketalk, является одной из организаций, которая пользуется всесторонней языковой поддержкой Google Cloud Speech-to-Text.
«Широкие возможности Google Cloud Speech-to-Text, сделали возможным создание нашего Pocketalk», — сказал Хаджиме Каватаке, операционный директор по технологической стратегии, Sourcenext Corporation. «Благодаря чему повысилось качество нашего продукта, поскольку клиенты могут получать высокоточные и надежные переводы из любой точки мира».
Усовершенствованная модель телефонии
Весной 2018 Google запустил расширенную модель транскрипции телефонии для английского языка (США), что повысило уровень распознавания речи и транскрипции для клиентов с неидеальными аудиоданными телефонов и видеозвонков. Благодаря этому уровень качества вырос на 62%, по сравнению с базовой моделью, и помог Contact Center AI трансформировать работу call-центра.
Мы объявляем о поддержке трех новых языков в Speech-to-Text: английского, русского и испанского (США).
Одним из первых, кто воспользовался этой функцией, стал Voximplant — облачная платформа для разработчиков коммуникационных сервисов и приложений, со многими корпоративными клиентами в России. Они мгновенно осознали исключительную точность новой модели, о чем свидетельствуют слова Алексея Айларова, Генерального директора Voximplant:
«Мы начали сотрудничать с Google Cloud, потому что хотели обновить нашу голосовую платформу с помощью технологии Google AI. Поскольку мы часто получаем аудиосигналы телефонных сетей с низкой пропускной способностью, усовершенствованные модели телефонии меняют правила игры, обеспечивая повышенную точность разговоров между людьми и виртуальными агентами. Мы в восторге от стремления Google Cloud предоставлять высококачественные моделей еще большему количеству пользователей ».
Адаптация речи
Адаптация речи позволяет пользователям настраивать мощные модели Google в режиме реального времени. С помощью языковой адаптации можно сделать распознавания имен и названий продуктов. Также есть возможность задать API пути возвращения информации, что значительно улучшает качество распознавания речи.
Google внедряет новую технологию, которая улучшает языковую адаптацию в 68 новых регионах. Это нововведение позволит пользователям детально контролировать влияние речевой модели на важнейшие термины. Кроме этого, добавляется большее количество популярных «числовых классов» на нескольких новых языках:
- французском
- немецком
- испанском
- японской
- мандаринском
и других.
Диаризация спикеров
Диаризация — это возможность автоматически определять отдельные слова и предложения различных спикеров в аудиофайле, что позволяет пользователям понять не только то, что было сказано, но и кто сказал. Возможность с легкостью добавлять субтитры к аудио- или видео- файлам стала доступна для 10 новых языков:
- Английском (UK)
- Испанском
- Японском
- Мандаринском
и других.
Автоматическая пунктуация
Пунктуация является ключевым фактором, позволяющим повысить точность транскрипции и качество перевода. Поэтому благодаря внедрению автоматической пунктуации в 18 новых языках, большинство пользователей смогут получать стенограммы, которые в точности будут воспроизводить контекст, который пытался передать определенный пользователь. Вот перечень языков, которым стала доступна эта функция:
- Немецкий
- Французский
- Японский
- Шведский
и другие.
Итак, новые языки и совершенствовании функции интерфейса позволят миллиарду пользователей по всему миру использовать высококачественную технологию распознавания речи. Если Вы заинтересованы в трансформации своей организации с помощью технологии Speech-to-Text — обращайтесь в Cloudfresh! Наши сертифицированные эксперты проконсультируют и сделают все необходимое для того, чтобы Вы использовали существующие технологии максимально эффективно.