Cloud Blog – Google Cloud – Ulepszone modele i funkcje Speech-to-Text: Nowe języki już dostępne

Google Cloud 24.03.2020

Ulepszone modele i funkcje Speech-to-Text: Nowe języki już dostępne

Od analityki połączeń po automatyczne napisy wideo — interfejs Speech zmienia sposób, w jaki ludzie wchodzą w interakcje, i otwiera nowe możliwości biznesowe. Technologia rozpoznawania mowy leży u podstaw cyfrowej transformacji i napędza innowacje.

Interfejs API Google Cloud Speech-to-Text umożliwia przesyłanie wiadomości głosowych w różnych formatach i błyskawiczne otrzymywanie ich transkrypcji. Możliwości tej technologii wspierają tysiące rozwiązań, w tym Contact Center AI oraz transkrypcję wideo.

Speech-to-Text to najbardziej przystępna i efektywna technologia tego typu. Z radością ogłaszamy aktualizację jej funkcji, która obejmuje:

siedem zupełnie nowych języków;
ulepszenie i rozszerzenie obsługi telefonii o trzy nowe języki;
adaptację mowy dla 68 nowych języków;
diaryzację rozmówców w 10 nowych językach;
oraz automatyczną interpunkcję dla 18 nowych języków.

W rezultacie ponad 200 000 użytkowników po raz pierwszy skorzysta z technologii Speech-to-Text, a ponad 3 miliardy otrzyma bardziej dokładne i funkcjonalne transkrypcje.

Rozszerzenie wsparcia

Od momentu premiery Speech-to-Text, Google stale powiększa listę obsługiwanych języków (obecnie aż do 127), aby dostarczać najwyższej jakości technologię rozpoznawania mowy. Teraz użytkownicy mogą korzystać z 7 nowych języków: birmańskiego, estońskiego, uzbeckiego, pendżabskiego, albańskiego, macedońskiego i mongolskiego.

Sourcenext, producent przenośnego tłumacza głosowego Pocketalk, to organizacja, która w pełni wykorzystuje szerokie wsparcie językowe Google Cloud Speech-to-Text.

„Potężne możliwości Google Cloud Speech-to-Text pozwoliły nam stworzyć Pocketalk” — mówi Hajime Kawatake, dyrektor operacyjny ds. strategii technologicznej w Sourcenext Corporation. „Podniosło to jakość naszego produktu, ponieważ klienci mogą cieszyć się niezwykle precyzyjnymi i wiarygodnymi tłumaczeniami w dowolnym miejscu na świecie”.

Zaawansowany model telefonii

Wiosną 2018 roku Google wprowadziło rozszerzony model transkrypcji telefonicznej dla języka angielskiego (USA), który poprawił rozpoznawanie mowy u klientów zmagających się z niską jakością dźwięku podczas połączeń telefonicznych i wideo. W efekcie jakość wzrosła o 62% w porównaniu z modelem bazowym, co pomogło Contact Center AI zrewolucjonizować pracę biur obsługi klienta.

Ogłaszamy wsparcie dla trzech nowych języków w modelu telefonicznym Speech-to-Text: angielskiego, rosyjskiego i hiszpańskiego (USA).

Jednym z pierwszych użytkowników tej funkcji była firma Voximplant — platforma chmurowa dla usług komunikacyjnych, obsługująca wielu klientów korporacyjnych w Rosji. Błyskawicznie dostrzegli oni wyjątkową dokładność nowego modelu, co potwierdzają słowa Aleksieja Ajlarowa, CEO Voximplant:

„Nawiązaliśmy współpracę z Google Cloud, aby zmodernizować naszą platformę głosową przy użyciu technologii Google AI. Ponieważ często pracujemy na dźwięku o niskiej przepustowości z sieci telefonicznych, zaawansowane modele telefonii zmieniają reguły gry, umożliwiając bardziej precyzyjne rozmowy między ludźmi a wirtualnymi agentami. Cieszy nas zaangażowanie Google Cloud w dostarczanie wysokiej jakości modeli jeszcze szerszemu gronu odbiorców”.

Adaptacja mowy

Adaptacja mowy pozwala użytkownikom dostrajać potężne modele Google w czasie rzeczywistym. Dzięki niej można precyzyjnie rozpoznawać imiona, nazwiska oraz nazwy produktów. Możliwe jest również skonfigurowanie API tak, aby zwracało specyficzne informacje, co znacząco podnosi jakość rozpoznawania mowy.

Google wdraża nową technologię, która usprawnia adaptację językową w 68 regionach. Ta innowacja pozwoli użytkownikom na szczegółową kontrolę nad tym, jak model interpretuje kluczowe terminy. Dodatkowo wprowadzane są popularne „klasy numerów” w kilku nowych językach:

francuskim
niemieckim
hiszpańskim
japońskim
mandaryńskim
i innych.

Diaryzacja rozmówców

Diaryzacja to zdolność do automatycznego przypisywania poszczególnych słów i zdań do różnych rozmówców w pliku audio. Dzięki temu użytkownicy wiedzą nie tylko, co zostało powiedziane, ale również przez kogo. Funkcja łatwego dodawania napisów do plików audio lub wideo jest teraz dostępna w 10 nowych językach:

angielskim (Wielka Brytania)
hiszpańskim
japońskim
mandaryńskim
i innych.

Automatyczna interpunkcja

Interpunkcja to kluczowy czynnik wpływający na dokładność transkrypcji i jakość tłumaczenia. Dzięki wprowadzeniu automatycznej interpunkcji w 18 nowych językach, większość użytkowników otrzyma teksty, które precyzyjnie oddają kontekst wypowiedzi. Oto niektóre z języków, w których funkcja ta stała się dostępna:

niemiecki
francuski
japoński
szwedzki
i inne.

Nowe języki i ulepszone funkcje interfejsu pozwolą miliardom osób na całym świecie korzystać z najwyższej klasy technologii rozpoznawania mowy. Jeśli chcesz przeprowadzić transformację swojej organizacji dzięki Speech-to-Text, skontaktuj się z Cloudfresh! Nasi certyfikowani eksperci Google Cloud doradzą Ci i zadbają o to, abyś wykorzystał dostępne technologie z maksymalną efektywnością.

Skontaktuj się z Сloudfresh

Czytaj więcej

14.09.2021

5 ściągawek, które pomogą Ci rozpocząć pracę z Google Cloud

23.09.2020

9 sposobów na tworzenie kopii zapasowych Twoich systemów SAP w Google Cloud

27.10.2023

Speech-to-Text od Google Cloud: Dlaczego warto z niego korzystać