Cloud blog – Vylepšené modely a funkce Speech-to-Text jsou nyní k dispozici pro nové jazyky

Google Cloud 24.03.2020

Vylepšené modely a funkce Speech-to-Text jsou nyní k dispozici pro nové jazyky

Od analýzy hovorů až po automatizované video titulky mění rozhraní Speech způsob interakce lidí a otevírá nové obchodní příležitosti. Koneckonců, technologie rozpoznávání řeči je jádrem všech transformací a přináší do života nové nápady.

Rozhraní Google Cloud Speech-to-Text API umožňuje uživatelům posílat zvukové zprávy různých formátů a přijímat jejich přepisy. A možnosti této technologie podporují tisíce různých řešení, včetně AI kontaktního centra a přepisu videa.

Převod řeči na text je nejdostupnější, nejexkluzivnější a velmi užitečná technologie. Proto vám s radostí oznamujeme jeho aktualizované funkce, mezi které patří:

sedm zcela nových jazyků;
zlepšení a rozšíření telefonního subsystému do tří nových jazyků;
přizpůsobení řeči pro 68 nových jazyků;
diarizace mluvčích v 10 nových jazycích;
a automatická interpunkce pro 18 nových jazyků.

Díky tomu bude moci více než 200 000 uživatelů poprvé používat technologii Speech-to-Text a více než 3 miliardy obdrží přesnější a funkčnější přepis.

Rozšířená podpora

Od prvního oznámení funkce Převod Speech-to-text společnost Google neustále rozšiřuje řadu podporovaných jazyků (celkem až 127), aby poskytovala vysoce kvalitní technologii rozpoznávání řeči. Nyní bude uživatelům k dispozici 7 nových jazyků: barmština, estonština, uzbečtina, paňdžábština, albánština, makedonština a mongolština

Sourcenext, výrobce přenosného hlasového překladače Pocketalk, je jednou z organizací, které využívají komplexní podporu jazyka Google Cloud Speech-to-Text.

„Výkonné funkce služby Google Cloud Speech-to-Text nám umožnily vybudovat náš Pocketalk,“ řekl Hajime Kawatake, COO pro technologickou strategii, Sourcenext Corporation. “To zlepšilo kvalitu našeho produktu, protože zákazníci mohou získat vysoce přesné a spolehlivé překlady odkudkoli na světě.”

Pokročilý model telefonního subsystému

Na jaře roku 2018 Google spustil rozšířený model přepisu v americké angličtině, který zlepšil rozpoznávání a přepis řeči pro zákazníky s méně než ideálním zvukem telefonování a videohovorů. V důsledku toho se úroveň kvality zvýšila o 62 % ve srovnání se základním modelem a pomohla Contact Center AI transformovat práci call centra.

Oznamujeme podporu tří nových jazyků v převodu Speech-to-text: angličtiny, ruštiny a španělštiny (USA).

Jedním z prvních, kdo tuto funkci využil, byl Voximplant, cloudová platforma pro vývojáře komunikačních služeb a aplikací s mnoha korporátními klienty v Rusku. Okamžitě si uvědomili výjimečnou přesnost nového modelu, o čemž svědčí slova Alexeje Alilarova, generálního ředitele společnosti Voximplant:

“Začali jsme spolupracovat s Google Cloud, protože jsme chtěli aktualizovat naši hlasovou platformu pomocí technologie Google AI. Vzhledem k tomu, že často přijímáme zvukové signály z telefonních sítí s malou šířkou pásma, pokročilé telefonní modely mění pravidla hry a poskytují větší přesnost konverzací mezi lidmi a virtuálními agenty. Jsme nadšeni závazkem služby Google Cloud poskytovat vysoce kvalitní modely ještě většímu počtu uživatelů.”

Adaptace řeči

Přizpůsobení řeči umožňuje uživatelům přizpůsobit výkonné modely Google v reálném čase. Pomocí jazykové adaptace můžete provést rozpoznávání názvů a názvů produktů. Je také možné nastavit API způsobu vracení informací, což výrazně zlepšuje kvalitu rozpoznávání řeči.

Google zavádí novou technologii, která zlepšuje jazykovou adaptaci v 68 nových regionech. Tato inovace umožní uživatelům podrobně kontrolovat dopad modelu řeči na nejdůležitější termíny. Kromě toho se přidávají populárnější “číselné třídy” v několika nových jazycích:

Francouzštině
Němčině
Španělštině
Japonštině
Čínštině

a dalších.

Diarizace mluvčích

Diarizace je schopnost automaticky identifikovat jednotlivá slova a věty od různých mluvčích ve zvukovém souboru, což uživatelům umožňuje porozumět nejen tomu, co bylo řečeno, ale také kdo to řekl. Možnost snadného přidávání titulků k audio nebo video souborům je nyní k dispozici v 10 nových jazycích:

Angličtině (Velká Británie)
Španělštině
Japonštině
Čínštině

a dalších.

Automatická interpunkce

Interpunkce je klíčovým faktorem při zlepšování přesnosti přepisu a kvality překladu. Proto díky zavedení automatické interpunkce v 18 nových jazycích bude většina uživatelů schopna přijímat přepisy, které přesně reprodukují kontext, který se konkrétní uživatel pokusil sdělit. Zde je seznam jazyků, pro které je tato funkce k dispozici:

Němčina
Francouzština
Japonština
Švédština

a další.

Nové jazyky a vylepšené funkce rozhraní tak umožní miliardě uživatelů po celém světě používat vysoce kvalitní technologii rozpoznávání řeči. Pokud máte zájem o transformaci vaší organizace pomocí technologie Speech-to-Text, kontaktujte Cloudfresh! Naši certifikovaní odborníci vám poradí a udělají vše potřebné pro to, abyste své stávající technologie využívali co nejefektivněji.

Spojte se se společností Сloudfresh

Přečtěte si více

14.09.2021

5 taháků, které vám pomohou začít s Google Cloud

23.09.2020

9 způsobů zálohování vašich systémů SAP v Google Cloud

27.10.2023

Převod řeči na text pomocí Google Cloud: Proč to využívat?