Cloud blog – Jak Google mění svůj Cloud Speech-to-Text AI ve skutečný obchodní nástroj

Jak Google mění svůj Cloud Speech-to-Text AI ve skutečný obchodní nástroj

Cloudová technologie převodu textu na řeč Speech-to-Text od Googlu nyní zahrnuje vylepšené telefonní hovory a přepisy videí, automatickou interpunkci a rozpoznávací metadata.

  • Google aktualizoval rozhraní Cloud Speech-to-Text API a vylepšil funkci telefonního hovoru a přepisu videí, aby tak služba byla pro firmy ještě užitečnější.
  • Aktualizace Speech-to-Text zahrnuje automatickou interpunkci a volitelně rozpoznávací metadata.

V pondělí společnost Google oznámila významnou aktualizaci technologie Cloud Speech-to-Text, díky níž bude API užitečnější pro firmy, včetně vylepšené funkce telefonního hovoru a přepisu videí.

Toto oznámení navazuje na březnové představení společnosti Google o nabídce Cloud Speech-to-Text, která vývojářům umožňuje posílit systémy hlasové odezvy pro call centra, umožňuje zařízení internetu věcí (IoT) komunikovat zpět s uživateli a převádět textová média na mluvený formát. Oznámení by mohlo signalizovat, že se technický gigant stále více zajímá o dodávku svých nástrojů s umělou inteligencí (AI) do vlastních struktur.

Cloud Speech-to-Text — původně znám jako Cloud Speech API — byl poprvé představen v roce 2016 a je k dispozici veřejnosti něco přes rok. Podle prohlášení Dana Aharona na blogu Googlu, produktového manažera Cloud AI, se používání API více než zdvojnásobuje každých šest měsíců.

PODÍVEJTE SE: Rychlý glosář: Hybridní cloud (Tech Pro Research)

Aktualizace Cloud Speech-to-Text zahrnuje modely rozpoznávání řeči, které jsou přizpůsobeny pro konkrétní případy použití, včetně přepisů telefonních hovorů a přepisů zvuku z videa, podle příspěvku. Zákazníci si mohou vybrat model, který nejlépe odpovídá potřebám jejich firmy.

Aktualizace také zahrnuje jeden z prvních programů pro pro protokolování dat, s modelem zvaným „enhanced phone_call“, který ke zlepšení systému využívá údaje o zákaznících. Zákazníci, kteří se rozhodnou pro účast v programu, získají přístup k modelu, který má o 54% méně chyb než základní model „phone_call“, podle Aharona.

Google také odhalil video model, který byl optimalizován pro zpracování zvuku z videa a / nebo zvuku z vícero reproduktorů, uvádí Aharon. Video model používá strojové učení – podobné tomu, které používá funkce titulků na YouTube – a nabízí o 64% méně chyb ve srovnání s výchozím modelem.

Cloud Speech-to-Text také nyní zahrnuje automatickou interpunkci při transkripci řeči díky nové LSTM neuronové síti. Model – v současnosti dostupný v beta verzi – může v textu automaticky navrhovat čárky, otazníky a tečky. Funkce by mohla být užitečná např. při přepisech konferenčních hovorů nebo při psaní poznámek hlasem.

Uživatelé mohou také zvolit volitelná rozpoznávací metadata a svými pracovní přepisy poskytnout týmu Google zpětnou vazbu, za účelme vylepšení produktu. Můžete například popsat své přepsané audio nebo video pomocí štítků jako jsou např. „hlasové příkazy pro nakupovací aplikaci“ nebo „basketbalové sportovní televizní pořady“, a Google následně agreguje tyto informace mezi uživateli Cloud Speech-to-Text k určení dalšího projektu.

„Přístup ke kvalitní technologii přepisování řeči otevírá společnostem, které se chtějí spojit a učit se od svých uživatelů, nový svět možností,“ napsal Aharon ve svém příspěvku. „Díky aktualizaci Cloud Speech-to-Text získáte přístup k nejnovějšímu výzkumu od našeho týmu odborníků na strojové učení, a to vše prostřednictvím jednoduchého rozhraní REST API.“

Modely „vylepšeného telefonního hovoru“ a videa jsou nyní k dispozici pro přepis v anglickém jazyce a brzy budou k dispozici i pro další jazyky. Pokud jde o náklady, činí API 0,006 $ za 15 sekund audia pro všechny modely kromě video modelu, který stojí 0,012 USD za 15 sekund. Společnost Google však poskytuje nový model videa za 0,006 $ za 15 sekund po omezenou zkušební dobu do 31. května.

Více se dozvíte na stránce produktu Speech-to-Text kde také můžete vyzkoušet demoverzi.