Cloud Блог – Google Speech-to-Text тепер включає вдосконалену транскрипцію дзвінків та відео, автоматичну пунктуацію та розпізнавання метаданих.

Google Speech-to-Text тепер включає вдосконалену транскрипцію дзвінків та відео, автоматичну пунктуацію та розпізнавання метаданих.

Google оголосив про велике оновлення своєї технології Cloud Speech-to-Text, яке зробить API більш корисним для бізнесу, включаючи вдосконалені телефонні дзвінки та транскрипцію відео.

 

Тепер Text-to Speech, сервіс Google Cloud Platform (GCP), дозволяє розробникам використовувати голосові відповідачі  в колл-центрах, дає можливість пристроям Internet of Things (IoT) спілкуватися з користувачами та перетворювати текстові повідомлення у голосовий формат. Це свідчить, що технічний гігант все більше зацікавлений у наданні бізнесу рішень, що працюють на базі штучного інтелекту Google.

Cloud Speech-to-Text – раніше відома як API Cloud Speech – була вперше оприлюднена у 2016 році, технологія доступна вже близько 3-х років.  Згідно даних Google, протягом цього часу використання API зростає більше ніж вдвічі кожні півроку.

Оновлення Cloud Speech-to-Text включає моделі розпізнавання мовлення, пристосовані для конкретних випадків використання, включаючи транскрипції телефонних дзвінків та транскрипції аудіо з відео. Клієнти можуть вибрати модель, яка найкраще відповідає потребам їх бізнесу.

Оновлення також включає в себе одну з перших в галузі програм для входу в систему реєстрації даних, яка називається “enhanced phone_call”.  Вона використовує дані клієнтів для вдосконалення системи і має на 54% менше помилок, ніж основна модель “phone_call”.

Google також опублікував відеомодель, яка була оптимізована для обробки аудіо з відео та / або аудіо з декількома динаміками. Ця модель використовує алгоритм машинного навчання, схожий з тим що використовується у субтитрах YouTube  і на 64% зменшує кількість помилок у порівнянні з типовою моделлю.

Cloud Speech-to-Text також тепер включає автоматичну пунктуацію в транскрипціях мови завдяки новій нейронній мережі LSTM. Модель може автоматично пропонувати коми, знаки запитання та тире в тексті. Це може бути корисним для транскрипцій конференц-дзвінків, а також для запису голосу.

 

Користувачі також можуть додавати метадані до транскрибування відео та надавати відгуки команді Google Cloud Platform для вдосконалення продукту. Наприклад, ви можете описати записане аудіо чи додати теги, на кшталт “голосові команди додатку для покупок” або “баскетбольні спортивні телевізійні шоу”, а Google Cloud агрегує цю інформацію від усіх користувачів Cloud Speech-to-Text і використає для покращення роботи технології в наступних проектах.

За словами Дена Ахарона,  продакт-менеджера Google Cloud AI:

“Доступ до якісної технології транскрибування мовлення відкриває цілий світ можливостей перед компаніями, які хочуть комунікувати і навчитися у своїх користувачів. З цим оновленням Cloud Speech-to-Text Ви отримуєте доступ до останніх розробок нашої команди експертів з машинного навчання, за допомогою простого REST API”

Вартість API становить 0,006 доларів США за 15 секунд аудіо для всіх моделей, крім відеомоделі, яка вартує 0,012 долара за 15 секунд. 

Для клієнтів Cloudfresh доступні спеціальні ціни на сервіс з оплатою по безготівковому рахунку в гривні, доларах США чи Євро. Також компанія надасть всі необхідні бухгалтерські та юридичні документи. А вишнею на торті буде допомога з впровадженням, налаштуванням та подальшою технічною підтримкою сервісів Google Cloud Platform.