Голосовой поиск (voice search)

Голосовой поиск (voice search)

Голосовой поиск (voice search)

Только ленивый не знает сегодня о том, что такое голосовой поиск. Его используют большинство поисковых систем: Google, Яндекс и другие IT-компании.

Виртуальных голосовых помощников выпустили практически все ведущие мировые IT-компании, а основную работу по их популяризации уже провели Apple, Google и Amazon.
голосовой поиск (voice search)
Разработки в сфере автоматизированных коммуникаций ведут крупнейшие ИТ-компании, и роботы с каждым днем становятся все умнее. Так, к 2025 году мировой рынок технологий распознавания речи должен превысить $30 млрд. К этому времени в мире, согласно прогнозам, будет работать более 8 млн голосовых ассистентов (для сравнения, еще в 2018 году — 2,5 млн).

На российском рынке тоже наметились свои лидеры в этой области. Первым крупным игроком, запустивших собственного голосового ассистента в России, стал «Яндекс». По данным компании, публикуемым официально, Алисой пользуется 45 миллионов пользователей в месяц, а число ежемесячных запросов к ассистенту – составляет более 1 млрд.

Все началось с помощника Siri на iPhone. Когда 2011 году этот продукт был показан на презентации нового iPhone 4S, многие посмотрели на развитие IT-индустрии по-новому. Действительно, искусственный интеллект в кармане, понимающий естественную речь, еще не показывал никто.

Многие в то время начали говорить о том, что Apple может уже на следующем WWDC предоставить всем программистам под iOS возможность использовать открытое API ассистента Siri для своих собственных программ. Картина вырисовывалась радужной — любое приложение смогло бы реагировать на пользовательские фразы, исполняя различные команды.

Действительно, если в магазине AppStore так много разных полезных приложений, почему бы им не дать возможность управления голосом? Тем более что такой вид коммуникации с пользователем, как речь, быстро стал трендовым после выхода iPhone 4s.

Надо отметить, что большинство путает просто распознавание речи и собственно возможности ассистента как искусственного интеллекта. Между этими двумя понятиями огромная разница — решения по распознаванию речи (speech-to-text) присутствуют на рынке уже давно (к примеру, в ОС Android она доступна всем желающим), а вот создать открытую технологию диалоговой системы (с поддержанием контекста, извлечением смысла и т.д.) не удавалось еще никому.

Многие также не задумывались о том количестве проблем, которые возникнут при общем доступе множества программ к единому мозговому центру AI в лице Siri. А также о том числе совершенно новых технологий, с которым программистам пришлось бы иметь дело.

Влияние BERT на «сниппет» в поисковой выдаче

Распознают голосовые запросы из микрофона (переводят из звука в текст)

Обрабатывают поисковые запросы

  • Искусственные нейронные сети для обработки естественного языка в поисковиках (тональность, оригинальность, контекст)

Оценивают релевантность вашего контента запросу

  • Искусственные нейронные сети ( и модели, с еще более сложной архитектурой) для ранжирования

Выдача сниппета Google при голосовых запросах

  • Списки
  • Видео
  • Таблицы
  • Текст
  • Картинки

Сервис распознавания эмоций

Разговорный искусственный интеллект развивается в различных направлениях. Одна из самых перспективных технологий — это сервис распознавания эмоций. Изначально мы предполагали, что ИИ сможет распознавать относительно большой спектр эмоций (около 12), однако в итоге остановились на трех базовых:

  • позитивном,
  • негативном,
  • нейтральном

— эти настроения определяются с точностью до 95% (на разницу в несколько процентов чаще всего влияет качество связи).

Ведь даже человек не всегда способен определить, например, грустит он или печалится. Компании внедряют подобные технологии не просто так: например, определяя негатив, робот может соединить клиента с оператором, чтобы раздражение не копилось, а конкретная задача решилась максимально быстро и эффективно.

Основная идея, которая лежит в основе нового подхода, – брать пример с процесса реализуемого человеческим мозгом. Вы замечали, что человек, в процессе разговора, начинает анализировать сообщение, которое проговаривает собеседник, не в тот момент, как оно было полностью закончено, а практически сразу, в момент самого начала его звучания, уточняя с каждым новым словом? По этой причине мы, часто, готовы выдать ответ еще до того, как собеседник закончил свое сообщение.

Анализ настроений от Google

Natural Language API demo

проверяет данный текст и определяет преобладающее эмоциональное мнение в тексте.
То есть, определяет отношение автора как положительное, отрицательное или нейтральное.

«Красный» и «зеленый» передают полезную информацию о содержании, а «желтый» указывает на общее предложение, о котором все знают.

Google NLP https://cloud.google.com/natural-language/

Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: