22 ноября, 2024

SolusNews.com

Последние новости

Совершенствование систем распознавания речи для инклюзивности

Совершенствование систем распознавания речи для инклюзивности

ВАШИНГТОН, 30 апреля 2024 г. – Взаимодействие с голосовыми технологиями, такими как Alexa от Amazon, Siri от Apple и Google Assistant, может облегчить жизнь за счет повышения эффективности и производительности. Однако ошибки в формировании и понимании речи во время взаимодействия являются обычным явлением. При использовании этих устройств говорящие часто меняют свою речь с обычной на более высокий и медленный регистр, что называется речью, управляемой технологиями.

Исследования речи, основанной на технологиях, обычно фокусируются на доминирующих вариантах американского английского без учета групп говорящих, которые часто неправильно понимаются с помощью технологий. В JASA Express Letters, опубликованном издательством AIP Publishing от имени Акустического общества Америки, исследователи из Google Research, Калифорнийского университета в Дэвисе и Стэнфордского университета хотели устранить этот пробел.

Одна группа, которую часто неправильно понимают при использовании голосовых технологий, — это люди, говорящие на афроамериканском английском, или AAE. Поскольку уровень ошибок автоматического распознавания речи может быть выше у носителей AAE, последующие эффекты языковой дискриминации могут привести к технологиям.

«Во всех системах автоматического распознавания речи четыре из каждых десяти слов, произнесенных чернокожими мужчинами, были расшифрованы неправильно», — сказал соавтор Зайон Менгеша. «Это влияет на равенство афроамериканцев, говорящих на английском языке, в каждой организации, использующей голосовые технологии, включая здравоохранение и трудоустройство».

«Мы увидели возможность лучше понять эту проблему, поговорив с чернокожими пользователями и поняв их эмоциональные, поведенческие и лингвистические реакции при использовании голосовых технологий», — сказала соавтор Кортни Хилдрет.

Команда разработала эксперимент, чтобы проверить, как носители AAE адаптируют свою речь, представляя, что разговаривают с голосовым помощником, по сравнению с разговором с другом, членом семьи или незнакомцем. В ходе исследования проверялись условия речи знакомого человека, незнакомого человека и голосового помощника путем сравнения скорости речи и изменения высоты тона. В число участников исследования вошли 19 взрослых, которые идентифицировали себя как афроамериканцы или чернокожие и испытывали проблемы, связанные с голосовыми технологиями. Каждый участник задал голосовому помощнику ряд вопросов. Одни и те же вопросы повторялись, как если бы вы разговаривали со знакомым человеком, и снова с незнакомым человеком. Каждый вопрос был записан в общей сложности на 153 записи.

READ  Я сделал эти 10 потрясающих фоторедактирований с помощью Galaxy AI на своем Samsung Galaxy Z Fold 6 — и больше никогда не буду чувствовать себя одиноким

Анализ записей показал, что говорящие демонстрировали два последовательных изменения, когда они разговаривали с аудиотехнологией по сравнению с разговором с другим человеком: более медленная скорость речи с меньшим изменением высоты тона (более монотонная речь).

«Эти результаты показывают, что у людей есть ментальные модели того, как общаться с технологиями», — сказала соавтор Мишель Коэн. Для лучшего понимания используется конкретный «режим», учитывая различия в системах распознавания речи.

Есть и другие группы, которых неправильно понимают аудиотехнологии, например носители второго языка. Исследователи надеются расширить разнообразие языков, изучаемых в экспериментах по взаимодействию человека и компьютера, и устранить барьеры в технологии, чтобы она могла поддерживать каждого, кто хочет ее использовать.

/Общий выпуск. Этот материал исходной организации/авторов может носить хронологический характер и отредактирован для ясности, стиля и объема. Mirage.News не занимает корпоративных позиций или партий, и все мнения, позиции и выводы, выраженные здесь, принадлежат исключительно автору(ам). Полный текст можно посмотреть здесь.