Совершенствование систем распознавания речи для инклюзивности

ВАШИНГТОН, 30 апреля 2024 г. – Взаимодействие с голосовыми технологиями, такими как Alexa от Amazon, Siri от Apple и Google Assistant, может облегчить жизнь за счет повышения эффективности и производительности. Однако ошибки в формировании и понимании речи во время взаимодействия являются обычным явлением. При использовании этих устройств говорящие часто меняют свою речь с обычной на более высокий и медленный регистр, что называется речью, управляемой технологиями.

Исследования речи, основанной на технологиях, обычно фокусируются на доминирующих вариантах американского английского без учета групп говорящих, которые часто неправильно понимаются с помощью технологий. В JASA Express Letters, опубликованном издательством AIP Publishing от имени Акустического общества Америки, исследователи из Google Research, Калифорнийского университета в Дэвисе и Стэнфордского университета хотели устранить этот пробел.

Одна группа, которую часто неправильно понимают при использовании голосовых технологий, — это люди, говорящие на афроамериканском английском, или AAE. Поскольку уровень ошибок автоматического распознавания речи может быть выше у носителей AAE, последующие эффекты языковой дискриминации могут привести к технологиям.

«Во всех системах автоматического распознавания речи четыре из каждых десяти слов, произнесенных чернокожими мужчинами, были расшифрованы неправильно», — сказал соавтор Зайон Менгеша. «Это влияет на равенство афроамериканцев, говорящих на английском языке, в каждой организации, использующей голосовые технологии, включая здравоохранение и трудоустройство».

«Мы увидели возможность лучше понять эту проблему, поговорив с чернокожими пользователями и поняв их эмоциональные, поведенческие и лингвистические реакции при использовании голосовых технологий», — сказала соавтор Кортни Хилдрет.

Команда разработала эксперимент, чтобы проверить, как носители AAE адаптируют свою речь, представляя, что разговаривают с голосовым помощником, по сравнению с разговором с другом, членом семьи или незнакомцем. В ходе исследования проверялись условия речи знакомого человека, незнакомого человека и голосового помощника путем сравнения скорости речи и изменения высоты тона. В число участников исследования вошли 19 взрослых, которые идентифицировали себя как афроамериканцы или чернокожие и испытывали проблемы, связанные с голосовыми технологиями. Каждый участник задал голосовому помощнику ряд вопросов. Одни и те же вопросы повторялись, как если бы вы разговаривали со знакомым человеком, и снова с незнакомым человеком. Каждый вопрос был записан в общей сложности на 153 записи.

Анализ записей показал, что говорящие демонстрировали два последовательных изменения, когда они разговаривали с аудиотехнологией по сравнению с разговором с другим человеком: более медленная скорость речи с меньшим изменением высоты тона (более монотонная речь).

«Эти результаты показывают, что у людей есть ментальные модели того, как общаться с технологиями», — сказала соавтор Мишель Коэн. Для лучшего понимания используется конкретный «режим», учитывая различия в системах распознавания речи.

Есть и другие группы, которых неправильно понимают аудиотехнологии, например носители второго языка. Исследователи надеются расширить разнообразие языков, изучаемых в экспериментах по взаимодействию человека и компьютера, и устранить барьеры в технологии, чтобы она могла поддерживать каждого, кто хочет ее использовать.

/Общий выпуск. Этот материал исходной организации/авторов может носить хронологический характер и отредактирован для ясности, стиля и объема. Mirage.News не занимает корпоративных позиций или партий, и все мнения, позиции и выводы, выраженные здесь, принадлежат исключительно автору(ам). Полный текст можно посмотреть здесь.

Alexei Smirnov

Алексей Смирнов — автор новостного издания Solusnews.com, освещающий широкий круг тем, включая политику, экономику, технологии, спорт, культуру и повседневную жизнь. В своих материалах он делает акцент на понятной подаче информации и внимательном отношении к актуальным событиям. Алексей стремится предоставлять читателям только проверенные и полезные новости, помогая ориентироваться в быстро меняющейся повестке. Его тексты ориентированы на объективность, ясность и практическую ценность для широкой аудитории.

Amazon: рост цен на консоли нового поколения может ускорить переход игроков к облачному геймингу

Отказ от физических дисков для PlayStation назвали закономерным этапом развития игровой индустрии

REDMI Note 17 получит 7-дюймовый OLED-дисплей, а версия Pro — аккумулятор на 9000 мА·ч

Японские физические издания Grand Theft Auto VI для PlayStation 5 получат ограниченный срок активации цифровых кодов

Amazon: рост цен на консоли нового поколения может ускорить переход игроков к облачному геймингу

Nvidia и SK Hynix подписали соглашение на поставку чипов памяти стоимостью до $500 млрд

Anthropic представила платформу Claude Science для научных исследований и заявила о планах по разработке лекарств с помощью ИИ

Main Menu

Свежие записи

Pages

Добавить комментарий Отменить ответ

More Stories

Amazon: рост цен на консоли нового поколения может ускорить переход игроков к облачному геймингу

Отказ от физических дисков для PlayStation назвали закономерным этапом развития игровой индустрии

REDMI Note 17 получит 7-дюймовый OLED-дисплей, а версия Pro — аккумулятор на 9000 мА·ч

You may have missed

Японские физические издания Grand Theft Auto VI для PlayStation 5 получат ограниченный срок активации цифровых кодов

Amazon: рост цен на консоли нового поколения может ускорить переход игроков к облачному геймингу

Nvidia и SK Hynix подписали соглашение на поставку чипов памяти стоимостью до $500 млрд

Anthropic представила платформу Claude Science для научных исследований и заявила о планах по разработке лекарств с помощью ИИ