Может показаться, что Жуйдун Чжан разговаривает сам с собой, но на самом деле аспирант в области информатики молча произносит пароль, чтобы разблокировать ближайший смартфон и включить следующую песню в своем плейлисте.
Это не телепат: это обычные очки, которые он, по-видимому, носит, под названием EchoSpeech — бесшумный интерфейс распознавания речи, который использует акустическое восприятие и искусственный интеллект для непрерывного распознавания до 31 неслышной команды, основанной на движениях губ и рта.
Разработано Корнеллом Лаборатория интеллектуальных компьютерных интерфейсов для будущих взаимодействий (SciFi)Исследователи заявили, что маломощному носимому интерфейсу требуется всего несколько минут данных для обучения пользователя, прежде чем он распознает команды и сможет работать на смартфоне.
Чжан является ведущим автором «EchoSpeech: Непрерывное распознавание тихой речи в очках с минимальным вмешательством, основанное на акустическом восприятии.’, который будет представлен на конференции Ассоциации вычислительной техники по человеческому фактору в вычислительных системах (CHI) в этом месяце в Гамбурге, Германия.
«Для людей, которые не могут артикулировать звук, эта технология тихой речи может стать отличным началом для синтезатора голоса. Возможное использование технологии при дальнейшем развитии», — сказал Чжан.
В своем нынешнем виде EchoSpeech можно использовать для общения с другими через смартфон в местах, где речь будет неудобной или неуместной, например, в шумном ресторане или тихой библиотеке. Бесшумный речевой интерфейс также может быть сопряжен с пером и использоваться с программным обеспечением для проектирования, таким как САПР, и все это без клавиатуры и мыши.
Очки EchoSpeech, оснащенные парой микрофонов и динамиков меньшего размера, чем ластик для карандашей, теперь имеют носимую систему сонара с искусственным интеллектом, которая посылает и принимает звуковые волны по лицу и ощущает движения рта. Затем алгоритм глубокого обучения, также разработанный исследователями SciFi Lab, анализирует эти эхо-профили в режиме реального времени с точностью до 95%.
Он сказал: «Мы передаем сонар над телом». Ченг ЧангКолледж вычислительной техники и информатики Пауэрса и директор Лаборатории научной фантастики.
«Мы очень рады этой системе, — сказал он, — потому что она действительно продвигает область вперед с точки зрения производительности и конфиденциальности. Она маленькая, с низким энергопотреблением и чувствительна к конфиденциальности, и все это важные функции для развертывания новых носимых технологий в реальном мире».
Лаборатория SciFi разработала несколько носимых устройств и устройств слежения. телоИ сдать И лицо Движения с использованием машинного обучения и миниатюрных носимых видеокамер. В последнее время тестер перешел от камер к акустическим датчикам для отслеживания движений лица и тела, сославшись на увеличение времени автономной работы; усилить безопасность и конфиденциальность; Меньшие и более компактные устройства. EchoSpeech создает аналогичный акустический датчик для лаборатории под названием EarIOНосимые наушники, которые отслеживают движения лица.
Чэн Чжан сказал, что большинство методов распознавания тихой речи ограничены набором предварительно заданных команд и требуют, чтобы пользователь смотрел в камеру или носил ее, что непрактично и бесполезно. Он сказал, что существуют серьезные проблемы с конфиденциальностью, связанные с носимыми камерами — как для пользователя, так и для тех, с кем пользователь взаимодействует.
Технология распознавания голоса, такая как EchoSpeech, устраняет необходимость в носимых видеокамерах. Поскольку аудиоданные намного меньше, чем данные изображения или видео, для их обработки требуется меньшая полоса пропускания, и они могут передаваться на смартфон через Bluetooth в режиме реального времени. Франсуа ЖемпретьеBowers CIS Профессор информационных наук Корнельского университета и соавтор.
«А поскольку данные обрабатываются локально на вашем смартфоне, а не загружаются в облако, конфиденциальная информация никогда не выходит из-под вашего контроля», — сказал он.
По словам Ченг Чанга, время автономной работы также значительно увеличивается: десять часов с голосовым управлением против 30 минут с камерой.
Команда изучает возможность коммерциализации технологии EchoSpeech, отчасти благодаря Ignite: Исследовательская лаборатория Корнелла по рыночному финансированию Gap.
В предстоящей работе исследователи SciFi Lab изучают применение смарт-очков для отслеживания движений лица, глаз и верхней части тела.
«Мы считаем, что Glass станет важной платформой персональных компьютеров для понимания человеческой деятельности в повседневной жизни», — сказал Чэн Чжан.
Другими соавторами были докторант информатики Ке Ли, Ихонг Хао ’24, Юфань Ван ’24 и Чжэннань Лай ’25. Это исследование частично финансировалось Национальным научным фондом.
Луис ДиПьетро — писатель из Корнеллского колледжа вычислительной техники и информационных наук им. Энн С. Пауэрс.
«Чрезвычайный решатель проблем. Ниндзя для путешествий. Типичный веб-наркоман. Проводник. Писатель. Читатель. Неизлечимый организатор».
More Stories
Сложный подъем для велосипедистов
AirPods Pro в списке «лучших изобретений» показывает, что Apple по-прежнему впечатляет
Apple включает неожиданные улучшения функций в свой MacBook Pro начального уровня