8 сентября, 2024

SolusNews.com

Последние новости

Использование идей теории игр для повышения надежности языковых моделей

Использование идей теории игр для повышения надежности языковых моделей

Представьте, что вы и ваш друг играете в игру, цель которой — доставлять друг другу секретные сообщения, используя только закодированные предложения. Задача вашего друга — угадать секретное послание, скрытое в ваших предложениях. Иногда вы даете доказательства напрямую, а иногда вашему другу приходится угадывать сообщение, задавая вопросы «да» или «нет» относительно предоставленных вами доказательств. Задача состоит в том, что вы оба хотите убедиться, что правильно понимаете друг друга и согласны с секретным посланием.

Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) создали аналогичную «игру», чтобы помочь улучшить то, как ИИ понимает и создает текст. Она известна как «игра консенсуса» и включает в себя две части системы ИИ: одна часть пытается генерировать предложения (например, давать подсказки), а другая часть пытается понять и оценить эти предложения (например, угадать секрет). сообщение).

Исследователи обнаружили, что, рассматривая это взаимодействие как игру, в которой обе части ИИ работают вместе по определенным правилам, чтобы договориться о правильном сообщении, они могут значительно улучшить способность ИИ давать правильные и связные ответы на вопросы. Они протестировали этот новый игровой подход на различных задачах, таких как понимание прочитанного, решение математических задач и общение, и обнаружили, что он помогает ИИ работать лучше по всем направлениям.

Традиционно большие языковые модели отвечают одним из двух способов: генерируя ответы непосредственно из модели (генеративный запрос) или используя модель для записи набора заранее определенных ответов (дискриминативный запрос), что может привести к различным, а иногда и несовместимым результатам. При генеративном подходе «Кто такой президент Соединенных Штатов?» Это может привести к прямому ответу, например «Джо Байден». Однако дискриминирующий запрос может ошибочно противоречить этому факту при оценке одного и того же ответа, например «Барак Обама».

READ  Что вы получаете внутри розничной коробки Valve Steam Deck?

Итак, как нам согласовать взаимно несовместимые процедуры оценки, чтобы добиться последовательных и эффективных прогнозов?

«Представьте себе новый способ помочь языковым моделям понимать и генерировать текст, как в игре. Мы разработали не требующий обучения метод теории игр, который рассматривает весь процесс как сложную игру подсказок и сигналов, поскольку генератор пытается ее сгенерировать. — говорит Атол Джейкоб, аспирант Массачусетского технологического института в области электротехники и компьютерных наук и член CSAIL: — Отправьте правильное сообщение человеку, который различает людей, используя естественный язык. Вместо шахматных фигур они используют слова и предложения». «Наш способ ориентироваться в этой игре — найти «приблизительные равновесия», что приводит к новому алгоритму декодирования, называемому «равновесной классификацией». «Это очень интересная демонстрация того, как можно объединить стратегии теории игр, чтобы решить некоторые серьезные проблемы, связанные с повышением надежности и последовательности языковых моделей».

При тестировании на нескольких задачах, таких как понимание прочитанного, логическое рассуждение, решение математических задач и диалог, алгоритм команды постоянно улучшал эффективность этих моделей. Использование алгоритма ER с моделью LLaMA-7B превзошло результаты гораздо более крупных моделей. «Учитывая, что он уже конкурентоспособен, над ним уже некоторое время работают, но уровень улучшений, которые мы увидели, и способность превзойти модель, в 10 раз большую по размеру, стали приятным сюрпризом», — говорит Джейкоб.

Запустить игру

«Дипломатия», стратегическая настольная игра, действие которой разворачивается в Европе до Первой мировой войны, в которой игроки заключают союзы, предают друзей и завоевывают территории без использования игральных костей — полностью полагаясь на навыки, стратегию и манипуляции персонажами — недавно увидела второе появление. В ноябре 2022 года ученые-компьютерщики, в том числе Джейкоб, разработали «Цицерон», ИИ-агент, который достигает способностей человеческого уровня в игре со смешанными мотивами для семи игроков, которая требует тех же навыков, упомянутых выше, но на естественном языке. Математика, стоящая за этим, отчасти вдохновила игру на достижение консенсуса.

READ  8 расширений Google Chrome, которые просто забавны

Хотя история ИИ-агентов началась задолго до того, как OpenAI вошел в чат в ноябре 2022 года, хорошо известно, что они все еще могут маскироваться под благонамеренных, но больных друзей.

Совместимая игровая система достигает баланса в виде соглашения, гарантируя точность и верность оригинальному замыслу модели. Для достижения этой цели метод итеративно корректирует взаимодействие между генеративными и дискриминативными компонентами до тех пор, пока они не достигнут консенсуса по ответу, который точно отражает реальность и соответствует их первоначальным убеждениям. Этот подход эффективно устраняет разрыв между двумя методами запроса.

На практике реализация подхода «консенсусной игры» к запросам языковой модели, особенно для задач ответа на вопросы, сопряжена со значительными вычислительными проблемами. Например, при использовании таких наборов данных, как MMLU, которые содержат тысячи вопросов и ответов с несколькими вариантами ответов, модель должна применять этот механизм к каждому запросу. Следовательно, необходимо достичь консенсуса между порождающими и различительными компонентами каждого вопроса и возможными ответами на него.

Система столкнулась с трудностями при получении права поступления в начальную школу: математические задачи. Он не может генерировать неправильные ответы, что является решающим элементом в понимании процесса получения правильных ответов.

«За последние несколько лет мы увидели действительно впечатляющий прогресс как в принятии стратегических решений, так и в генерации языков с помощью систем искусственного интеллекта, но мы только начинаем понимать, как объединить эти два процесса. Сбалансированный рейтинг — это первый шаг в этом направлении. но я думаю: «Мы можем многое сделать, чтобы распространить это на более сложные проблемы».

Одним из направлений будущей работы является улучшение базовой модели путем включения результатов существующего метода. Это особенно многообещающе, поскольку может привести к более реалистичным и последовательным ответам на различные задачи, включая реализм и открытое поколение. Вполне возможно, что такой подход может значительно улучшить производительность базовой модели, что может привести к более надежным и реалистичным результатам, чем ChatGPT и аналогичные языковые модели, которые люди используют каждый день.

READ  Riot Games раскрыла новые подробности о Project L и игровом процессе

«Хотя современные языковые модели, такие как ChatGPT и Gemini, решают различные задачи через интерфейсы чата, процесс статистического декодирования, генерирующий ответ от таких моделей, остается неизменным на протяжении десятилетий», — говорит ученый-исследователь Google Ахмед Байрами, не принимавший участия в разработке. работа. «Предложение исследователей из Массачусетского технологического института представляет собой инновационную теоретико-игровую основу для декодирования моделей языка путем решения консенсусного игрового равновесия. Значительный прирост производительности, о котором сообщается в статье, является многообещающим и открывает дверь к потенциальному сдвигу парадигмы в модели языкового декодирования. что… «Это может вызвать волну новых приложений».

Джейкоб написал статью вместе с исследователем лаборатории MIT-IBM Watson Икан Шеном и доцентом кафедры электротехники и информатики Массачусетского технологического института Габриэлем Фариной и Джейкобом Андреасом, который также является членом CSAIL. Они представили свою работу на Международной конференции по обучающимся представлениям (ICLR) в начале этого месяца, где она была отмечена как «В центре внимания». Исследование также получило награду «Лучшая статья» на семинаре NeurIPS R0-FoMo в декабре 2023 года.