Разработчики мировой социальной сети создали систему ИИ, которая поддерживает игру в хедз-апе, техасском холдеме и костях с сильнейшими пользователями. Программа использует меньше знаний предметной области, при этом может принимать решения за долю секунды и способна к усиленному обучению на основе популярных убеждений. Проект назвали Recursive Belief-based Learning (ReBeL).
«Это шаг к разработке универсальных методов взаимодействия в мультипользовательской игре. Общие алгоритмы учитывают масштабные настройки участников и генерирует наиболее подходящее решение. Приложение будет полезно для сектора аукционов, переговоров, кибербезопасности и даже производства автомобилей», − комментируют специалисты компании.
Предыдущие покерные ИИ работали на основе усиленного обучения и поиска. Алгоритм в геометрической прогрессии запоминал всю получаемую информацию и поведенческие паттерны и использовал данные в прогнозировании и дальнейшей работе с агентами. Подход действенный, но малоэффективен в играх с несовершенной информацией, к примеру, покере и даже примитивной «камень-ножницы-бумага». Тут исход зависит от индивидуального сценария, общей стратегии игры и вероятности выбора покеристом того или иного хода.
ReBeL основывается на так называемом игровом состоянии пользователей. Кроме общеизвестных знаний, в него входит мнение игрока, его настроение по поводу конкретного турнира, сеть ценностей и сеть политики. В результате программа генерирует простой, гибкий набор решений, которые может принять реальный игрок, прогнозирует их результат с учетом конкретной руки, банка и фишек.
В рамках эксперимента программу тестировали в хедз-апе по техасскому холдему, костях и безлимитном холдеме. Против Донг «Donger Kim» Кима, лучшего среди хедзаперов, программе требовалось не более двух секунд на руку на 7500 раздач. При этом процесс принятия решения не занимал более 5 секунд.
Однако разработчики сообщают о возможном мошенничестве на базе новой системы, поэтому пока доступ к ней в покере ограничен. Пока компания предлагает протестировать работу алгоритмов в костях.
«Существуют алгоритмы ИИ, которые могут достигать сверхчеловеческой производительности в покере. Эти алгоритмы обычно предполагают, что участники располагают определенным количеством фишек или используют определенные размеры ставок. Переобучение алгоритмов для учета произвольных стеков фишек или непредвиденных размеров ставок требует большего объема вычислений. Программы старшего поколения не могут выполнить такую задачу в реальном времени. ReBeL при этом вычисляет политику для произвольных размеров стека и ставок в считанные секунды», − сообщают разработчики.