Клуб Чемпионов

Корпоративный пакет «Фриланс»

Обретите скорое решение
задач ваших, с помощью
космоса и биржи нашей

Профессиональные
фрилансеры и ваш бизнес.
Мы поможем вам это испытать!

Задачи — ваши,
фрилансеры — наши!

Основные шаги и краткие советы для заказчиков и фрилансеров

Клуб Чемпионов

01.07.2017

Метод Монте-Карло хорошо подходит для решения задач, для которых модель мира отсутствует. Для сбора статистических данных достаточно провести моделирование. Но для обработки достаточного количества эпизодов может потребоваться определенное время. Кроме того, для хранения данных об эпизоде во время их обработки требуется некоторая дополнительная память. В силу таких особенностей данный подход в большей степени применим для автономных процессов. Кроме того, несложно обеспечить его применение в локальных областях пространства состояний, поэтому могут быть созданы изящные методы, предусматривающие совместное использование этого подхода в сочетании с другими подходами.

Обучение на основе временной разности может рассматриваться как гибридный подход, соединяющий в себе метод динамического программирования и метод Монте- Карло. Данный метод обеспечивает обучение на основании опыта с использованием итерационного усовершенствования для оценки значений состояний, а для повышения его быстродействия в процессе обучения может применяться резервирование.

Преимущество этого подхода состоит в том, что он позволяет определять с помощью обучения необходимый способ действий в оперативном режиме, не требуя подхода на основе динамического программирования, который предусматривает исчерпывающий перебор. Из этого также следует, что модель мира не требуется. Ожидаемые значения вознаграждения интегрируются в процессе обучения, кроме того, при желании в ходе обучения можно также выявлять вероятности переходов (но не исключена также возможность принять какие-то гипотетические значения).

Фундаментальные элементы

Для выработки решений с помощью каждого из алгоритмов обучения с подкреплением используются общие подходы.

Стоимостные функции

Вес представленные методы (а также основная часть методов, используемых в обучении с подкреплением) основаны на понятии стоимостных функций. По существу, стоимостная функция club-champion.com.ua представляет собой оценку преимуществ ситуации. На практике принято определять стоимостные функции для состояний действий (выполняемых при условии, что задано конкретное состояние). Эго позволяет в алгоритмах обучения с подкреплением (для усвоения с помощью обучения способа действий) использовать любые сигналы вознаграждения, и отсроченные, и не отсроченные.

Значения действия

Аналогичным образом значения действия указывают на преимущества выполнения определенного действия в текущем состоянии. (Например, попытка напасть с топором на танк дает мало преимуществ.) Эти значения соответствуют ожидаемой отдаче в результате осуществления способа действий л после выполнения действия а в состоянии в. Значение действия принято также называть Q-значением и обозначать как Оя(в,а).