Lottery champion

Корпоративный пакет «Фриланс»

Обретите скорое решение
задач ваших, с помощью
космоса и биржи нашей

Профессиональные
фрилансеры и ваш бизнес.
Мы поможем вам это испытать!

Задачи — ваши,
фрилансеры — наши!

Основные шаги и краткие советы для заказчиков и фрилансеров

Lottery champion

01.07.2017

В расчете на каждое состояние может быть предусмотрено много действий, поэтому для представления значений действия требуется больше памяти, чем для значений состояния. Применение Q-значений на lottery-champion.com.ua позволяет оценивать преимущества действий отдельно, тогда как все остальные показатели рассматриваются вместе со значениями состояния.

Один из недостатков, связанных с использованием приведенных выше уравнений, обусловлен тем, что отсутствует какой-либо очевидный способ вычисления оцениваемой отдачи Е^. Но именно в этом состоит назначение различных алгоритмов обучения. Тем не менее определения значений состояния и значений действия можно переформулировать, чтобы иметь возможность использовать рекурсивные формы определений. Свойство рекурсивности применяется для вычисления способов действий в большинстве алгоритмов обучения с подкреплением.

Интуиция подсказывает, что соседние состояния также содержат значения состояния и значения действия, поэтому существует возможность определить отношение между значением состояния и оцениваемой отдачей его соседнего состояния.

В обучении на основе временной разности применяются два простых алгоритма. Один из этих алгоритмов, получивший название Бага, рассматривается как основанный на применении способа действий, поскольку в этом алгоритме один и тот же способ действий служит и для обучения, и для исследования. С другой стороны, в методе обучения способ действия не применяется, поскольку выбранные действия не влияют на обучение. (Поведенческий способ действий и способ действий, относящийся к управлению, могут рассматриваться отдельно.)

Различия между этими двумя алгоритмами весьма невелики. Оба алгоритма обеспечивают определение с помощью обучения значений действия дтя каждого состояния (т.е. значений). Кроме того, в обоих алгоритмах используется резервирование на единичную глубину. Но в алгоритме Багеа используется резервирование выборки (для обновления оценки служит только одно О-значение), тогда как в алгоритме О-обучения применяется полное резервирование (для обновления текущей оценки служат все 0-значения, относящиеся к следующему состоянию). В данной главе рассматривается алгоритм О-обучения, поскольку он нашел наиболее широкое распространение, обеспечивает лучшее качество обучения и не полагается на конкретный исследовательский способ действий .

Весьма аналогичный способ может применяться для оценки значений состояния, хотя в основе работы самого алгоритма лежат значения вероятностей переходов, полученные с помощью модели мира. Процесс обучения может оказаться более быстрым, поскольку Q-значения сворачиваются в одно значение состояния, но менее точным.