Казино Вулкан

Корпоративный пакет «Фриланс»

Обретите скорое решение
задач ваших, с помощью
космоса и биржи нашей

Профессиональные
фрилансеры и ваш бизнес.
Мы поможем вам это испытать!

Задачи — ваши,
фрилансеры — наши!

Узнать больше

Основные шаги и краткие советы для заказчиков и фрилансеров

Казино Вулкан

01.07.2017

Алгоритмы обучения с подкреплением

Алгоритмы обучения http://vulkanplatinumcasino.net/ подразделяются на три основных типа, с учетом того, основаны ли они на математических моделях, статистических данных или инкрементном обучении.

Методы динамического программирования

По существу, для вычисления способов действий и значений состояния часто применяются подходы, основанные на использовании грубой силы, в которых применяется динамическое программирование. Эти подходы предусматривают осуществление исчерпывающего перебора, но несмотря на это они показывают себя как удивительно эффективные. Процесс динамического программирования осуществляется в два этапа: на первом этапе оцениваются значения состояния для тех состояний, которые выбираются согласно принятому способу действий (оценка способа действий), а на втором этапе способ действий совершенствуется с использованием значений состояния (усовершенствование способа действий), как описано ниже.

При оценке способа действий по существу используется итерация для поиска решения крупной системы уравнений. Эти уравнения выражают каждое из значений состояния в терминах других значений состояния; при этом используется рекурсивное определение. Сам алгоритм проходит через все состояния и вычисляет уравнение в полном соответствии с этим описанием.

Результат накопления вознаграждения (обесцениваемый со временем) рассматривается как отдача.

Способ действий показывает, какие действия должны быть предприняты в том или ином состоянии, либо в виде распределения вероятностей, либо в виде единственного (детерминированного) действия.

Концепция значений состояния и действия позволяет использовать алгоритмы для определения преимуществ каждой ситуации. Ниже описаны три основных подхода к организации обучения с подкреплением.

В динамическом программировании, в основном, используются математические методы обработки знаний о среде, которые предусматривают обновление всех оценок с применением множества линейных уравнений.

В методах Монте-Карло используется большое количество обучающих эпизодов, сформированных случайным образом, для извлечения информации о тенденциях с помощью полученных статистических данных. Для распространения данных о вознаграждении, начиная с конца каждого эпизода, используется резервирование на полную глубину.

В методах обучения на основе временной разности оценки состояний обновляются инкрементно, с использованием значений, относящихся к соседним состояниям (итерационное усовершенствование).

Каждый из этих методов является наиболее применимым в тех или иных условиях. В следующей главе подход к обучению на основе временной разности используется для создания адаптивных стратегий в играх на выживание.