Корпоративный пакет «Фриланс»
Обретите скорое решение
задач ваших, с помощью
космоса и биржи нашей
Профессиональные
фрилансеры и ваш бизнес.
Мы поможем вам это испытать!
Задачи — ваши,
фрилансеры — наши!

Основные шаги и краткие советы для заказчиков и фрилансеров

Казино Вулкан

01.07.2017


Алгоритмы обучения с подкреплением


Алгоритмы обучения http://vulkanplatinumcasino.net/ подразделяются на три основных типа, с учетом того, основаны ли они на математических моделях, статистических данных или инкрементном обучении.


Методы динамического программирования


По существу, для вычисления способов действий и значений состояния часто применяются подходы, основанные на использовании грубой силы, в которых применяется динамическое программирование. Эти подходы предусматривают осуществление исчерпывающего перебора, но несмотря на это они показывают себя как удивительно эффективные. Процесс динамического программирования осуществляется в два этапа: на первом этапе оцениваются значения состояния для тех состояний, которые выбираются согласно принятому способу действий (оценка способа действий), а на втором этапе способ действий совершенствуется с использованием значений состояния (усовершенствование способа действий), как описано ниже.


При оценке способа действий по существу используется итерация для поиска решения крупной системы уравнений. Эти уравнения выражают каждое из значений состояния в терминах других значений состояния; при этом используется рекурсивное определение. Сам алгоритм проходит через все состояния и вычисляет уравнение в полном соответствии с этим описанием.


Результат накопления вознаграждения (обесцениваемый со временем) рассматривается как отдача.


Способ действий показывает, какие действия должны быть предприняты в том или ином состоянии, либо в виде распределения вероятностей, либо в виде единственного (детерминированного) действия.


Концепция значений состояния и действия позволяет использовать алгоритмы для определения преимуществ каждой ситуации. Ниже описаны три основных подхода к организации обучения с подкреплением.


В динамическом программировании, в основном, используются математические методы обработки знаний о среде, которые предусматривают обновление всех оценок с применением множества линейных уравнений.


В методах Монте-Карло используется большое количество обучающих эпизодов, сформированных случайным образом, для извлечения информации о тенденциях с помощью полученных статистических данных. Для распространения данных о вознаграждении, начиная с конца каждого эпизода, используется резервирование на полную глубину.


В методах обучения на основе временной разности оценки состояний обновляются инкрементно, с использованием значений, относящихся к соседним состояниям (итерационное усовершенствование).


Каждый из этих методов является наиболее применимым в тех или иных условиях. В следующей главе подход к обучению на основе временной разности используется для создания адаптивных стратегий в играх на выживание.