Корпоративный пакет «Фриланс»
Обретите скорое решение
задач ваших, с помощью
космоса и биржи нашей
Профессиональные
фрилансеры и ваш бизнес.
Мы поможем вам это испытать!
Задачи — ваши,
фрилансеры — наши!

Основные шаги и краткие советы для заказчиков и фрилансеров

Клуб Вулкан

01.07.2017


В алгоритмах без способа действий этапы исследования и эксплуатации разделяются. Как правило, оба этапа осуществляются отдельно, и в каждом из них используется собственный способ действий. Способ действий, применяемый на этапе исследования, называется оценочным, а применяемый на этапе эксплуатации — поведенческим. Кратко можно отметить, что от выбранных способов действий существенно зависят качество обучения, а также окончательно выбранная форма поведения.


Инструменты обучения


В алгоритмах, представленных в следующем разделе, используются аналогичные методы, а также общие определения, приведенные выше.


Под итерационным усовершенствованием подразумевается процесс обновления оценки на основе другой оценки. Связанный с этим подход может оказаться полезным во время обучения, поскольку он позволяет со временем улучшать качество оценок. В ходе обучения с подкреплением на vulcanonline-klub.com итерационное усовершенствование может использоваться для оптимизации значений состояния. На интуитивном уровне можно понять, что оценить качество состояния можно на основании предположения о том, насколько качественным является следующее состояние.


В отличие от этого, в методах, не основанных на итерационном усовершенствовании, определение с помощью обучения каждого значения состояния осуществляется отдельно, без использования оценок соседних состояний. Оба эти подхода показали, что они обладают характерными преимуществами, поэтому на основе того и другого разработаны многие алгоритмы (например, обучение по временной разности).


В контексте разработки игровых средств ИИ обучение с подкреплением может стать источником значительных преимуществ, но не лишено и недостатков.


Разработано много разновидностей алгоритмов обучения с подкреплением. Эти алгоритмы в случае необходимости позволяют обойтись без применения моделей мира, а в результате обучения дают возможность определить вероятности переходов или ожидаемые вознаграждения. Но если имеется модель мира, то эти алгоритмы позволяют использовать ее в максимальной степени.


Недостатки


Примитивный подход, в котором для хранения значений действия используется матрица, плохо масштабируется, поскольку требует большого объема памяти. С другой стороны, применение в больших масштабах не обеспечивают и атгоритмы, в которых применяется резервирование на единичную глубину, поскольку их эксплуатация связана с выполнением большого объема вычислений. Сама суть резервирования является таковой, что для передачи вознаграждения в конечном итоге во все состояния требуются многочисленные прямые итерации. Этот недостаток особенно недопустим в динамических вариантах среды.