Корпоративный пакет «Фриланс»
Обретите скорое решение
задач ваших, с помощью
космоса и биржи нашей
Профессиональные
фрилансеры и ваш бизнес.
Мы поможем вам это испытать!
Задачи — ваши,
фрилансеры — наши!

Основные шаги и краткие советы для заказчиков и фрилансеров

Онлайн Вулкан

01.07.2017


На интуитивном уровне можно понять, что значение состояния представляет собой среднее значение для обесцениваемых значений соседних состояний, включая вознаграждение, собранное в результате осуществления данного действия. Более наглядное разъяснение этого уравнения можно получить, ознакомившись с фрагментом псевдокода. На основе этого уравнения может быть создан алгоритм обучения с подкреплением. Однако необходимо внести еще несколько небольших дополнений, в частности, касающихся того, как отслеживаются различные оценки.


Оптимальные стоимостные функции


Для определения оптимального значения состояния и значения действия для каждой пары “состояние-действие”, обозначаемой как Q* (s, а), могут быть предложены аналогичные уравнения. Эти значения рассматриваются как целевые для всех приведенных здесь алгоритмов обучения.


Категория задач обучения с подкреплением на onlain-wulcan.com является очень широкой. Все эти задачи можно в целом подразделить на подзадачи (например, эпизодические и инкрементные). Во многих случаях рассматриваемую задачу можно преобразовать в один из этих двух вариантов, в зависимости от того, какой алгоритм является предпочтительным (как показано ниже).


До сих пор предполагалось, что в массиве хранятся оценки значений, относящиеся к состояниям и действиям. Преимуществом такого представления является то, что он позволяет добиться с помощью большинства алгоритмов сходимости к идеальному способу действий. Но для этого необходим значительный объем памяти, поэтому указанный подход неприменим для решения крупных задач.


Указанный массив, имеющий форму матрицы, может рассматриваться как график функции, оценивающей значения состояний или действий. Кроме того, предусмотрена возможность использовать алпроксиматоры функций для вычисления аналогичного результата. Для этой цели обычно используются персептроны и деревья решений.


Наиболее эффективное решение указанной задачи состоит в том, чтобы определить с помощью обучения точные оценки и сохранить их в массиве, а затем попытаться аппроксимировать этот массив. Такой подход в большей степени применим в качестве основы для проведения вычислений в автономном режиме, поскольку для его реализации требуются две стадии предварительной обработки. Но его преимущество состоит в том, что непосредственно доступны все правильные данные, а это позволяет достичь с помощью аппроксиматора наилучших возможных результатов. После этого аппроксиматор может использоваться в оперативном режиме в качестве компактного представления огромной матрицы.