Вулкан Чемпион

Корпоративный пакет «Фриланс»

Обретите скорое решение
задач ваших, с помощью
космоса и биржи нашей

Профессиональные
фрилансеры и ваш бизнес.
Мы поможем вам это испытать!

Задачи — ваши,
фрилансеры — наши!

Основные шаги и краткие советы для заказчиков и фрилансеров

Вулкан Чемпион

01.07.2017

Архитектура обобщения предоставляет проектировщикам способ организации независимых форм поведения, позволяющий их комбинировать для получения желаемого результата. Преимущество этого подхода состоит в том, что он является очень простым для реализации и остается полностью предсказуемым.

Архитектура обобщения известна также под названием арбитражного механизма. Применяемый при этом метод служит для выбора (или вынесения арбитражного решения) одного из нескольких агентов (например, форм поведения или компонентов), которые конкурируют http://avtomaty-champion.com.ua/club за то, чтобы им было передано управление в целях получения одних и тех же выходных данных.

Многоуровневый подход

Несмотря на то что на первый взгляд этот подход кажется сложным по своей внутренней организации, с концептуальной точки зрения данная архитектура интерпретируется как многоуровневый подход. Каждый уровень соответствует одной из форм поведения, с которой связаны конкретные выходные данные. Уровни, определяемые формами поведения, расположены по вертикали; верхние уровни имеют более высокий приоритет и обладают способностью обобщать уровни с более низким приоритетом.

Многоуровневый подход обеспечивает также более простую интеграцию существующих компонентов. Каждый уровень может рассматриваться как “черный ящик”, выходные данные которого могут быть перекрыты другими уровнями. Условия передачи управления от одного уровня к другому могут рассматриваться как булевы.

Формирование эпизода

Остается нерешенным вопрос о том, как должны формироваться эпизоды. Ключевой принцип состоит в том, что необходимо обеспечить перебор всех пар “состояние-действие”. Важность этого требования обусловлена тем, что его соблюдение позволяет гарантировать оптимальность. Один из способов выполнения данного требования известен как исследование начальных состояний. Идея такого подхода состоит в том, что эпизоды могут формироваться согласно любому способу действий, при условии что первая пара “состояние-действие” выбирается случайным образом (опять-таки, требуется хороший генератор случайных чисел).

Практика показывает, что описанный метод является работоспособным, но может оказаться довольно медленным. Лучший подход мог бы предусматривать вначале проведение исследований на основе случайно выбранных состояний, а затем уменьшение величины случайного разброса после того, как результаты начнут улучшаться. Этот подход аналогичен управлению температурой на основании уравнения Больцмана в методе моделируемого отжига. С точки зрения применения в алгоритмах обучения с подкреплением, методы Монте-Карло можно классифицировать следующим образом.