Корпоративный пакет «Фриланс»
Обретите скорое решение
задач ваших, с помощью
космоса и биржи нашей
Профессиональные
фрилансеры и ваш бизнес.
Мы поможем вам это испытать!
Задачи — ваши,
фрилансеры — наши!

Основные шаги и краткие советы для заказчиков и фрилансеров

Игровые автоматы Вулкан онлайн

15.07.2017


Поведение во время выбора оружия (и в меньшей степени, во время стрельбы) можно откорректировать в целях выполнения различных требований (например, основанных на оценке эффективности или настроений аниматов). Такая цель достигается на основе подходов к обучению с подкреплением, базирующихся на статистических данных и обучающих эпизодах (иными словами, на основе методов Монте-Карло).


Действия


Возможные действия, выбираемые алгоритмом обучения, соответствуют стилям стрельбы и выбора оружия. Например, обычным требованием является нанесение значительного ущерба в расчете на одну секунду, повышение вероятностей попадания, ведение продолжительных поединков, а также высокая степень смертности от первого выстрела. Игровые автоматы Вулкан онлайн с подкреплением позволяют определить с помощью обучения наиболее приемлемый стиль для каждой ситуации, информация о котором затем передается средствам реализации соответствующих функций.


Состояния


Сигнал вознаграждения влияет на выбор состояний, поскольку желательно иметь для каждого состояния точные оценки значений. Таким образом, для каждого состояния основными параметрами становятся настроения, поскольку вознаграждение (а, следовательно, и способ действий) изменяется в зависимости от настроения. Но некоторые аспекты вознаграждения могут быть не подвержены настроениям (например, смерть). В связи с этим в модель состояния включаются другие стратегические характеристики ситуации; при этом учитывается назначение компонента движения. Эго позволяет использовать обучение с подкреплением для поиска правильных стилей с учетом настроений и других общих тенденций.


Сигнал вознаграждения


Сигнал вознаграждения становится активным только в ходе поединков, особенно тогда, когда анимат запускает поражающие зле менты. Это позволяет анимату отличать низкое вознаграждение за бездеятельность от низкого вознаграждения за неудовлетворительную производительность (а это способствует обучению). Сигнал вознаграждения обычно определяется с учетом настроений, но некоторые аспекты вознаграждения являются независимыми от эмоций (такие, как основное желание выжить).