Опишите принципы обучения с подкреплением, приведите конкретный пример задачи (например, управление трафиком светофоров), сформулируйте состояние, действия, вознаграждение и возможные сложности при обучении

29 Окт в 09:25
7 +2
0
Ответы
1
Принципы обучения с подкреплением (КР)
- Формализация: среда задаётся как MDP с состояниями sss, действиями aaa, переходами P(s′∣s,a)P(s'|s,a)P(ss,a) и вознаграждением rrr.
- Политика: стохастическая или детерминированная π(a∣s)\pi(a|s)π(as) — правило выбора действий.
- Цель: максимизировать ожидаемую дисконтированную сумму вознаграждений (возврат)
Gt=∑k=0∞γkrt+k+1,0≤γ<1. G_t=\sum_{k=0}^{\infty}\gamma^k r_{t+k+1},\quad 0\le\gamma<1.
Gt =k=0 γkrt+k+1 ,0γ<1.
- Функции ценности: состояние Vπ(s)=Eπ[Gt∣st=s]V^\pi(s)=\mathbb{E}_\pi[G_t|s_t=s]Vπ(s)=Eπ [Gt st =s] и действие‑значение Qπ(s,a)Q^\pi(s,a)Qπ(s,a).
Bellman для VπV^\piVπ:
Vπ(s)=Eπ[rt+1+γVπ(st+1)∣st=s]. V^\pi(s)=\mathbb{E}_\pi\big[r_{t+1}+\gamma V^\pi(s_{t+1})\mid s_t=s\big].
Vπ(s)=Eπ [rt+1 +γVπ(st+1 )st =s].
- Методы: модель‑свободные (Q‑learning, SARSA, Policy Gradient, Actor‑Critic), модель‑основанные (учим/используем PPP и rrr).
- Ключевые проблемы: исследование/эксплуатация, частичная наблюдаемость, масштабируемость, стабильность обучения, оценка и обобщение.
Пример задачи: управление трафиком светофоров
- Цель: минимизировать задержки/очереди/количество остановок через управление фазами светофора.
Формулировка MDP
- Состояние sts_tst : вектор признаков в момент ttt, например
st=(q1,t,…,qN,t, ϕt, τt), s_t=(q_{1,t},\dots,q_{N,t},\ \phi_t,\ \tau_t),
st =(q1,t ,,qN,t , ϕt , τt ),
где qi,tq_{i,t}qi,t — длина очереди на входной полосе iii, ϕt\phi_tϕt — текущая фаза, τt\tau_tτt — время с момента её установки. Можно добавить скорость, поток машин, пешеходные запросы, данные детекторов.
- Действия ata_tat : переключение фаз или продление текущей фазы. Примеры:
at∈{оставить текущую фазу (extend), переключить на фазу k, k=1…K}. a_t\in\{\text{оставить текущую фазу (extend)},\ \text{переключить на фазу }k,\ k=1\dots K\}.
at {оставить текущую фазу (extend), переключить на фазу k, k=1K}.
- Вознаграждение rtr_trt : зависит от метрики. Популярные варианты:
- отрицание суммарных очередей
rt=−∑i=1Nqi,t; r_t=-\sum_{i=1}^N q_{i,t};
rt =i=1N qi,t ;
- отрицание суммарного времени ожидания/задержки в интервале;
- «давление» (max‑pressure) — разность входных и выходных очередей по направлениям;
Выбор вознаграждения влияет на поведение агента (устранение заторов vs. пропускная способность).
- Переходы: зависят от потоков входа (стохастичны), сигналов светофора и поведения водителей.
Возможные сложности при обучении и способы смягчения
- Частичная наблюдаемость: сенсоры дают неполную картину (решение: использовать рекуррентные сети / скрытое состояние, POMDP‑подход).
- Большое пространство состояний/действий: комбинаторный рост при сети перекрёстков (решение: аппроксимация функций (NN), дискретизация, факторизация, централизованное обучение — децентрализованное выполнение).
- Многопользовательская/многоагентная природа: действия в соседних перекрёстках влияют друг на друга → нестабильность/нестационарность (решение: централизованное обучение с дек.процессом, коммуницирующие агенты, согласованные цели).
- Разреженные и задержанные вознаграждения: эффект действия виден позже (решение: shaping вознаграждения, короткие шаги, использование критиков/Monte‑Carlo оценок).
- Исследование в реальном трафике опасно/дорого: случайные действия создают пробки (решение: обучение в симуляторах, безопасное исследование, имитационное обучение или warm‑start от эвристик).
- Симуляция → реальность (sim2real): модели потоков в симуляторе отличаются от реальных (решение: домен‑рандомизация, адаптация на реальных данных, периодическая донастройка).
- Выбор и масштабирование вознаграждения: плохо подобранное rrr приведёт к непредсказуемому/небезопасному поведению (решение: комбинировать несколько метрик, ограничения и штрафы за аварийные состояния).
- Обучение требует много данных/вычислений: использовать experience replay, таргет‑сети, архитектуры с локальной агрегацией; алгоритмы sample‑efficient (PPO, SAC, off‑policy с буферами).
Короткие рекомендации практической реализации
- Тренировать в реальномистичном симуляторе (SUMO, CityFlow), начать с простых состояний/вознаграждений.
- Warm‑start от правил (e.g. фиксированные циклы) и постепенное усложнение.
- Оценивать по реальным метрикам: средняя задержка, пропускная способность, время поездки, стабильность.
- Для сети перекрёстков рассмотреть централизованное обучение — децентрализованное выполнение (CTDE) и согласованные вознаграждения.
(Все ключевые формулы выше записаны в стандартной RL нотации.)
29 Окт в 10:18
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир