Опишите принципы обучения с подкреплением, приведите конкретный пример задачи (например, управление трафиком светофоров), сформулируйте состояние, действия, вознаграждение и возможные сложности при обучении
Принципы обучения с подкреплением (КР) - Формализация: среда задаётся как MDP с состояниями sss, действиями aaa, переходами P(s′∣s,a)P(s'|s,a)P(s′∣s,a) и вознаграждением rrr. - Политика: стохастическая или детерминированная π(a∣s)\pi(a|s)π(a∣s) — правило выбора действий. - Цель: максимизировать ожидаемую дисконтированную сумму вознаграждений (возврат) Gt=∑k=0∞γkrt+k+1,0≤γ<1.
G_t=\sum_{k=0}^{\infty}\gamma^k r_{t+k+1},\quad 0\le\gamma<1. Gt=k=0∑∞γkrt+k+1,0≤γ<1.
- Функции ценности: состояние Vπ(s)=Eπ[Gt∣st=s]V^\pi(s)=\mathbb{E}_\pi[G_t|s_t=s]Vπ(s)=Eπ[Gt∣st=s] и действие‑значение Qπ(s,a)Q^\pi(s,a)Qπ(s,a). Bellman для VπV^\piVπ: Vπ(s)=Eπ[rt+1+γVπ(st+1)∣st=s].
V^\pi(s)=\mathbb{E}_\pi\big[r_{t+1}+\gamma V^\pi(s_{t+1})\mid s_t=s\big]. Vπ(s)=Eπ[rt+1+γVπ(st+1)∣st=s].
- Методы: модель‑свободные (Q‑learning, SARSA, Policy Gradient, Actor‑Critic), модель‑основанные (учим/используем PPP и rrr). - Ключевые проблемы: исследование/эксплуатация, частичная наблюдаемость, масштабируемость, стабильность обучения, оценка и обобщение. Пример задачи: управление трафиком светофоров - Цель: минимизировать задержки/очереди/количество остановок через управление фазами светофора. Формулировка MDP - Состояние sts_tst: вектор признаков в момент ttt, например st=(q1,t,…,qN,t, ϕt, τt),
s_t=(q_{1,t},\dots,q_{N,t},\ \phi_t,\ \tau_t), st=(q1,t,…,qN,t,ϕt,τt),
где qi,tq_{i,t}qi,t — длина очереди на входной полосе iii, ϕt\phi_tϕt — текущая фаза, τt\tau_tτt — время с момента её установки. Можно добавить скорость, поток машин, пешеходные запросы, данные детекторов. - Действия ata_tat: переключение фаз или продление текущей фазы. Примеры: at∈{оставить текущую фазу (extend), переключить на фазу k, k=1…K}.
a_t\in\{\text{оставить текущую фазу (extend)},\ \text{переключить на фазу }k,\ k=1\dots K\}. at∈{оставитьтекущуюфазу (extend),переключитьнафазуk,k=1…K}.
- Вознаграждение rtr_trt: зависит от метрики. Популярные варианты: - отрицание суммарных очередей rt=−∑i=1Nqi,t;
r_t=-\sum_{i=1}^N q_{i,t}; rt=−i=1∑Nqi,t;
- отрицание суммарного времени ожидания/задержки в интервале; - «давление» (max‑pressure) — разность входных и выходных очередей по направлениям; Выбор вознаграждения влияет на поведение агента (устранение заторов vs. пропускная способность). - Переходы: зависят от потоков входа (стохастичны), сигналов светофора и поведения водителей. Возможные сложности при обучении и способы смягчения - Частичная наблюдаемость: сенсоры дают неполную картину (решение: использовать рекуррентные сети / скрытое состояние, POMDP‑подход). - Большое пространство состояний/действий: комбинаторный рост при сети перекрёстков (решение: аппроксимация функций (NN), дискретизация, факторизация, централизованное обучение — децентрализованное выполнение). - Многопользовательская/многоагентная природа: действия в соседних перекрёстках влияют друг на друга → нестабильность/нестационарность (решение: централизованное обучение с дек.процессом, коммуницирующие агенты, согласованные цели). - Разреженные и задержанные вознаграждения: эффект действия виден позже (решение: shaping вознаграждения, короткие шаги, использование критиков/Monte‑Carlo оценок). - Исследование в реальном трафике опасно/дорого: случайные действия создают пробки (решение: обучение в симуляторах, безопасное исследование, имитационное обучение или warm‑start от эвристик). - Симуляция → реальность (sim2real): модели потоков в симуляторе отличаются от реальных (решение: домен‑рандомизация, адаптация на реальных данных, периодическая донастройка). - Выбор и масштабирование вознаграждения: плохо подобранное rrr приведёт к непредсказуемому/небезопасному поведению (решение: комбинировать несколько метрик, ограничения и штрафы за аварийные состояния). - Обучение требует много данных/вычислений: использовать experience replay, таргет‑сети, архитектуры с локальной агрегацией; алгоритмы sample‑efficient (PPO, SAC, off‑policy с буферами). Короткие рекомендации практической реализации - Тренировать в реальномистичном симуляторе (SUMO, CityFlow), начать с простых состояний/вознаграждений. - Warm‑start от правил (e.g. фиксированные циклы) и постепенное усложнение. - Оценивать по реальным метрикам: средняя задержка, пропускная способность, время поездки, стабильность. - Для сети перекрёстков рассмотреть централизованное обучение — децентрализованное выполнение (CTDE) и согласованные вознаграждения. (Все ключевые формулы выше записаны в стандартной RL нотации.)
- Формализация: среда задаётся как MDP с состояниями sss, действиями aaa, переходами P(s′∣s,a)P(s'|s,a)P(s′∣s,a) и вознаграждением rrr.
- Политика: стохастическая или детерминированная π(a∣s)\pi(a|s)π(a∣s) — правило выбора действий.
- Цель: максимизировать ожидаемую дисконтированную сумму вознаграждений (возврат)
Gt=∑k=0∞γkrt+k+1,0≤γ<1. G_t=\sum_{k=0}^{\infty}\gamma^k r_{t+k+1},\quad 0\le\gamma<1.
Gt =k=0∑∞ γkrt+k+1 ,0≤γ<1. - Функции ценности: состояние Vπ(s)=Eπ[Gt∣st=s]V^\pi(s)=\mathbb{E}_\pi[G_t|s_t=s]Vπ(s)=Eπ [Gt ∣st =s] и действие‑значение Qπ(s,a)Q^\pi(s,a)Qπ(s,a).
Bellman для VπV^\piVπ:
Vπ(s)=Eπ[rt+1+γVπ(st+1)∣st=s]. V^\pi(s)=\mathbb{E}_\pi\big[r_{t+1}+\gamma V^\pi(s_{t+1})\mid s_t=s\big].
Vπ(s)=Eπ [rt+1 +γVπ(st+1 )∣st =s]. - Методы: модель‑свободные (Q‑learning, SARSA, Policy Gradient, Actor‑Critic), модель‑основанные (учим/используем PPP и rrr).
- Ключевые проблемы: исследование/эксплуатация, частичная наблюдаемость, масштабируемость, стабильность обучения, оценка и обобщение.
Пример задачи: управление трафиком светофоров
- Цель: минимизировать задержки/очереди/количество остановок через управление фазами светофора.
Формулировка MDP
- Состояние sts_tst : вектор признаков в момент ttt, например
st=(q1,t,…,qN,t, ϕt, τt), s_t=(q_{1,t},\dots,q_{N,t},\ \phi_t,\ \tau_t),
st =(q1,t ,…,qN,t , ϕt , τt ), где qi,tq_{i,t}qi,t — длина очереди на входной полосе iii, ϕt\phi_tϕt — текущая фаза, τt\tau_tτt — время с момента её установки. Можно добавить скорость, поток машин, пешеходные запросы, данные детекторов.
- Действия ata_tat : переключение фаз или продление текущей фазы. Примеры:
at∈{оставить текущую фазу (extend), переключить на фазу k, k=1…K}. a_t\in\{\text{оставить текущую фазу (extend)},\ \text{переключить на фазу }k,\ k=1\dots K\}.
at ∈{оставить текущую фазу (extend), переключить на фазу k, k=1…K}. - Вознаграждение rtr_trt : зависит от метрики. Популярные варианты:
- отрицание суммарных очередей
rt=−∑i=1Nqi,t; r_t=-\sum_{i=1}^N q_{i,t};
rt =−i=1∑N qi,t ; - отрицание суммарного времени ожидания/задержки в интервале;
- «давление» (max‑pressure) — разность входных и выходных очередей по направлениям;
Выбор вознаграждения влияет на поведение агента (устранение заторов vs. пропускная способность).
- Переходы: зависят от потоков входа (стохастичны), сигналов светофора и поведения водителей.
Возможные сложности при обучении и способы смягчения
- Частичная наблюдаемость: сенсоры дают неполную картину (решение: использовать рекуррентные сети / скрытое состояние, POMDP‑подход).
- Большое пространство состояний/действий: комбинаторный рост при сети перекрёстков (решение: аппроксимация функций (NN), дискретизация, факторизация, централизованное обучение — децентрализованное выполнение).
- Многопользовательская/многоагентная природа: действия в соседних перекрёстках влияют друг на друга → нестабильность/нестационарность (решение: централизованное обучение с дек.процессом, коммуницирующие агенты, согласованные цели).
- Разреженные и задержанные вознаграждения: эффект действия виден позже (решение: shaping вознаграждения, короткие шаги, использование критиков/Monte‑Carlo оценок).
- Исследование в реальном трафике опасно/дорого: случайные действия создают пробки (решение: обучение в симуляторах, безопасное исследование, имитационное обучение или warm‑start от эвристик).
- Симуляция → реальность (sim2real): модели потоков в симуляторе отличаются от реальных (решение: домен‑рандомизация, адаптация на реальных данных, периодическая донастройка).
- Выбор и масштабирование вознаграждения: плохо подобранное rrr приведёт к непредсказуемому/небезопасному поведению (решение: комбинировать несколько метрик, ограничения и штрафы за аварийные состояния).
- Обучение требует много данных/вычислений: использовать experience replay, таргет‑сети, архитектуры с локальной агрегацией; алгоритмы sample‑efficient (PPO, SAC, off‑policy с буферами).
Короткие рекомендации практической реализации
- Тренировать в реальномистичном симуляторе (SUMO, CityFlow), начать с простых состояний/вознаграждений.
- Warm‑start от правил (e.g. фиксированные циклы) и постепенное усложнение.
- Оценивать по реальным метрикам: средняя задержка, пропускная способность, время поездки, стабильность.
- Для сети перекрёстков рассмотреть централизованное обучение — децентрализованное выполнение (CTDE) и согласованные вознаграждения.
(Все ключевые формулы выше записаны в стандартной RL нотации.)