В сети кампуса наблюдаются периодические потери пакетов и резкое увеличение времени ответа при доступе к внешним ресурсам опишите последовательность действий по сбору данных (tcpdump, traceroute, SNMP, NetFlow), методы анализа полученных логов, вероятные причины проблем на уровнях канального, сетевого и транспортного и практические шаги по их устранению
Ниже — практический план действий «от диагностики к исправлению»: какие данные собирать tcpdump,traceroute,SNMP,NetFlowtcpdump, traceroute, SNMP, NetFlowtcpdump,traceroute,SNMP,NetFlow, как их анализировать, какие типичные причины на канальном/сетевом/транспортном уровнях и какие практические шаги по устранению.
1) Подготовка и общая методика
Синхронизируйте часы на всех сетевых устройствах и станциях NTPNTPNTP — для корректной кореляции событий.Зафиксируйте время и период проявления проблемы точноеокно,периодичностьпотерь/пиковRTTточное окно, периодичность потерь/пиков RTTточноеокно,периодичностьпотерь/пиковRTT.Определите точки наблюдения: клиентская сеть, граничный маршрутизатор/файрвол, провайдерский интерфейс, сервер/следующая хоп-сеть.Собирайте данные одновременно/параллельно с разных точек, чтобы иметь возможность локализовать место потерь.
2) Последовательность сбора данных чтоигдесобиратьчто и где собиратьчтоигдесобирать
SNMP интерфейсы,общаястатистикаинтерфейсы, общая статистикаинтерфейсы,общаястатистика
Что мерять: ifInOctets/ifOutOctets, ifInErrors, ifOutErrors, ifInDiscards, ifOutDiscards, ifOperStatus, ifSpeed; CPU/память устройства; очередь и политики QoS еслиестьcountersесли есть countersеслиестьcounters; BGP session state.Частота опроса: 30–60 с в период проблемы, 5–10 мин для долгосрочной истории.Инструменты: snmpwalk/snmpget, MRTG/Cacti/LibreNMS/Observium/PRTG для визуализации.Полезные OID-ы: ifInErrors .1.3.6.1.2.1.2.2.1.14.1.3.6.1.2.1.2.2.1.14.1.3.6.1.2.1.2.2.1.14, ifOutErrors .1.3.6.1.2.1.2.2.1.20.1.3.6.1.2.1.2.2.1.20.1.3.6.1.2.1.2.2.1.20, ifInDiscards/ifOutDiscards .1.3.6.1.2.1.2.2.1.13/.1.19.1.3.6.1.2.1.2.2.1.13/.1.19.1.3.6.1.2.1.2.2.1.13/.1.19, ifInOctets/ifOutOctets .1.3.6.1.2.1.2.2.1.10/.1.16.1.3.6.1.2.1.2.2.1.10/.1.16.1.3.6.1.2.1.2.2.1.10/.1.16.
Настройте экспорт NetFlow илиsFlow/IPFIXили sFlow/IPFIXилиsFlow/IPFIX на граничных маршрутизаторах и коммутаторах на время инцидента.Sampling: если трафик высокий — sample 1:100..1:1000; при возможности временно снизьте семплинг для большей точности.Сохраняйте записи на коллектор nfdump,pmacct,ntopng,Elastiflownfdump, pmacct, ntopng, Elastiflownfdump,pmacct,ntopng,Elastiflow.Что анализировать: топ источников/приёмников, сервисы/порт, AS-партнёры, продолжительность пиков, резкие изменения объёма, наличие DDoS.
Traceroute локализацияхопасзадержкой/потерямилокализация хопа с задержкой/потерямилокализацияхопасзадержкой/потерями
Используйте разные варианты: ICMP, UDP, TCP TCP−трассировкиполезныкHTTPS−портамTCP-трассировки полезны к HTTPS-портамTCP−трассировкиполезныкHTTPS−портам; Paris-traceroute при подозрении на load-balancing.Выполняйте трассировки повторно и с частотой например,каждые30снапример, каждые 30 снапример,каждые30с чтобы увидеть, где появляется задержка/потери, и есть ли смена путей.Логи трассирования сохраняйте для корреляции с другими метриками.
Tcpdump/pcap детальнаякартинапакетовдетальная картина пакетовдетальнаякартинапакетов
Снимайте на границе сети внутреннийинтерфейспередмаршрутизаторомивнешнийинтерфейсвнутренний интерфейс перед маршрутизатором и внешний интерфейсвнутреннийинтерфейспередмаршрутизаторомивнешнийинтерфейс и на клиентской/серверной стороне одновременно, если возможно.Команды-примеры:tcpdump -i eth0 -s 0 -w /tmp/cap.pcap host <IP_цели> and tcptcpdump -i eth0 -s 0 -w /tmp/cap.pcap 'tcp and hostAorhostBhost A or host BhostAorhostB'Используйте ring-buffer: -C -W Добавьте -tttt -n для читаемых временных меток и отсутствия DNS резолва.Захватите полные пакеты −s0-s 0−s0 в период проявления. Обязательно захват на обеих сторонах граничного устройства, чтобы сравнить «пакет ушёл/пакет пришёл».
3) Анализ собранных данных — методика и признаки
Корреляция по времени
Сопоставьте графики SNMP utilization/errorsutilization/errorsutilization/errors, NetFlow объёмисессииобъём и сессииобъёмисессии, traceroute появлениепотерьпоявление потерьпоявлениепотерь и pcap конкретныеTCPсобытияконкретные TCP событияконкретныеTCPсобытия.Ищите пик трафика у провайдера/на интерфейсе в момент потерь — признаки перегрузки.
Анализ tcpdump/pcap Wireshark/tsharkWireshark/tsharkWireshark/tshark
Фильтры/метрики: tcp.analysis.retransmission, tcp.analysis.duplicate_ack, tcp.analysis.fast_retransmission, tcp.analysis.zero_window, tcp.analysis.rtt.Что искать:Частые TCP retransmissions и duplicate ACKs → потеря пакетов по пути.RST/ICMP unreachable → сеть/маршрутизация или межсетевой экран.Появление большого количества ACK без payload → возможные проблемы с MTU/PMTU.Если на интерфейсе видим пакет отправленным, но на следующем интерфейсе уже нет — потеря между этими точками илинаследующемустройствеили на следующем устройствеилинаследующемустройстве.Если пакеты видны на внешней стороне, но не видны у клиента — проблема на внутренней стороне.Оцените RTT по SYN/SYN-ACK, изменения в RTT во времени.
Анализ SNMP
ifOutErrors/ifInErrors роста → проблемы физического уровня CRC,frameerrorsCRC, frame errorsCRC,frameerrors.ifInDiscards/ifOutDiscards роста → возможно переполнение очередей, QoS/политики или приёма слишком быстрого трафика.Высокая загрузка интерфейса близка к 100% → переполнение/конфигурация пропускной способности.CPU spikes на маршрутизаторе/фаерволе могут приводить к большому latency и потерям.
Анализ NetFlow
Появление «топ-токеров» в момент потерь → возможно DDoS или пиковый поток от приложений.Изменение архитектуры потоков многокороткихпотоковvs.длинныхмного коротких потоков vs. длинныхмногокороткихпотоковvs.длинных — влияет на поведение TCP.Совпадение пиков flow с ростом ifOutDiscards → пропускная способность/политики.
Traceroute
Если на каком-то хопе начинают появляться ICMP/TCP тайм-ауты или высокая задержка — локализация проблемного сегмента имеетсмыслсвязатьсясадминомэтогосегмента/провайдеромимеет смысл связаться с админом этого сегмента / провайдеромимеетсмыслсвязатьсясадминомэтогосегмента/провайдером.
4) Вероятные причины и признаки по уровням OSI канальный/сетевой/транспортныйканальный/сетевой/транспортныйканальный/сетевой/транспортный
Канальный уровень Layer2Layer 2Layer2
Причины: плохие кабели/коннекторы, битые SFP/модули, duplex mismatch, CRC/frame errors, перегрузка линии, порт в half-duplex, флапы порта, loops.Признаки: ifInErrors/ifOutErrors ликуют; CRC errors в логах; частые восстановление линка; ARP/LLDP проблемы.Исправление: проверить ethtool speed/duplexspeed/duplexspeed/duplex, заменить кабель/SFP, переподнять порт, проверка и обновление прошивки, отключение/переустановка flow control, корректная конфигурация LACP/port-channel.
Сетевой уровень Layer3Layer 3Layer3
Причины: маршрутизация flappingflappingflapping, асимметричный маршрут, BGP-флапы/пересборы, MTU/PMTU blackhole ICMPблокируетсяICMP блокируетсяICMPблокируется, ACL/политики, проблемы у провайдера, QoS/полиcing/Policer drop.Признаки: traceroute показывает смену маршрута/точку с большой задержкой, пропадание ICMP TTL replies, ICMP unreachable, резкое изменение BGP route counts, пакеты доходят до border но не дальше.Исправление: связаться с провайдером если проблема за пределами кампуса; проверить BGP/OSPF стейты; временно убрать/поменять маршруты; проверить MTU пингсDF−bitиувеличениемразмерапинг с DF-bit и увеличением размерапингсDF−bitиувеличениемразмера, проверить и перенастроить QoS/policing; проверить ACL и NAT; устранить маршрутизируемые петли.
Транспортный уровень Layer4Layer 4Layer4
Причины: TCP-перенастройки при потере, медленные ответы серверов, application-layer overload, плохая TCP конфигурация windowscaling,toosmallbufferswindow scaling, too small bufferswindowscaling,toosmallbuffers, excessive retransmissions из-за вышеуказанных проблем.Признаки: в pcap — частые retransmissions, duplicate ACKs, zero-window, RST, длительные RTT; пользователи видят «висание» приложений.Исправление: оптимизация серверов/приложения, увеличение буферов, проверка настроек TCP windowscalingwindow scalingwindowscaling, применить WAN-оптимизацию, внедрить QoS для приоритезации критичного трафика, настроить повторные попытки на приложениях еслиуместноесли уместноеслиуместно.
5) Практические шаги по устранению пландействийплан действийпландействий
Проверить SNMP-графики интерфейсов за проблемный период utilization,errors,discardsutilization, errors, discardsutilization,errors,discards.Сделать traceroute в момент возникновения задержки — локализовать хоп.Запустить tcpdump на внутреннем и граничном интерфейсах и захватить pcap в момент проявления.Проверить состояние интерфейсов showinterface/inerrors,ethtoolshow interface/in errors, ethtoolshowinterface/inerrors,ethtool, CPU/Memory на граничных устройствах и firewall.Проверить BGP/OSPF состояния и лог-файлы на предмет flaps.
Исправление типовых проблем
Физика/канал:заменить кабель/SFP, проверить и принудительно выставить скорость/duplex, протестировать порт на другом интерфейсе.убрать/исправить проблемный порт/коммутатор, включить мониторинг ошибок.Перегрузка/политики:временно уменьшить политику семплинга, перенаправить трафик на резервный канал, внедрить rate-limiting для «необязательных» сервисов, добавить пропускную способность.скорректировать QoS: убедиться, что policing не режет критичный трафик; по возможности применить shaping и приоритизацию.Сетевые/маршрутизация:исправить BGP/OSPF флапы анализпричин:MTUmismatch,neighbourflappingанализ причин: MTU mismatch, neighbour flappingанализпричин:MTUmismatch,neighbourflapping, включить route flap dampening при необходимости.если PMTU blackhole — разрешить ICMP, или вручную настроить MTU/ MSS clamping наfirewallна firewallнаfirewall.в случае проблем у провайдера — предоставить им данные traceroute,pcaps,ifcounters,flowtraceroute, pcaps, if counters, flowtraceroute,pcaps,ifcounters,flow и открыть тикет.Транспорт/приложения:оптимизировать серверную часть очереди,пулпотоковочереди, пул потоковочереди,пулпотоков, использовать keep-alive и правильные таймауты.рассмотреть WAN-оптимизацию, TCP proxy, или CDN для внешних ресурсов.при DDoS — применить ACL/blackhole, обратиться к upstream/ддос-провайдеру, внедрить scrubbing.
6) Практические советы и полезные команды/фильтры
tcpdump: захват с кольцевым буфером: tcpdump -i eth0 -s 0 -w /tmp/cap.pcap -C 200 -W 5 'host 8.8.8.8 and tcp'добавьте -nn -tttt для читаемых выводов.Wireshark/tshark: фильтр анализа: tcp.analysis.retransmission, tcp.analysis.duplicate_ack, tcp.analysis.spurious_retransmission.traceroute: traceroute -I ICMPICMPICMP, traceroute -T -p 443 TCPTCPTCP или использовать paris-traceroute.SNMP: snmpwalk -v2c -c public IF-MIB::ifTableNetFlow: nfdump/nfsen/ntopng для анализа: смотреть top conversations, top src/dst AS, top ports, flow timelines.
7) Типовые сценарии с указанием действий
Сценарий A: Интерфейс граничного роутера показывает ifOutDiscards и высокая загрузка в момент пиков
Действия: проверить QoS/policing, уменьшить policing, увеличить bandwidth или распределить трафик BGPload−shareBGP load-shareBGPload−share, добавить временный резервный канал.
Сценарий B: SNMP counters нормальные, но tcpdump показывает много retransmissions; traceroute показывает потерю на третьем хопе у провайдера
Действия: собрать pcap на граничном интерфейсе и предоставить провайдеру, открыть тикет, приложить NetFlow и traceroute; запросить проверку their link/SLA.
Сценарий C: ifInErrors/CRC растут
Действия: заменить кабели/SFP, проверить duplex settings, протестировать порт на другом оборудовании.
8) Что передать поставщику/инженерам при обращении
Точное время инцидента, pcap-ы собоихсторонпривозможностис обоих сторон при возможностисобоихсторонпривозможности, SNMP графики util/errors/discardsutil/errors/discardsutil/errors/discards, NetFlow коллекция за время инцидента, traceroute выводы, конфигурации интерфейсов и версий ПО/прошивки, логи BGP/OSPF.
Заключение
Системный подход: сначала локализовать traceroute+NetFlow+SNMPtraceroute + NetFlow + SNMPtraceroute+NetFlow+SNMP, затем детализировать tcpdumptcpdumptcpdump, потом корректировать конфигурацию/оборудование/координироваться с провайдером.Наиболее частые причины — перегрузка интерфейса/полиcing, физические ошибки на канале, MTU/PMTU-проблемы и BGP/маршрутизационные флапы; всё это проявляется как периодические потери и резкие всплески RTT.Если хотите, могу подготовить конкретный список команд для ваших устройств Cisco/Juniper/Arista/HPCisco/Juniper/Arista/HPCisco/Juniper/Arista/HP и пример конфигурации NetFlow/SNMP/pcap-съемки под вашу топологию — пришлите модель устройств и IP точки наблюдения.
Ниже — практический план действий «от диагностики к исправлению»: какие данные собирать tcpdump,traceroute,SNMP,NetFlowtcpdump, traceroute, SNMP, NetFlowtcpdump,traceroute,SNMP,NetFlow, как их анализировать, какие типичные причины на канальном/сетевом/транспортном уровнях и какие практические шаги по устранению.
1) Подготовка и общая методика
Синхронизируйте часы на всех сетевых устройствах и станциях NTPNTPNTP — для корректной кореляции событий.Зафиксируйте время и период проявления проблемы точноеокно,периодичностьпотерь/пиковRTTточное окно, периодичность потерь/пиков RTTточноеокно,периодичностьпотерь/пиковRTT.Определите точки наблюдения: клиентская сеть, граничный маршрутизатор/файрвол, провайдерский интерфейс, сервер/следующая хоп-сеть.Собирайте данные одновременно/параллельно с разных точек, чтобы иметь возможность локализовать место потерь.2) Последовательность сбора данных чтоигдесобиратьчто и где собиратьчтоигдесобирать
SNMP интерфейсы,общаястатистикаинтерфейсы, общая статистикаинтерфейсы,общаястатистика
Что мерять: ifInOctets/ifOutOctets, ifInErrors, ifOutErrors, ifInDiscards, ifOutDiscards, ifOperStatus, ifSpeed; CPU/память устройства; очередь и политики QoS еслиестьcountersесли есть countersеслиестьcounters; BGP session state.Частота опроса: 30–60 с в период проблемы, 5–10 мин для долгосрочной истории.Инструменты: snmpwalk/snmpget, MRTG/Cacti/LibreNMS/Observium/PRTG для визуализации.Полезные OID-ы: ifInErrors .1.3.6.1.2.1.2.2.1.14.1.3.6.1.2.1.2.2.1.14.1.3.6.1.2.1.2.2.1.14, ifOutErrors .1.3.6.1.2.1.2.2.1.20.1.3.6.1.2.1.2.2.1.20.1.3.6.1.2.1.2.2.1.20, ifInDiscards/ifOutDiscards .1.3.6.1.2.1.2.2.1.13/.1.19.1.3.6.1.2.1.2.2.1.13/.1.19.1.3.6.1.2.1.2.2.1.13/.1.19, ifInOctets/ifOutOctets .1.3.6.1.2.1.2.2.1.10/.1.16.1.3.6.1.2.1.2.2.1.10/.1.16.1.3.6.1.2.1.2.2.1.10/.1.16.NetFlow/IPFIX поведениетрафика,топ−токеры,направленияповедение трафика, топ-токеры, направленияповедениетрафика,топ−токеры,направления
Настройте экспорт NetFlow илиsFlow/IPFIXили sFlow/IPFIXилиsFlow/IPFIX на граничных маршрутизаторах и коммутаторах на время инцидента.Sampling: если трафик высокий — sample 1:100..1:1000; при возможности временно снизьте семплинг для большей точности.Сохраняйте записи на коллектор nfdump,pmacct,ntopng,Elastiflownfdump, pmacct, ntopng, Elastiflownfdump,pmacct,ntopng,Elastiflow.Что анализировать: топ источников/приёмников, сервисы/порт, AS-партнёры, продолжительность пиков, резкие изменения объёма, наличие DDoS.Traceroute локализацияхопасзадержкой/потерямилокализация хопа с задержкой/потерямилокализацияхопасзадержкой/потерями
Используйте разные варианты: ICMP, UDP, TCP TCP−трассировкиполезныкHTTPS−портамTCP-трассировки полезны к HTTPS-портамTCP−трассировкиполезныкHTTPS−портам; Paris-traceroute при подозрении на load-balancing.Выполняйте трассировки повторно и с частотой например,каждые30снапример, каждые 30 снапример,каждые30с чтобы увидеть, где появляется задержка/потери, и есть ли смена путей.Логи трассирования сохраняйте для корреляции с другими метриками.Tcpdump/pcap детальнаякартинапакетовдетальная картина пакетовдетальнаякартинапакетов
Снимайте на границе сети внутреннийинтерфейспередмаршрутизаторомивнешнийинтерфейсвнутренний интерфейс перед маршрутизатором и внешний интерфейсвнутреннийинтерфейспередмаршрутизаторомивнешнийинтерфейс и на клиентской/серверной стороне одновременно, если возможно.Команды-примеры:tcpdump -i eth0 -s 0 -w /tmp/cap.pcap host <IP_цели> and tcptcpdump -i eth0 -s 0 -w /tmp/cap.pcap 'tcp and hostAorhostBhost A or host BhostAorhostB'Используйте ring-buffer: -C -W Добавьте -tttt -n для читаемых временных меток и отсутствия DNS резолва.Захватите полные пакеты −s0-s 0−s0 в период проявления. Обязательно захват на обеих сторонах граничного устройства, чтобы сравнить «пакет ушёл/пакет пришёл».3) Анализ собранных данных — методика и признаки
Корреляция по времени
Сопоставьте графики SNMP utilization/errorsutilization/errorsutilization/errors, NetFlow объёмисессииобъём и сессииобъёмисессии, traceroute появлениепотерьпоявление потерьпоявлениепотерь и pcap конкретныеTCPсобытияконкретные TCP событияконкретныеTCPсобытия.Ищите пик трафика у провайдера/на интерфейсе в момент потерь — признаки перегрузки.Анализ tcpdump/pcap Wireshark/tsharkWireshark/tsharkWireshark/tshark
Фильтры/метрики: tcp.analysis.retransmission, tcp.analysis.duplicate_ack, tcp.analysis.fast_retransmission, tcp.analysis.zero_window, tcp.analysis.rtt.Что искать:Частые TCP retransmissions и duplicate ACKs → потеря пакетов по пути.RST/ICMP unreachable → сеть/маршрутизация или межсетевой экран.Появление большого количества ACK без payload → возможные проблемы с MTU/PMTU.Если на интерфейсе видим пакет отправленным, но на следующем интерфейсе уже нет — потеря между этими точками илинаследующемустройствеили на следующем устройствеилинаследующемустройстве.Если пакеты видны на внешней стороне, но не видны у клиента — проблема на внутренней стороне.Оцените RTT по SYN/SYN-ACK, изменения в RTT во времени.Анализ SNMP
ifOutErrors/ifInErrors роста → проблемы физического уровня CRC,frameerrorsCRC, frame errorsCRC,frameerrors.ifInDiscards/ifOutDiscards роста → возможно переполнение очередей, QoS/политики или приёма слишком быстрого трафика.Высокая загрузка интерфейса близка к 100% → переполнение/конфигурация пропускной способности.CPU spikes на маршрутизаторе/фаерволе могут приводить к большому latency и потерям.Анализ NetFlow
Появление «топ-токеров» в момент потерь → возможно DDoS или пиковый поток от приложений.Изменение архитектуры потоков многокороткихпотоковvs.длинныхмного коротких потоков vs. длинныхмногокороткихпотоковvs.длинных — влияет на поведение TCP.Совпадение пиков flow с ростом ifOutDiscards → пропускная способность/политики.Traceroute
Если на каком-то хопе начинают появляться ICMP/TCP тайм-ауты или высокая задержка — локализация проблемного сегмента имеетсмыслсвязатьсясадминомэтогосегмента/провайдеромимеет смысл связаться с админом этого сегмента / провайдеромимеетсмыслсвязатьсясадминомэтогосегмента/провайдером.4) Вероятные причины и признаки по уровням OSI канальный/сетевой/транспортныйканальный/сетевой/транспортныйканальный/сетевой/транспортный
Канальный уровень Layer2Layer 2Layer2
Причины: плохие кабели/коннекторы, битые SFP/модули, duplex mismatch, CRC/frame errors, перегрузка линии, порт в half-duplex, флапы порта, loops.Признаки: ifInErrors/ifOutErrors ликуют; CRC errors в логах; частые восстановление линка; ARP/LLDP проблемы.Исправление: проверить ethtool speed/duplexspeed/duplexspeed/duplex, заменить кабель/SFP, переподнять порт, проверка и обновление прошивки, отключение/переустановка flow control, корректная конфигурация LACP/port-channel.Сетевой уровень Layer3Layer 3Layer3
Причины: маршрутизация flappingflappingflapping, асимметричный маршрут, BGP-флапы/пересборы, MTU/PMTU blackhole ICMPблокируетсяICMP блокируетсяICMPблокируется, ACL/политики, проблемы у провайдера, QoS/полиcing/Policer drop.Признаки: traceroute показывает смену маршрута/точку с большой задержкой, пропадание ICMP TTL replies, ICMP unreachable, резкое изменение BGP route counts, пакеты доходят до border но не дальше.Исправление: связаться с провайдером если проблема за пределами кампуса; проверить BGP/OSPF стейты; временно убрать/поменять маршруты; проверить MTU пингсDF−bitиувеличениемразмерапинг с DF-bit и увеличением размерапингсDF−bitиувеличениемразмера, проверить и перенастроить QoS/policing; проверить ACL и NAT; устранить маршрутизируемые петли.Транспортный уровень Layer4Layer 4Layer4
Причины: TCP-перенастройки при потере, медленные ответы серверов, application-layer overload, плохая TCP конфигурация windowscaling,toosmallbufferswindow scaling, too small bufferswindowscaling,toosmallbuffers, excessive retransmissions из-за вышеуказанных проблем.Признаки: в pcap — частые retransmissions, duplicate ACKs, zero-window, RST, длительные RTT; пользователи видят «висание» приложений.Исправление: оптимизация серверов/приложения, увеличение буферов, проверка настроек TCP windowscalingwindow scalingwindowscaling, применить WAN-оптимизацию, внедрить QoS для приоритезации критичного трафика, настроить повторные попытки на приложениях еслиуместноесли уместноеслиуместно.5) Практические шаги по устранению пландействийплан действийпландействий
Немедленные шаги быстрыепроверкибыстрые проверкибыстрыепроверки
Проверить SNMP-графики интерфейсов за проблемный период utilization,errors,discardsutilization, errors, discardsutilization,errors,discards.Сделать traceroute в момент возникновения задержки — локализовать хоп.Запустить tcpdump на внутреннем и граничном интерфейсах и захватить pcap в момент проявления.Проверить состояние интерфейсов showinterface/inerrors,ethtoolshow interface/in errors, ethtoolshowinterface/inerrors,ethtool, CPU/Memory на граничных устройствах и firewall.Проверить BGP/OSPF состояния и лог-файлы на предмет flaps.Исправление типовых проблем
Физика/канал:заменить кабель/SFP, проверить и принудительно выставить скорость/duplex, протестировать порт на другом интерфейсе.убрать/исправить проблемный порт/коммутатор, включить мониторинг ошибок.Перегрузка/политики:временно уменьшить политику семплинга, перенаправить трафик на резервный канал, внедрить rate-limiting для «необязательных» сервисов, добавить пропускную способность.скорректировать QoS: убедиться, что policing не режет критичный трафик; по возможности применить shaping и приоритизацию.Сетевые/маршрутизация:исправить BGP/OSPF флапы анализпричин:MTUmismatch,neighbourflappingанализ причин: MTU mismatch, neighbour flappingанализпричин:MTUmismatch,neighbourflapping, включить route flap dampening при необходимости.если PMTU blackhole — разрешить ICMP, или вручную настроить MTU/ MSS clamping наfirewallна firewallнаfirewall.в случае проблем у провайдера — предоставить им данные traceroute,pcaps,ifcounters,flowtraceroute, pcaps, if counters, flowtraceroute,pcaps,ifcounters,flow и открыть тикет.Транспорт/приложения:оптимизировать серверную часть очереди,пулпотоковочереди, пул потоковочереди,пулпотоков, использовать keep-alive и правильные таймауты.рассмотреть WAN-оптимизацию, TCP proxy, или CDN для внешних ресурсов.при DDoS — применить ACL/blackhole, обратиться к upstream/ддос-провайдеру, внедрить scrubbing.6) Практические советы и полезные команды/фильтры
tcpdump:захват с кольцевым буфером: tcpdump -i eth0 -s 0 -w /tmp/cap.pcap -C 200 -W 5 'host 8.8.8.8 and tcp'добавьте -nn -tttt для читаемых выводов.Wireshark/tshark:
фильтр анализа: tcp.analysis.retransmission, tcp.analysis.duplicate_ack, tcp.analysis.spurious_retransmission.traceroute:
traceroute -I ICMPICMPICMP, traceroute -T -p 443 TCPTCPTCP или использовать paris-traceroute.SNMP:
snmpwalk -v2c -c public IF-MIB::ifTableNetFlow:
nfdump/nfsen/ntopng для анализа: смотреть top conversations, top src/dst AS, top ports, flow timelines.
7) Типовые сценарии с указанием действий
Сценарий A: Интерфейс граничного роутера показывает ifOutDiscards и высокая загрузка в момент пиков
Действия: проверить QoS/policing, уменьшить policing, увеличить bandwidth или распределить трафик BGPload−shareBGP load-shareBGPload−share, добавить временный резервный канал.Сценарий B: SNMP counters нормальные, но tcpdump показывает много retransmissions; traceroute показывает потерю на третьем хопе у провайдера
Действия: собрать pcap на граничном интерфейсе и предоставить провайдеру, открыть тикет, приложить NetFlow и traceroute; запросить проверку their link/SLA.Сценарий C: ifInErrors/CRC растут
Действия: заменить кабели/SFP, проверить duplex settings, протестировать порт на другом оборудовании.8) Что передать поставщику/инженерам при обращении
Точное время инцидента, pcap-ы собоихсторонпривозможностис обоих сторон при возможностисобоихсторонпривозможности, SNMP графики util/errors/discardsutil/errors/discardsutil/errors/discards, NetFlow коллекция за время инцидента, traceroute выводы, конфигурации интерфейсов и версий ПО/прошивки, логи BGP/OSPF.Заключение
Системный подход: сначала локализовать traceroute+NetFlow+SNMPtraceroute + NetFlow + SNMPtraceroute+NetFlow+SNMP, затем детализировать tcpdumptcpdumptcpdump, потом корректировать конфигурацию/оборудование/координироваться с провайдером.Наиболее частые причины — перегрузка интерфейса/полиcing, физические ошибки на канале, MTU/PMTU-проблемы и BGP/маршрутизационные флапы; всё это проявляется как периодические потери и резкие всплески RTT.Если хотите, могу подготовить конкретный список команд для ваших устройств Cisco/Juniper/Arista/HPCisco/Juniper/Arista/HPCisco/Juniper/Arista/HP и пример конфигурации NetFlow/SNMP/pcap-съемки под вашу топологию — пришлите модель устройств и IP точки наблюдения.