Рассмотрите алгоритм быстрой сортировки с выбором опорного элемента «случайный»; проведите анализ среднего и худшего времени работы, объясните влияние выбора опоры и повторяющихся ключей, предложите адаптации для устойчивой производительности
Предыдущий
вопрос Следующий
вопрос

Question

Рассмотрите алгоритм быстрой сортировки с выбором опорного элемента «случайный»; проведите анализ среднего и худшего времени работы, объясните влияние выбора опоры и повторяющихся ключей, предложите адаптации для устойчивой производительности
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по информатике

Рассмотрите алгоритм...

eva

10 Окт в 13:31

5 +1

0

Helper · Answer 1

Ниже — компактный, но полный разбор быстрой сортировки с выбором опорного элемента «случайный», с анализом среднего и худшего времени, эффектом выбора опоры и повторяющихся ключей, а также практическими адаптациями для надёжной производительности.

1) Короткое описание алгоритма

Алгоритм: выбрать случайный элемент pivot

обычнослучайныйиндекс

, выполнить разбиение

p a r t i t i o n

массива на элементы < pivot и > pivot

и, приобычнойреализации, равныемогутидтивлюбуюизчастей

, затем рекурсивно сортировать части.Характеристики: сравнение-ориентированный, нестабильный в базовом варианте, in-place

всреднем O (l o g n) дополнительнойпамятинастекрекурсии

.

2) Среднее время работы $рандомизированный p i v o t$

Теоретический результат: при выборе pivot равновероятно из текущего подмассива ожидаемое число сравнений — Θ

n l o g n

. Более точная асимптотика числа сравнений:
E[#сравнений] = 2 n ln n + O

n

натуральныйлогарифм

. Это ~1.386 n log2 n + O

n

.Следовательно, ожидаемое время работы Θ

n l o g n

. Константы хорошие, поэтому на практике быстрая сортировка очень эффективна.

3) Худшее время работы

В худшем случае

систематическиоченьнеудачныеразбиения : одинподмассивразмер n - 1, другой 0

сложность — Θ

n^2

примерно n (n - 1) /2 сравнений

.Для детерминированного выбора опоры

например, всегдапервый / последнийэлемент

вход, уже отсортированный или обратно отсортированный, даёт худший случай.При настоящем случайном выборе опоры вероятность получить последовательность крайне неудачных разбиений на каждом шаге экспоненциально мала. То есть рандомизированный алгоритм имеет квадратичное время, но с очень малой вероятностью; с высокой вероятностью

w . h . p .

время — Θ

n l o g n

.

4) Влияние выбора опоры

Случайный pivot:
защищает от злонамеренных / специфичных входов

нетвозможностизаранееподобратьвход, приводящийвсегдакхудшемуслучаю

;даёт хорошее среднее поведение и низкую среднюю глубину рекурсии

O (l o g n) всреднем

.Медиана по трём

m e d ian - o f - t h ree

:
берётся медиана из трёх элементов

например, первый, средний, последний

— уменьшает шанс плохих разбиений на «почти отсортированных» входах, снижает константу.всё ещё не обеспечивает гарантий — могут существовать входы, которые обманывают этот выбор.Дет. выбор медианы

m e d ian - o f - m e d ian s

:
даёт детерминированную выборку приблизительной медианы за O

n

и позволяет обеспечить худший случай Θ

n l o g n

при каждой рекурсии, но накладные расходы значительны; редко используется в практической сортировке из-за больших констант.

5) Влияние повторяющихся ключей

Проблема: при большом числе равных ключей двухчастное partition (разбить на < и >= либо <= и >) часто создаёт очень несимметричные разбиения, т.к. равные элементы попадают в одну из сторон, что может привести к ухудшению производительности

вплотьдоквадратичной

.Решение: трёхпутевая

3 - w a y

сортировка

D u t c hna t i o na l f l a g

:
Разбивает на три части: < pivot, = pivot, > pivot. Затем рекурсивно сортирует только меньшую и большую части.При многих равных ключах эффективно — если все элементы одинаковы, алгоритм работает за Θ

n

проходитпоэлементамодинраз

.Рекомендуется всегда использовать 3-way-партиционирование, если ожидаются повторяющиеся ключи.

6) Практические адаптации для устойчивой производительности
Рекомендуемый гибрид и инженерные приёмы $частоприменяемыевбиблиотечныхреализациях$ :

Рандомизация

Выбирать pivot как случайный элемент

изтекущегоподмассива

. Это простая и эффективная защита от худших случаев на специально подобранных входах.

Трёхпутевая партиция

Использовать Dijkstra 3-way partition, если возможны повторяющиеся ключи — это существенно улучшает поведение при дубликатах.

Интроспективная сортировка $in t rosor t$

Запускать quicksort с рандомным pivot или median-of-three; если глубина рекурсии превышает c·log n

например, 2 \cdot ⌊ l o g 2 n ⌋

, переключаться на heapsort. Это даёт гарантированный O

n l o g n

худший случай и при этом сохраняет хорошие средние константы quicksort.Этот подход используется в многих стандартных реализациях

например, в l ib s t d c + + / s t d :: sor t — снекоторымивариациями

.

Порог для малых подмассивов

Для маленьких подмассивов

обычноразмер \leq 10-32

лучше применять insertion sort — у него низкие константы и высокая локальность памяти.Типичное сочетание: quicksort + insertion sort как финальный шаг.

Выбор опоры: median-of-three

Для невраждебных входов median-of-three часто даёт лучшую практическую константу, чем полностью случайный pivot

меньшесравнений

, но не защищает от всех паттернов.

Хвостовая оптимизация и итеративная реализация

Рекурсию заменить на итерацию для одной стороны

t ai l rec u rs i o n e l imina t i o n

и всегда рекурсивно обрабатывать меньшую часть — гарантирует O

l o g n

глубину стека в среднем, снижает риск переполнения стека.

Стабильность

Стандартный inplace quicksort нестабилен. Для стабильности нужно дополнительная память

например, s t ab l e q u i c k sor t / m er g esor t гибриды

или сортировка пар

ключ, исходныйиндекс

.

Параллелизм и кеширование

Блоковая партиция и внимание к локальности данных улучшают скорость на современных кэшах. Для больших данных — распараллеливание рекурсивных вызовов.

7) Конкретная рекомендуемая конфигурация для практических реализаций

Использовать рандомный pivot или median-of-three.Делать 3-way partition при возможных дубликатах.Обрабатывать меньшую часть рекурсивно, большую итеративно

t ai l c a ll

.Если глубина рекурсии > c·log n, переключаться на heapsort

in t rosor t

.Для подмассивов размера ≤ 16 — insertion sort.При необходимости стабильности — использовать stable sort

m er g e - ba se d

либо stable quicksort с доп. памятью.

8) Итоги по сложностям

Ожидаемое время: Θ

n l o g n

(E[#сравнений] ≈ 2 n ln n + O(n)).Худшее время: Θ

n^2

для классического quicksort; при использовании introsort — гарантированно Θ

n l o g n

.Память: in-place, дополнительная стек-память Θ

l o g n

в среднем; в худшем случае O

n

еслинеприменять t ai l - c a ll изащиту

.Поведение при дубликатах: без 3-way — может ухудшаться; с 3-way — быстрое

влучшемслучае Θ (n) привсехравных

.

9) Короткие псевдокоды $схема$

Рандомизированный quicksort $двухчастный p a r t i t i o n$ :

if n ≤ threshold: insertion_sortpivot_index = random

l o .. hi

; swap

a[lo], a[pivot_index]

p = partition

a, l o, hi

// возвращает границуrecurse left, right

обрабатыватьменьшуючастьрекурсивно

Трёхпутевая партиция $D u t c h f l a g$ :

lt = lo; i = lo; gt = hi;pivot = a

r an d o m (l o .. hi)

;while i ≤ gt:
if a

i

< pivot: swap

a [lt], a [i]

; lt++; i++;
else if a

i

> pivot: swap

a [i], a [g t]

; gt--;
else: i++;recurse on

l o .. lt - 1

and

g t + 1.. hi

10) Небольшие замечания по реализации

Источник случайности: можно использовать xorshift/LCG для скорости; при желании воспроизводимости — фиксированный seed.Для числовых типов и простых структур median-of-three бывает быстрее на практике; для сложных ключей random+3-way чаще предпочтительнее.Профилируйте для конкретных данных — в реальности «лучший» набор оптимизаций зависит от распределения ключей и требований

память, стабильность, кэш

.

Если хотите, могу:

Привести пример кода

C / C + + / P y t h o n

для варианта: randomized quicksort + 3-way partition + introsort-переход + insertion sort для мелких массивов.Сравнить по числам сравнений и времени несколько конфигураций на различных распределениях данных

равномернослучайные, ужеотсортированные, сдубликатами

.

Другие вопросы eva

Другие вопросы
eva