Объясните поведение и асимптотику следующей функции на Python, найдите её недостатки и предложите как минимум два разных способа улучшения по времени и/или памяти, сохранив порядок элементов: def remove_dups(lst): res = [] for x in lst: if x not in res: res.append(x) return res
Предыдущий
вопрос Следующий
вопрос

Question

Объясните поведение и асимптотику следующей функции на Python, найдите её недостатки и предложите как минимум два разных способа улучшения по времени и/или памяти, сохранив порядок элементов: def remove_dups(lst): res = [] for x in lst: if x not in res: res.append(x) return res
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по программированию

Объясните поведение ...

eva

2 Окт в 13:42

10 +1

0

Helper · Answer 1

Функция, которую вы привели:

def remove_dups $l s t$ :
res = for x in lst:
if x not in res:
res.append $x$ return res

Что она делает

Возвращает новый список, содержащий первые вхождения элементов из lst, т.е. удаляет повторяющиеся элементы, сохраняя порядок появления

s t ab l e, k ee p - f i rs t

.

Асимптотика и недостатки

Время: O

n^2

в худшем и типичном случае. Причина: проверка "x not in res" — поиск по списку занимает O

k

, где k — текущий размер res; в среднем суммарно получается ~1 + 2 + ... + u = O

u^2

≤ O

n^2

u — числоуникальных, n — длинаисходного

.Память: O

u

дополнительной памяти для результата res

u \leq n

.Другие недостатки:
Очень медленная на больших списках.Если элементы хешируемы, есть более быстрые варианты — текущее решение их не использует.Работает с любыми

включаянепереставляемые

элементами, но это преимущество ценой производительности.

Как минимум два улучшения $ссохранениемпорядка$ :

1) Использовать множество "seen" для проверки вхождений $быстрое; требуетхешируемыхэлементов$ Код:
def remove_dups_hashable $l s t$ :
seen = set res = for x in lst:
if x not in seen:
res.append $x$ seen.add $x$ return res

Асимптотика:

Время: O

n

в среднем

поамортизированнойстоимостихеш - операций

. В редких творческих атакующих сценах или при множестве коллизий можно получить деградацию до O

n^2

, но на практике — O

n

.Память: O

u

для seen + O

u

для res.

Плюсы: очень быстро; простой код.
Минусы: элементы должны быть хешируемы $например, несписки / словаря$ . Использует дополнительный set.

2) Использовать dict.fromkeys $короткоиэффективно, используетхеширование$ Код $P y t h o n 3.7 + гарантируетсохранениепорядкаключей$ :
def remove_dups_dict $l s t$ :
return list $d i c t . f ro mk eys (l s t)$

Асимптотика:

Время: O

n

в среднем.Память: O

u

для словаря + итоговый список O

u

.

Плюсы: минималистичный один вызов, быстро.
Минусы: требует хешируемых элементов.

3) In-place вариант с двумя указателями $уменьшаетдополнительнуюпамятьдлярезультирующегосписка$ Если хотите не выделять новый список res $экономияпамятинаодномсписке$ , но при этом всё ещё пользоваться set для быстрого поиска:
def remove_dups_inplace $l s t$ :
seen = set write = 0
for read in range $l e n (l s t)$ :
x = lst $re a d$ if x not in seen:
seen.add $x$ lst $w r i t e$ = x
write += 1

удалить хвостdel lst

w r i t e :

return lst

Асимптотика:

Время: O

n

в среднем.Память: O

u

для seen; нет отдельного списка res

памятьнарезультат — висходномсписке

.

Плюсы: экономия памяти при большом исходном списке $несоздаёмвторойсписоктакогожеразмера$ .
Минусы: модифицирует входной список; требует хешируемых элементов.

4) Для непереставляемых/нехешируемых элементов
Если элементы могут быть не хешируемыми $например, списки$ и нужно сохранять именно их $неприводитькдругомутипу$ , варианты:

Оставить O $n^2$ решение $вашеначальное$ — корректно, но медленно.

Преобразовать элементы в представление, которое можно хешировать $например, t u pl e (x) длясписков$ и использовать seen для этих ключей, при этом добавлять в res оригинальные объекты:
def remove_dups_by_repr $l s t$ :
seen = set res = for x in lst:
key = repr $x$ # или tuple $x$ / json.dumps $x$ — в зависимости от случая
if key not in seen:
seen.add $k ey$ res.append $x$ return res
Внимание: repr/json/serializing могут быть медленными и потенциально небезопасными/рискованными $коллизии, разныеобъектысодинаковым re p r, чувствительностькпорядкуключейвсловаряхит . п .$

Альтернатива: использовать OrderedDict и попытаться вставлять ключи, но всё равно ключи должны быть хешируемыми.

5) Для особых доменов данных $целыевузкомдиапазоне$ Если значения — целые из известного относительно небольшого диапазона, можно применять битовые таблицы/массивы булевых флагов для уменьшения памяти и ускорения до O $n$ с меньшими накладными расходами, чем set.

Резюме и рекомендации

Если элементы хешируемы

чащевсеготак

: используйте seen = set

вместе с res

вариант 1

или удобный dict.fromkeys

вариант 2

. Это даёт O

n

время и простоту.Если нужно экономить память на новом списке — используйте in-place алгоритм

вариант 3

.Если элементы не хешируемы и нельзя конвертировать безопасно, остаётся O

n^2

вариант либо предварительная сериализация в хешируемую форму

соговорками

.Избегайте сортировки

потеряпорядка

и вероятностных структур

b l oo m f i lt er

если необходима точная детерминированная фильтрация без ложных положительных результатов.

Если хотите, могу привести готовые оптимальные реализации с тестами и примерами для ваших конкретных типов данных.

Другие вопросы eva

Другие вопросы
eva