Разберите следующий фрагмент на Python и опишите, что он делает, в каких случаях он работает неправильно или неэффективно, и как вы бы его улучшили для больших массивов данных: def remove_duplicates(arr): res = []\nfor i in arr:\n if i not in res:\n res.append(i)\nreturn res
Предыдущий
вопрос Следующий
вопрос

Question

Разберите следующий фрагмент на Python и опишите, что он делает, в каких случаях он работает неправильно или неэффективно, и как вы бы его улучшили для больших массивов данных: def remove_duplicates(arr): res = []\nfor i in arr:\n if i not in res:\n res.append(i)\nreturn res
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по программированию

Разберите следующий ...

eva

10 Окт в 13:31

4 +1

0

Helper · Answer 1

Что делает фрагмент
def remove_duplicates $a rr$ :
res = for i in arr:
if i not in res:
res.append $i$ return res

Возвращает список элементов из arr без повторов, сохраняя порядок первого появления

f i rs t - see n or d er

.Проверка "i not in res" использует сравнение по равенству

==

.

Проблемы и случаи, когда работает плохо или неправильно

Медленно для больших массивов $O(n^2)$ :

Операция "i not in res" для списка — линейная, поэтому при n элементах получается приблизительно сумма 1..n → O

n^2

по времени.Память — O

n

в res, но это ожидаемо.

Поведение с не-хэшируемыми элементами:

Текущий код работает и с не-хэшируемыми элементами

например, списками

, потому что использует список для проверки. Это плюс, но при больших объёмах всё равно медленно.

Специальные случаи равенства:

Некоторые значения

например, N a N

ведут себя нетривиально: float

^{'} na n^{'}

!= float

^{'} na n^{'}

, это может привести к тому, что «повторы» NaN останутся как несколько элементов.Объекты с переопределённым eq / hash могут давать неожиданные результаты при использовании различных подходов

se t / d i c t v s линейныйпоиск

.

Как улучшить $вариантыипример$

1) Самый простой и быстрый для хэшируемых элементов $сохранениепорядка$ :

В Python 3.7+ можно сделать:
list

d i c t . f ro mk eys (a rr)

это O

n

по времени

всреднем

, O

n

по памяти. Очень компактно и быстро. Требует, чтобы элементы были хэшируемы.

2) Общий оптимальный подход с учётом смешанных типов $хэшируемые + не - хэшируемые$ :

Используем множество для хэшируемых элементов и отдельный список для не-хэшируемых

f a ll ba c k

. Это даёт O

n

в среднем, а квадратичность остаётся только для не-хэшируемых элементов.
Пример:
def remove_duplicates

a rr

:
seen_hashable = set

seen_unhashable =

res =

for x in arr:
try:
if x not in seen_hashable:
seen_hashable.add

x

res.append

x

except TypeError:
x не хэшируем — fallback if x not in seen_unhashable:
seen_unhashable.append

x

res.append

x

return res

3) Если порядок не важен:

Просто set

a rr

— O

n

среднее, но порядок теряется.Или: sorted

se t (a rr)

— O

n l o g n

и возвращает упорядоченные элементы.

4) Если данные — Numpy / Pandas:

Для numpy: numpy.unique

a rr

есть опция return_index для сохранения порядка первых появлений

.Для pandas: pd.Series

a rr

.drop_duplicates

— оптимизировано для больших наборов.

5) Для очень больших данных $непомещаютсявпамять$ :

Варианты:
Внешняя сортировка

e x t er na l sor t

+ удаление последовательных дублей.Использование СУБД

I NSERT I GNORE / U N I Q U E - индекс

.Bloom filter для приближённой дедупликации

экономияпамяти, новозможныложныесрабатывания

.

Кратко по сложностям

Исходный код: O

n^2

время, O

n

память.dict.fromkeys / set-based: O

n

среднее время, O

n

память

требуетхэшируемыхэлементов

.Сортировка + groupby: O

n l o g n

время, возможно меньше памяти при внешней сортировке.

Резюме и рекомендация

Для обычных списков хэшируемых объектов используйте list

d i c t . f ro mk eys (a rr)

или set-подход с seen — это простой и быстрый вариант.Если встречаются не-хэшируемые объекты — используйте комбинированный подход

se t + f a ll ba c k насписок

.Для очень больших данных применяйте инструменты уровня numpy/pandas, внешнюю сортировку или базу данных; при необходимости приближённого результата рассмотрите bloom filter.

Другие вопросы eva

Другие вопросы
eva