В приведённом фрагменте Python:
def remove_dups(arr):
for i in range(len(arr)):
if arr[i] in arr[:i]:
arr.pop(i)
return arr
объясните, что делает код, найдите ошибки (логические и по сложности), предложите корректную и эффективную реализацию удаления дубликатов с сохранением порядка
Предыдущий
вопрос Следующий
вопрос

Question

В приведённом фрагменте Python:
def remove_dups(arr):
for i in range(len(arr)):
if arr[i] in arr[:i]:
arr.pop(i)
return arr
объясните, что делает код, найдите ошибки (логические и по сложности), предложите корректную и эффективную реализацию удаления дубликатов с сохранением порядка
Предыдущий
вопрос Следующий
вопрос

Главная

Вопросы и ответы

Вопросы и ответы по программированию

В приведённом фрагме...

eva

25 Сен в 13:28

23 +1

0

Helper · Answer 1

Кратко о том, что делает исходный код

def remove_dups $a rr$ :
for i in range $l e n (a rr)$ :
if arr $i$ in arr $: i$ :
arr.pop $i$ return arr

Автор пытается пройти по массиву по индексам и для каждого элемента удалить его, если он уже встречался слева

в a rr [: i]

.arr

: i

— срез, содержащий все элементы слева от позиции i, проверка arr

i

in arr

: i

— ищет дубликат слева.Если найден дубликат — выполняется arr.pop

i

удалениепоиндексу

.

Ошибки и недостатки

Логическая/ошибка исполнения:

Нельзя безопасно изменять длину списка $p o p$ при итерации по range $l e n (a rr)$ , потому что range вычислен заранее. После уменьшения длины списка обращение к arr $i$ при дальнейшем i может вызвать IndexError. Пример:
arr = $1, 1, 2$ i=0: оставить
i=1: удалить второй 1 → arr = $1, 2$ i=2: попытка обратиться к arr $2$ → IndexError.

Кроме того, удаление по индексу сдвигает оставшиеся элементы, что может привести к пропуску проверки некоторых элементов $авторскийподходненадёжный$ .

Сложность $эффективность$ :

Для каждого i создаётся срез arr

: i

— это O

i

по времени и дополнительная память; затем проверка in — ещё O

i

в худшем случае. Так что одна проверка ≈ O

i

, суммарно O

n^2

.pop

i

удаление в середине списка — O

n

сдвиг элементов; в худшем случае суммарно ещё O

n^2

.Итого алгоритм работает за квадратичное время

ииспользуетдополнительнуюпамятьиз - засрезов

. Для больших списков это плохо.

Корректная и эффективная реализация $ссохранениемпорядка$

1) Простая и понятная $возвращаетновыйсписок, ожидается, чтоэлементыхешируемы$ :
def remove_dups $a rr$ :
seen = set res = for x in arr:
if x not in seen:
seen.add $x$ res.append $x$ return res

Сложность: O $n$ в среднем по времени, O $n$ по дополнительной памяти.

2) Вариант, модифицирующий список in-place $безсозданияновогосписка, носдополнительныммножествомдля see n$ :
def remove_dups_inplace $a rr$ :
seen = set write = 0
for x in arr:
if x not in seen:
seen.add $x$ arr $w r i t e$ = x
write += 1
del arr $w r i t e :$ # обрезаем хвост
return arr

Этот вариант экономит место на новый список, но всё равно использует O $n$ для множества seen.

3) Если элементы не хешируемы, можно использовать множество ключей $k ey$ или fallback на проверку по списку $медленнее$ :
def remove_dups_key $a rr, k ey = l amb d a x : x$ :
seen = set res = for x in arr:
k = key $x$ if k not in seen:
seen.add $k$ res.append $x$ return res

Примеры и замечания

Все приведённые версии сохраняют порядок первых вхождений.Если элементы не хешируемы и у вас нет разумной функции key, придётся использовать квадратичный алгоритм

проверка in посписку

.Если нужна стабильность и допустима дополнительная память — вариант с seen+res наиболее прост и быстрый.

Если хотите, могу показать конкретные тесты, демонстрирующие падение исходного кода и корректность предложенных реализаций.

Другие вопросы eva

Другие вопросы
eva