Чем удалить дубликаты строки в большом списке файлов? Доброй ночи. Имеется 4700 файлов без указания формата и размером в 2КБ. Облазил весь интернет, но так и не нашел программу или же простой скрипт в которой\м можно указать номер строки и пробить по ней файлы на дубликат, с последующим удалением одной из копии файла-дубликата.
Заранее, огромнейшее Вам спасибо!

21 Авг 2019 в 06:32
312 +1
0
Ответы
1

Доброй ночи! Чтобы удалить дубликаты строк в большом списке файлов, вам может помочь следующий скрипт на Python:

import os
import hashlib
files = os.listdir('путь_к_папке_с_файлами')
hashes = {}
duplicates =
for file in files:
with open(os.path.join('путь_к_папке_с_файлами', file), 'rb') as f:
file_hash = hashlib.md5f.read()f.read()f.read().hexdigest
if file_hash in hashes:
duplicates.appendfilefilefile else:
hashesfilehashfile_hashfileh ash = file
for duplicate in duplicates:
os.remove(os.path.join('путь_к_папке_с_файлами', duplicate))

Прежде чем запускать данный скрипт, не забудьте указать корректный путь к папке с вашими файлами. Скрипт будет искать дубликаты файлов на основе их содержимого, используя алгоритм хэширования MD5. В результате будут удалены все дубликаты файлов, оставляя только уникальные.

Надеюсь, это поможет вам решить вашу задачу. Удачи!

20 Апр 2024 в 13:16
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир