Fix broken HTTrack files

Версия e7428f22c55cbea8607efdf86d675bfc6ececbd0

fix_mojibake.py · 5.1 KiB · Python Исходник

#!/usr/bin/env python3 import sys import os import argparse from pathlib import Path """ Сделано для Димы Андреева, конвертор индексов HTTrack. Твой файл на самом деле уже в UTF-8, но содержит испорченные символы (mojibake). Это типичная ситуация, когда UTF-8 текст был прочитан как ISO-8859-1. """ def fix_mojibake_utf8(input_path, output_path=None): """ Исправляет текст, который был сохранён как UTF-8, но прочитан как ISO-8859-1 """ try: # Читаем файл как бинарный with open(input_path, 'rb') as f: raw_bytes = f.read() # Исправляем mojibake fixed_text = raw_bytes.decode('utf-8').encode('latin-1').decode('utf-8') return fixed_text except UnicodeDecodeError: # Если не получается исправить как mojibake, пробуем прочитать как обычный UTF-8 try: with open(input_path, 'r', encoding='utf-8') as f: return f.read() except: with open(input_path, 'r', encoding='latin-1') as f: return f.read() except Exception as e: print(f"✗ Ошибка при обработке {input_path}: {e}") return None def process_file(input_file, output_file): """Обрабатывает один файл""" fixed_text = fix_mojibake_utf8(input_file) if fixed_text is None: return False # Записываем исправленный текст with open(output_file, 'w', encoding='utf-8') as f: f.write(fixed_text) return True def process_directory(input_dir, prefix="_"): """Обрабатывает все HTML файлы в каталоге""" input_dir = Path(input_dir) if not input_dir.exists(): print(f"✗ Каталог не найден: {input_dir}") return False if not input_dir.is_dir(): print(f"✗ Это не каталог: {input_dir}") return False # Ищем все HTML файлы html_files = list(input_dir.glob("*.html")) + list(input_dir.glob("*.htm")) if not html_files: print(f"✗ В каталоге {input_dir} не найдено HTML файлов") return False print(f"Найдено {len(html_files)} HTML файлов для обработки") print("-" * 50) processed = 0 for input_file in html_files: # Создаем имя выходного файла с префиксом output_file = input_file.with_name(f"{prefix}{input_file.name}") print(f"Обработка: {input_file.name} → {output_file.name}") if process_file(input_file, output_file): processed += 1 else: print(f" ✗ Ошибка при обработке {input_file.name}") print("-" * 50) print(f"✓ Обработано файлов: {processed}/{len(html_files)}") return True def main(): parser = argparse.ArgumentParser( description='Исправляет mojibake (UTF-8, прочитанный как Latin-1) в файлах' ) parser.add_argument('input', help='Входной файл или каталог') parser.add_argument('output', nargs='?', help='Выходной файл (только для обработки одного файла)') parser.add_argument('--prefix', default='_', help='Префикс для обработанных файлов (по умолчанию: _)') args = parser.parse_args() input_path = Path(args.input) # Проверяем, является ли вход каталогом if input_path.is_dir(): print(f"📁 Обработка каталога: {input_path}") process_directory(input_path, args.prefix) else: # Обработка одного файла if not input_path.exists(): print(f"✗ Файл не найден: {input_path}") sys.exit(1) if not args.output: print("✗ Для обработки одного файла нужно указать выходной файл") print("Использование: python script.py input.html output.html") sys.exit(1) print(f"📄 Обработка файла: {input_path}") if process_file(input_path, args.output): print(f"✓ Файл сохранен: {args.output}") # Показываем превью with open(args.output, 'r', encoding='utf-8') as f: content = f.read(500) print("\nПревью (первые 500 символов):") print("-" * 50) print(content) print("-" * 50) else: print(f"✗ Не удалось обработать файл") if __name__ == "__main__": main()

1	#!/usr/bin/env python3
2	import sys
3	import os
4	import argparse
5	from pathlib import Path
6	"""
7	Сделано для Димы Андреева, конвертор индексов HTTrack.
8
9	Твой файл на самом деле уже в UTF-8, но содержит испорченные символы (mojibake). Это типичная ситуация, когда UTF-8 текст был прочитан как ISO-8859-1.
10	"""
11
12	def fix_mojibake_utf8(input_path, output_path=None):
13	"""
14	Исправляет текст, который был сохранён как UTF-8, но прочитан как ISO-8859-1
15	"""
16	try:
17	# Читаем файл как бинарный
18	with open(input_path, 'rb') as f:
19	raw_bytes = f.read()
20
21	# Исправляем mojibake
22	fixed_text = raw_bytes.decode('utf-8').encode('latin-1').decode('utf-8')
23
24	return fixed_text
25
26	except UnicodeDecodeError:
27	# Если не получается исправить как mojibake, пробуем прочитать как обычный UTF-8
28	try:
29	with open(input_path, 'r', encoding='utf-8') as f:
30	return f.read()
31	except:
32	with open(input_path, 'r', encoding='latin-1') as f:
33	return f.read()
34	except Exception as e:
35	print(f"✗ Ошибка при обработке {input_path}: {e}")
36	return None
37
38	def process_file(input_file, output_file):
39	"""Обрабатывает один файл"""
40	fixed_text = fix_mojibake_utf8(input_file)
41	if fixed_text is None:
42	return False
43
44	# Записываем исправленный текст
45	with open(output_file, 'w', encoding='utf-8') as f:
46	f.write(fixed_text)
47
48	return True
49
50	def process_directory(input_dir, prefix="_"):
51	"""Обрабатывает все HTML файлы в каталоге"""
52	input_dir = Path(input_dir)
53
54	if not input_dir.exists():
55	print(f"✗ Каталог не найден: {input_dir}")
56	return False
57
58	if not input_dir.is_dir():
59	print(f"✗ Это не каталог: {input_dir}")
60	return False
61
62	# Ищем все HTML файлы
63	html_files = list(input_dir.glob(".html")) + list(input_dir.glob(".htm"))
64
65	if not html_files:
66	print(f"✗ В каталоге {input_dir} не найдено HTML файлов")
67	return False
68
69	print(f"Найдено {len(html_files)} HTML файлов для обработки")
70	print("-" * 50)
71
72	processed = 0
73	for input_file in html_files:
74	# Создаем имя выходного файла с префиксом
75	output_file = input_file.with_name(f"{prefix}{input_file.name}")
76
77	print(f"Обработка: {input_file.name} → {output_file.name}")
78
79	if process_file(input_file, output_file):
80	processed += 1
81	else:
82	print(f" ✗ Ошибка при обработке {input_file.name}")
83
84	print("-" * 50)
85	print(f"✓ Обработано файлов: {processed}/{len(html_files)}")
86	return True
87
88	def main():
89	parser = argparse.ArgumentParser(
90	description='Исправляет mojibake (UTF-8, прочитанный как Latin-1) в файлах'
91	)
92	parser.add_argument('input', help='Входной файл или каталог')
93	parser.add_argument('output', nargs='?', help='Выходной файл (только для обработки одного файла)')
94	parser.add_argument('--prefix', default='_', help='Префикс для обработанных файлов (по умолчанию: _)')
95
96	args = parser.parse_args()
97
98	input_path = Path(args.input)
99
100	# Проверяем, является ли вход каталогом
101	if input_path.is_dir():
102	print(f"📁 Обработка каталога: {input_path}")
103	process_directory(input_path, args.prefix)
104	else:
105	# Обработка одного файла
106	if not input_path.exists():
107	print(f"✗ Файл не найден: {input_path}")
108	sys.exit(1)
109
110	if not args.output:
111	print("✗ Для обработки одного файла нужно указать выходной файл")
112	print("Использование: python script.py input.html output.html")
113	sys.exit(1)
114
115	print(f"📄 Обработка файла: {input_path}")
116	if process_file(input_path, args.output):
117	print(f"✓ Файл сохранен: {args.output}")
118
119	# Показываем превью
120	with open(args.output, 'r', encoding='utf-8') as f:
121	content = f.read(500)
122	print("\nПревью (первые 500 символов):")
123	print("-" * 50)
124	print(content)
125	print("-" * 50)
126	else:
127	print(f"✗ Не удалось обработать файл")
128
129	if __name__ == "__main__":
130	main()