*zfs_recordsize_advisor6.py
                        
                             · 5.5 KiB · Python
                        
                    
                    
                      
                        原始文件
                      
                      
                        
                          
                        
                    
                    
                
                
            #!/usr/bin/env python3
# 
# Рекурсивно сканирует все файлы в указанном разделе
# Группирует файлы по ближайшей степени двойки их размера
# Анализирует распределение размеров файлов
# Рекомендует оптимальный recordsize на основе наиболее распространённого размера файлов
# Рекомендация основана на предположении, что будущие файлы будут похожего размера
# ТЕМ НЕ МЕНЕЕ:
# Для смешанных рабочих нагрузок (много маленьких и несколько больших файлов) обычно лучше
# оставить значение по умолчанию 128K
# 
import os
import argparse
from collections import defaultdict
import math
import sys
import time
def format_size(size_bytes):
    """Форматирует размер в удобочитаемом виде (без дробной части)"""
    if size_bytes == 0:
        return "0B"
    units = ["B", "KB", "MB", "GB", "TB"]
    unit_index = 0
    while size_bytes >= 1024 and unit_index < len(units) - 1:
        size_bytes /= 1024
        unit_index += 1
    return f"{int(size_bytes)}{units[unit_index]}"
def get_upper_power_of_two(size):
    """Возвращает ближайшую степень двойки вверх для заданного размера"""
    if size == 0:
        return 0
    return 2 ** math.ceil(math.log2(size))
def scan_directory(path):
    size_bins = defaultdict(int)
    total_files = 0
    total_size = 0
    last_update_time = 0
    start_time = time.time()
    for root, _, files in os.walk(path):
        for i, file in enumerate(files, 1):
            try:
                filepath = os.path.join(root, file)
                # Выводим прогресс каждые 0.1 секунды
                current_time = time.time()
                if current_time - last_update_time > 0.1 or i == len(files):
                    print(f"\rScanning: {filepath[:80]}... Files: {total_files} ", end="")
                    sys.stdout.flush()
                    last_update_time = current_time
                if not os.path.islink(filepath):
                    size = os.path.getsize(filepath)
                    bin_key = get_upper_power_of_two(size)
                    size_bins[bin_key] += 1
                    total_files += 1
                    total_size += size
            except (PermissionError, OSError):
                continue
    print("\nScan completed!")
    elapsed_time = time.time() - start_time
    print(f"Scanned {total_files} files in {elapsed_time:.1f} seconds")
    return size_bins, total_files, total_size
def recommend_recordsize(size_bins, total_files):
    if not size_bins:
        return "128K"  # default value
    recordsize_options = {
        512: "512B",
        1024: "1K",
        2048: "2K",
        4096: "4K",
        8192: "8K",
        16384: "16K",
        32768: "32K",
        65536: "64K",
        131072: "128K",
        262144: "256K",
        524288: "512K",
        1048576: "1M",
        2097152: "2M",
        4194304: "4M",
        8388608: "8M",
        16777216: "16M",
        33554432: "32M"
    }
    most_common_size = max(size_bins.items(), key=lambda x: x[1])[0]
    # Выбираем ближайший recordsize, который не меньше most_common_size
    recommended = None
    for size in sorted(recordsize_options.keys()):
        if size >= most_common_size:
            recommended = size
            break
    # Если не нашли подходящий размер (очень большие файлы), берем максимальный
    if recommended is None:
        recommended = max(recordsize_options.keys())
    return recordsize_options.get(recommended, "128K")
def print_distribution(size_bins, total_files):
    print("\nFile size distribution (next power-of-two bins):")
    print("{:<20} {:<15} {}".format("Filesize below", "Files count", "Percentage"))
    print("-" * 30)
    for size in sorted(size_bins.keys()):
        count = size_bins[size]
        percent = (count / total_files) * 100
        size_str = format_size(size)
        print("{:<20} {:<15} {:.1f}%".format(size_str, count, percent))  # Изменено на .1f
def main():
    parser = argparse.ArgumentParser(description="ZFS recordsize recommendation tool")
    parser.add_argument("path", help="Path to the directory to scan")
    args = parser.parse_args()
    print(f"Starting scan of {args.path}...\n")
    size_bins, total_files, total_size = scan_directory(args.path)
    if total_files == 0:
        print("No files found or permission denied.")
        return
    print_distribution(size_bins, total_files)
    recommended = recommend_recordsize(size_bins, total_files)
    print(f"\nTotal files scanned: {total_files}")
    print(f"Total data size: {format_size(total_size)}")
    print(f"\nRecommended ZFS recordsize: {recommended}")
    if recommended == "128K":
        print("Note: This is the default ZFS recordsize which works well for most mixed workloads.")
    elif recommended.endswith(("B", "K")):
        print("Note: Small recordsize is good for many small files but may reduce throughput for large files.")
    elif recommended.endswith(("M")):
        print("Note: Large recordsize improves throughput for large files but may waste space for small files.")
if __name__ == "__main__":
    main()
                | 1 | #!/usr/bin/env python3 | 
| 2 | # | 
| 3 | # Рекурсивно сканирует все файлы в указанном разделе | 
| 4 | # Группирует файлы по ближайшей степени двойки их размера | 
| 5 | # Анализирует распределение размеров файлов | 
| 6 | # Рекомендует оптимальный recordsize на основе наиболее распространённого размера файлов | 
| 7 | # Рекомендация основана на предположении, что будущие файлы будут похожего размера | 
| 8 | # ТЕМ НЕ МЕНЕЕ: | 
| 9 | # Для смешанных рабочих нагрузок (много маленьких и несколько больших файлов) обычно лучше | 
| 10 | # оставить значение по умолчанию 128K | 
| 11 | # | 
| 12 | import os | 
| 13 | import argparse | 
| 14 | from collections import defaultdict | 
| 15 | import math | 
| 16 | import sys | 
| 17 | import time | 
| 18 | |
| 19 | def format_size(size_bytes): | 
| 20 | """Форматирует размер в удобочитаемом виде (без дробной части)""" | 
| 21 | if size_bytes == 0: | 
| 22 | return "0B" | 
| 23 | |
| 24 | units = ["B", "KB", "MB", "GB", "TB"] | 
| 25 | unit_index = 0 | 
| 26 | |
| 27 | while size_bytes >= 1024 and unit_index < len(units) - 1: | 
| 28 | size_bytes /= 1024 | 
| 29 | unit_index += 1 | 
| 30 | |
| 31 | return f"{int(size_bytes)}{units[unit_index]}" | 
| 32 | |
| 33 | def get_upper_power_of_two(size): | 
| 34 | """Возвращает ближайшую степень двойки вверх для заданного размера""" | 
| 35 | if size == 0: | 
| 36 | return 0 | 
| 37 | return 2 ** math.ceil(math.log2(size)) | 
| 38 | |
| 39 | def scan_directory(path): | 
| 40 | size_bins = defaultdict(int) | 
| 41 | total_files = 0 | 
| 42 | total_size = 0 | 
| 43 | last_update_time = 0 | 
| 44 | start_time = time.time() | 
| 45 | |
| 46 | for root, _, files in os.walk(path): | 
| 47 | for i, file in enumerate(files, 1): | 
| 48 | try: | 
| 49 | filepath = os.path.join(root, file) | 
| 50 | |
| 51 | # Выводим прогресс каждые 0.1 секунды | 
| 52 | current_time = time.time() | 
| 53 | if current_time - last_update_time > 0.1 or i == len(files): | 
| 54 | print(f"\rScanning: {filepath[:80]}... Files: {total_files} ", end="") | 
| 55 | sys.stdout.flush() | 
| 56 | last_update_time = current_time | 
| 57 | |
| 58 | if not os.path.islink(filepath): | 
| 59 | size = os.path.getsize(filepath) | 
| 60 | bin_key = get_upper_power_of_two(size) | 
| 61 | size_bins[bin_key] += 1 | 
| 62 | total_files += 1 | 
| 63 | total_size += size | 
| 64 | except (PermissionError, OSError): | 
| 65 | continue | 
| 66 | |
| 67 | print("\nScan completed!") | 
| 68 | elapsed_time = time.time() - start_time | 
| 69 | print(f"Scanned {total_files} files in {elapsed_time:.1f} seconds") | 
| 70 | return size_bins, total_files, total_size | 
| 71 | |
| 72 | def recommend_recordsize(size_bins, total_files): | 
| 73 | if not size_bins: | 
| 74 | return "128K" # default value | 
| 75 | |
| 76 | recordsize_options = { | 
| 77 | 512: "512B", | 
| 78 | 1024: "1K", | 
| 79 | 2048: "2K", | 
| 80 | 4096: "4K", | 
| 81 | 8192: "8K", | 
| 82 | 16384: "16K", | 
| 83 | 32768: "32K", | 
| 84 | 65536: "64K", | 
| 85 | 131072: "128K", | 
| 86 | 262144: "256K", | 
| 87 | 524288: "512K", | 
| 88 | 1048576: "1M", | 
| 89 | 2097152: "2M", | 
| 90 | 4194304: "4M", | 
| 91 | 8388608: "8M", | 
| 92 | 16777216: "16M", | 
| 93 | 33554432: "32M" | 
| 94 | } | 
| 95 | |
| 96 | most_common_size = max(size_bins.items(), key=lambda x: x[1])[0] | 
| 97 | |
| 98 | # Выбираем ближайший recordsize, который не меньше most_common_size | 
| 99 | recommended = None | 
| 100 | for size in sorted(recordsize_options.keys()): | 
| 101 | if size >= most_common_size: | 
| 102 | recommended = size | 
| 103 | break | 
| 104 | |
| 105 | # Если не нашли подходящий размер (очень большие файлы), берем максимальный | 
| 106 | if recommended is None: | 
| 107 | recommended = max(recordsize_options.keys()) | 
| 108 | |
| 109 | return recordsize_options.get(recommended, "128K") | 
| 110 | |
| 111 | def print_distribution(size_bins, total_files): | 
| 112 | print("\nFile size distribution (next power-of-two bins):") | 
| 113 | print("{:<20} {:<15} {}".format("Filesize below", "Files count", "Percentage")) | 
| 114 | print("-" * 30) | 
| 115 | |
| 116 | for size in sorted(size_bins.keys()): | 
| 117 | count = size_bins[size] | 
| 118 | percent = (count / total_files) * 100 | 
| 119 | size_str = format_size(size) | 
| 120 | print("{:<20} {:<15} {:.1f}%".format(size_str, count, percent)) # Изменено на .1f | 
| 121 | |
| 122 | def main(): | 
| 123 | parser = argparse.ArgumentParser(description="ZFS recordsize recommendation tool") | 
| 124 | parser.add_argument("path", help="Path to the directory to scan") | 
| 125 | args = parser.parse_args() | 
| 126 | |
| 127 | print(f"Starting scan of {args.path}...\n") | 
| 128 | size_bins, total_files, total_size = scan_directory(args.path) | 
| 129 | |
| 130 | if total_files == 0: | 
| 131 | print("No files found or permission denied.") | 
| 132 | return | 
| 133 | |
| 134 | print_distribution(size_bins, total_files) | 
| 135 | |
| 136 | recommended = recommend_recordsize(size_bins, total_files) | 
| 137 | print(f"\nTotal files scanned: {total_files}") | 
| 138 | print(f"Total data size: {format_size(total_size)}") | 
| 139 | print(f"\nRecommended ZFS recordsize: {recommended}") | 
| 140 | |
| 141 | if recommended == "128K": | 
| 142 | print("Note: This is the default ZFS recordsize which works well for most mixed workloads.") | 
| 143 | elif recommended.endswith(("B", "K")): | 
| 144 | print("Note: Small recordsize is good for many small files but may reduce throughput for large files.") | 
| 145 | elif recommended.endswith(("M")): | 
| 146 | print("Note: Large recordsize improves throughput for large files but may waste space for small files.") | 
| 147 | |
| 148 | if __name__ == "__main__": | 
| 149 | main() | 
| 150 | |
| 151 |