Если вы спрашиваете о программном обеспечении «data mining», то есть полезная запись в wikipedia, которая может помочь здесь
Альтернативой SPSS для open source может быть здесь
Minitab работает под вином, чтобы работать на Ubuntu, и я знаю, что вы можете получить хорошую студенческую сделку из колледжа (при условии, конечно, что вы студент!)
При работе с файлами или каталогами по их имени я настоятельно рекомендую обрабатывать их, разделенные символом nullbyte, а не новой строкой. Потому что официально имя файла может содержать новую строку. Таким образом, вы не должны составлять список каталогов, разделенных новой строкой.
В любом случае, когда у вас есть этот список, вы можете просто использовать это:
du -sch --files0-from=dirs.txt
-s -d0 и будет суммировать общее количество для каждого аргумента. -c вычисляет общую сумму. -h делает это все в удобочитаемом формате. --files0-from=dirs.txt читает имена файлов / имена каталогов из заданного файла, завершаемого нулевым байтом. С вашим списком он будет выглядеть (но с ловушкой имен файлов с новыми символами):
tr '\n' '\0' <dirs.txt | du -sch --files0-from=-
Вы можете получить размер каталогов с командой du следующим образом:
du -h -d 1 "path to parent directory"
-d: глубина подкаталогов