В итоге я написал небольшой скрипт python для вычисления корреляции между именами каталогов и inodes, inodes и блоками данных, а также именами каталогов для блоков данных. Оказывается, что ext4 имеет тенденцию иметь довольно плохую корреляцию между порядком, в котором имена файлов появляются в каталоге, и где они хранятся на диске. Обсудив его в списке рассылки ext4, выясняется, что это результат хешированных индексов каталога, используемых для ускорения поиска в больших каталогах. Имена хранятся в хэш-порядке, который эффективно скремблирует их порядок по отношению к чему-либо еще.
Мне кажется и, по крайней мере, еще одному комментатору, что это недостаток в fs, который должен быть исправлен. Тед Ц'о (сторонник экстренной службы) считает, что в fs будет слишком сложно сделать так, что хорошие инструменты (например, rsync и tar) должны иметь возможность сортировать каталог по номеру inode перед чтением файлов.
Таким образом, похоже, что запросы на повышение характеристик нужны для rsync и tar.