Как объединить несколько файлов одного формата в один файл? [dубликат]

Question 1

Я не тестировал его, но Neon Project предлагает Ubuntu PPA с бета-версиями и RC-пакетами.

Question 2

Вы можете использовать awk для конкатенации файлов, пропуская первую строку каждого файла, если это не первая строка всех файлов.

Например, если файлы называются part-00000 через part-00199, затем

awk 'FNR==1 && NR!=1 {next} {print}' part-{00000..00199}

Question 3

Question 4

Вы можете использовать awk для конкатенации файлов, пропуская первую строку каждого файла, если это не первая строка всех файлов.

Например, если файлы называются part-00000 через part-00199, затем

awk 'FNR==1 && NR!=1 {next} {print}' part-{00000..00199}

Question 5

Вы можете использовать awk для конкатенации файлов, пропуская первую строку каждого файла, если это не первая строка всех файлов.

Например, если файлы называются part-00000 через part-00199, затем

awk 'FNR==1 && NR!=1 {next} {print}' part-{00000..00199}

Question 6

Я бы захватил заголовки из одного из файлов, а затем захватил все, начиная с строки 2, из всех файлов.

head -1 part-00000 > output.csv
tail -n +2 part-* >> output.csv

Question 7

Question 8

Простая альтернатива другим решениям использует cat и grep как:

cat * | grep -v '^col1,col2' > newfile

Question 9

Я бы захватил заголовки из одного из файлов, а затем захватил все, начиная с строки 2, из всех файлов.

head -1 part-00000 > output.csv
tail -n +2 part-* >> output.csv

Question 10

Простая альтернатива другим решениям использует cat и grep как:

cat * | grep -v '^col1,col2' > newfile

Question 11

Я бы захватил заголовки из одного из файлов, а затем захватил все, начиная с строки 2, из всех файлов.

head -1 part-00000 > output.csv
tail -n +2 part-* >> output.csv

Question 12

Простая альтернатива другим решениям использует cat и grep как:

cat * | grep -v '^col1,col2' > newfile

steeldriver · Accepted Answer · 22 May 2018 в 19:59

Вы можете использовать awk для конкатенации файлов, пропуская первую строку каждого файла, если это не первая строка всех файлов.

Например, если файлы называются part-00000 через part-00199, затем

awk 'FNR==1 && NR!=1 {next} {print}' part-{00000..00199}

2

ответ дан steeldriver 22 May 2018 в 19:59

1

Имена файлов изменяются между part-00000 и part-00199. Как изменить количество 0 в заголовках? – Dinosaurius 31 July 2017 в 14:07
2

Глобулизация (например, *) упорядочена логически, поэтому awk ... part-* должен быть безопасным. – Oli♦ 31 July 2017 в 14:11

steeldriver · Accepted Answer · 18 July 2018 в 09:21

Вы можете использовать awk для конкатенации файлов, пропуская первую строку каждого файла, если это не первая строка всех файлов.

Например, если файлы называются part-00000 через part-00199, затем

awk 'FNR==1 && NR!=1 {next} {print}' part-{00000..00199}

steeldriver · Accepted Answer · 24 July 2018 в 19:18

Вы можете использовать awk для конкатенации файлов, пропуская первую строку каждого файла, если это не первая строка всех файлов.

Например, если файлы называются part-00000 через part-00199, затем

awk 'FNR==1 && NR!=1 {next} {print}' part-{00000..00199}

Oli · Answer 4 · 22 May 2018 в 19:59

Я бы захватил заголовки из одного из файлов, а затем захватил все, начиная с строки 2, из всех файлов.

head -1 part-00000 > output.csv
tail -n +2 part-* >> output.csv

2

ответ дан Oli 22 May 2018 в 19:59

1

Я протестировал его. Я получаю такие строки, как ==> output.csv <== ==> part-00000 <== в output.csv. Мои файлы не имеют расширения, поэтому я заменил вашу вторую строку кода на эту tail -n +2 * >> output.csv, но результат был неверным, как я объяснил. – Dinosaurius 31 July 2017 в 14:11
2

Я бы предположил, что что-то еще в каталоге содержит это. part-* безопаснее. Я обновил ответ. – Oli♦ 31 July 2017 в 14:14

Ravexina · Answer 5 · 22 May 2018 в 19:59

Простая альтернатива другим решениям использует cat и grep как:

cat * | grep -v '^col1,col2' > newfile

1

ответ дан Ravexina 22 May 2018 в 19:59

1

Должен ли я перечислять все имена столбцов вручную? – Dinosaurius 31 July 2017 в 14:13
2

разве они не такие же? – Ravexina 31 July 2017 в 14:14

Oli · Answer 6 · 18 July 2018 в 09:21

Я бы захватил заголовки из одного из файлов, а затем захватил все, начиная с строки 2, из всех файлов.

head -1 part-00000 > output.csv
tail -n +2 part-* >> output.csv

Ravexina · Answer 7 · 18 July 2018 в 09:21

Простая альтернатива другим решениям использует cat и grep как:

cat * | grep -v '^col1,col2' > newfile

1

ответ дан Ravexina 18 July 2018 в 09:21

Oli · Answer 8 · 24 July 2018 в 19:18

Я бы захватил заголовки из одного из файлов, а затем захватил все, начиная с строки 2, из всех файлов.

head -1 part-00000 > output.csv
tail -n +2 part-* >> output.csv

2

ответ дан Oli 24 July 2018 в 19:18

1

Я протестировал его. Я получаю такие строки, как ==> output.csv <== ==> part-00000 <== в output.csv. Мои файлы не имеют расширения, поэтому я заменил вашу вторую строку кода на эту tail -n +2 * >> output.csv, но результат был неверным, как я объяснил. – Dinosaurius 31 July 2017 в 14:11
2

Я бы предположил, что что-то еще в каталоге содержит это. part-* безопаснее. Я обновил ответ. – Oli♦ 31 July 2017 в 14:14

Ravexina · Answer 9 · 24 July 2018 в 19:18

Простая альтернатива другим решениям использует cat и grep как:

cat * | grep -v '^col1,col2' > newfile

1

ответ дан Ravexina 24 July 2018 в 19:18

1

Должен ли я перечислять все имена столбцов вручную? – Dinosaurius 31 July 2017 в 14:13
2

разве они не такие же? – Ravexina 31 July 2017 в 14:14

9 ответов