Объединение файлов с использованием общего столбца (с использованием awk) [dубликат]

У меня есть два текстовых файла:

file 1:

#CHROM POS ID REF ALT 1 61442 rs2531261 A G 1 924629 rs28622096 A G,T 1 974662 rs2465135 G T 1 995481 rs9442393 T G

file 2

#CHROM POS ID REF ALT FORMAT 1 61442 rs2531261 A G GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD 1 924629 rs28622096 A G,T GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD 1 974662 rs2465135 G T GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD 1 987909 rs34235844 G GTG GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD 1 995481 rs9442393 T G GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD

Я хотел бы объединить файлы на основе столбец 3 (ID). Мой выходной файл должен:

output:

#CHROM POS ID REF ALT FORMAT 1 61442 rs2531261 A G GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD 1 924629 rs28622096 A G,T GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD 1 974662 rs2465135 G T GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD 1 995481 rs9442393 T G GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD

Я хочу использовать awk.

0
задан 2 February 2018 в 00:04

2 ответа

Похоже, вы хотите фильтровать файл2 на основе идентификаторов в файле 1 (а не объединять файлы):

$ awk 'NR==FNR {a[$3] = 1; next} $3 in a' file1 file2 #CHROM POS ID REF ALT FORMAT 1 61442 rs2531261 A G GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD 1 924629 rs28622096 A G,T GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD 1 974662 rs2465135 G T GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD 1 995481 rs9442393 T G GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD
2
ответ дан 17 July 2018 в 21:44

Похоже, вы хотите фильтровать файл2 на основе идентификаторов в файле 1 (а не объединять файлы):

$ awk 'NR==FNR {a[$3] = 1; next} $3 in a' file1 file2 #CHROM POS ID REF ALT FORMAT 1 61442 rs2531261 A G GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD 1 924629 rs28622096 A G,T GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD 1 974662 rs2465135 G T GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD 1 995481 rs9442393 T G GT:GL:GQ:DP:CGA_RDP:EHQ:HQ:CGA_CEGL:PS:CGA_CEHQ:AD
2
ответ дан 23 July 2018 в 22:21

Другие вопросы по тегам:

Похожие вопросы: