У меня есть результат вывода текстового файла как ниже, мне только нужно отображение filepath имя и Общее количество seqs записанный из этого текстового файла, предложите, как я могу получить эти данные в отдельном текстовом файле.
Input file paths
**Mapping filepath: map_leaf_M_BAN.AC.txt** (md5: a746e6e6227fafebc545d7a7e107d55c)
Sequence read filepath: leaf-45_S51_L001.m150-p1.join.fq (md5:
8753a0afe8b89d7768e911142a1536fe)
Quality filter results
Total number of input sequences: 32992
Barcode not in mapping file: 0
Read too short after quality truncation: 682
Count of N characters exceeds limit: 0
Illumina quality digit = 0: 0
Barcode errors exceed max: 0
Result summary (after quality filtering)
Median sequence length: 273.00
LMBANAC 32310
**Total number seqs written 32310**
С уважением
Простой piplines и текстовые инструменты сделают задание:
walt@bat:~(0)$ grep -E -o 'Mapping filepath: [^*]+' Data.file | cut "-d " -f3
map_leaf_M_BAN.AC.txt
# Note the following regexp is fixed below - user's file had a TAB
walt@bat:~(0)$ grep -E -o 'Total number seqs written +[0-9]+' Data.file | awk '{print $5}'
32310
Так как файл содержит a TAB
символ (из комментария),
$ grep "Total number seqs written" split_library_log.txt | cat -t
Total number seqs written^I32992
Total number seqs written^I38519
Второе grep
команда должна быть
grep -E -o 'Total number seqs written[[:space]]+[0-9]+' Data.file | awk '{print $5}'
Конечно, читать man grep;man cut;man awk;man 7 regex
.