Если у вас есть PulseAudio, работающий на компьютере, вы можете добиться этого, записав, что Skype отправляет на звуковую карту (независимо от того, виртуально или нет) и что вы говорите в микрофон. Здесь у меня есть небольшой скрипт:
#!/bin/bash
monitor=$(pactl list | grep -A2 'Source #' | grep 'Name: .*\.monitor$' | cut -d" " -f2)
mic=${monitor/output/input}
mic=${mic%.*}
gst-launch-0.10 -e pulsesrc device=$mic ! adder name=mix ! audioconvert ! vorbisenc ! oggmux ! filesink location=$1 { pulsesrc device=$monitor ! mix. }
Здесь он ищет звуковую карту, используемую для воспроизведения, и кранит ее монитор. Затем он ищет микрофонный вход и монитор. Запись выполняется конвейером gstreamer, который запускает две записи и смешивает их вместе и записывает аудио как Ogg Vorbis.
Если вы сохраните этот скрипт как pa-rec-monitor.sh, вы можете запустить его как ./pa-rec-moonitor.sh filename.ogg.
Вы можете проверить, записывает ли он, что вы хотите, установив pavucontrol. На вкладке «Запись» должны быть два потока, в которых счетчики VU реагируют на звук.
Обложка в mp3-файлах обрабатывается с использованием тегов ID3. Это часто зависит от источника, из которого вы получили ваши .mp3-файлы, от того, будут ли они иметь встроенное обложку.
В отношении загрузки обложки есть ряд программ, предназначенных для этого, некоторые полезные примеры обсуждаются в соответствующем вопросе: нужен тег MP3 ID3 и обложка обложки