Как я могу захватить весь текст в документе из Документов Google и преобразовать его в текстовый файл, желательно, как это можно использовать в скрипте? Будет ли wget работать? например:
wget https://docs.google.com/document/d/documentcode > googledoc.txt
Если да, могу ли я использовать сокращенный URL?
Не нужно подключаться к другой программе для преобразования файла. Вы можете скачать из Документов Google в любом поддерживаемом формате, используя существующие параметры в URL-адресе.
https://docs.google.com/document/d/FILE_ID/export?format=FORMAT
где:
FILE_ID - это идентификатор строки целевого файла и ; FORMAT - это формат файла, т. е. txt. Затем загрузка документа из Документов Google в виде текстового файла осуществляется с помощью wget или веб-браузера. Оба метода будут загружать документ в виде текстового файла, как и ожидалось.
Я пробовал себя, и вывод выглядит примерно так:
$ wget https://docs.google.com/document/d/FILE_ID/export?format=txt
--####-##-## ##:##:##-- https://docs.google.com/document/d/FILE_ID/export?format=txt
Resolving docs.google.com (docs.google.com)...
Connecting to docs.google.com (docs.google.com)... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/plain]
Saving to: ‘export?format=txt’
[ <=> ] 649 --.-K/s in 0s
####-##-## ##:##:## (##.# MB/s) - ‘export?format=txt’ saved [649]
URL-адрес для других продуктов, таких как Google Листы, Google Презентация или даже Google Диск будут немного отличаться.
Что касается документации, единственное релевантное руководство, которое я нашел, - это датированное сообщение в блоге около 2014. Это страница руководства разработчика для Google Диска, но не полезно, как есть. Это все.
Загрузите документ Google в виде текстового документа с расширением файла .docx. Убедитесь, что пакет docxtxt уже установлен. Затем запустите команду docx2txt, а затем имя вашего файла. Например ...
docx2txt report.docx
Не нужно подключаться к другой программе для преобразования файла. Вы можете скачать из Документов Google в любом поддерживаемом формате, используя существующие параметры в URL-адресе.
https://docs.google.com/document/d/FILE_ID/export?format=FORMAT
где:
FILE_ID - это идентификатор строки целевого файла и ; FORMAT - это формат файла, т. е. txt. Затем загрузка документа из Документов Google в виде текстового файла осуществляется с помощью wget или веб-браузера. Оба метода будут загружать документ в виде текстового файла, как и ожидалось.
Я пробовал себя, и вывод выглядит примерно так:
$ wget https://docs.google.com/document/d/FILE_ID/export?format=txt
--####-##-## ##:##:##-- https://docs.google.com/document/d/FILE_ID/export?format=txt
Resolving docs.google.com (docs.google.com)...
Connecting to docs.google.com (docs.google.com)... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/plain]
Saving to: ‘export?format=txt’
[ <=> ] 649 --.-K/s in 0s
####-##-## ##:##:## (##.# MB/s) - ‘export?format=txt’ saved [649]
URL-адрес для других продуктов, таких как Google Листы, Google Презентация или даже Google Диск будут немного отличаться.
Что касается документации, единственное релевантное руководство, которое я нашел, - это датированное сообщение в блоге около 2014. Это страница руководства разработчика для Google Диска, но не полезно, как есть. Это все.
Загрузите документ Google в виде текстового документа с расширением файла .docx. Убедитесь, что пакет docxtxt уже установлен. Затем запустите команду docx2txt, а затем имя вашего файла. Например ...
docx2txt report.docx