Извлечение информации из пользовательских страниц Ubuntu [закрыто]

Я пытаюсь добыть данные из ubuntu manpages и генерировать статистику, например, сколько команд manpages имеет раздел примеров или как использовать команду, объединяющую различные параметры и многое другое, автоматически для подачи в программу автоматизации. Я думал о нескольких подходах, но у них есть свои ограничения, связанные с ними.

Используйте регулярное выражение для извлечения информации о текстовых документах manpages. Но, похоже, эта проблема запутана, так как формат и организация разных разделов несовместимы между всеми страницами. Непоследовательность в формате manpages, по-видимому, является установленной проблемой. Используйте парсер HTML / XML в формате html / xml manpages, поскольку он дает больше структуры в текстовом формате. Разделы могут быть идентифицированы с тегами заголовка и опциями, организованными как элементы списка в формате html. Но проблема здесь в том, что я не нашел какую-либо загружаемую html-коллекцию коллекций. Ближайшим я смог найти html-формат дистрибутива Linux, который пропустит некоторые команды мира Ubuntu. Я попробовал преобразовать manpages в html-формат через командную строку с использованием программного обеспечения man2html, но он не структурирует его красиво. Сгенерированный формат html объединяет все под одним основным набором тегов html.

Любые предложения о том, как подойти к этой проблеме? Может ли кто-нибудь дать указатель на реализацию кода уже выполненной работы в этом пространстве?

1
задан 3 December 2016 в 00:06

0 ответов

Другие вопросы по тегам:

Похожие вопросы: