Инструмент для измерения удобочитаемости английского текста

Question 1

Существует ли программа командной строки, которая берет файл, содержащий английский текст, анализирует текст и производит его очки удобочитаемости?

Например, если Вы подаете программу текст, программа должна произвести год обучения Flesch-Kincaid, классификацию СМОГА McLaughlin's, и т.д.

Я полагаю, что такая программа существует в официальных репозиториях, но я не могу помнить ее имя. Существует также возможность, что я - misremebering.

Question 2

diction пакет содержит названный инструмент style:

Style анализирует поверхностные характеристики стиля записи документа. Это печатает различные классы удобочитаемости, длину слов, предложений и абзацев. Это может далее определить местоположение предложений с определенными характеристиками.

Например, если я оцениваю Ваше тело вопроса (сохраненный в файле flux_question) распечатать предложения с индексом удобочитаемости (ARI) более чем 10:

$ style -r 10 flux_question
flux_question:1: Is there a command line program that takes a file containing English text, analyzes the text, and outputs its readability scores?
flux_question:2: For example, if one feeds the program a text, the program should output the Flesch-Kincaid grade level, McLaughlin's SMOG grading, etc.
readability grades:
        Kincaid: 10.2
        ARI: 10.8
        Coleman-Liau: 12.5
        Flesch Index: 51.1/100
        Fog Index: 12.0
        Lix: 48.6 = school year 9
        SMOG-Grading: 11.2
sentence info:
        333 characters
        65 words, average length 5.12 characters = 1.65 syllables
        4 sentences, average length 16.2 words
        25% (1) short sentences (at most 11 words)
        0% (0) long sentences (at least 26 words)
        1 paragraphs, average length 4.0 sentences
        25% (1) questions
        25% (1) passive sentences
        longest sent 21 wds at sent 2; shortest sent 8 wds at sent 4
word usage:
        verb types:
        to be (1) auxiliary (2) 
        types as % of total:
        conjunctions 5% (3) pronouns 9% (6) prepositions 2% (1)
        nominalizations 0% (0)
sentence beginnings:
        pronoun (1) interrogative pronoun (0) article (0)
        subordinating conjunction (0) conjunction (0) preposition (0)

Для фильтрации вывода, можно использовать, например. tail -n8 получать только оценки или grep 'Flesch\|SMOG' просто распечатать Индекс Flesch и Классификацию СМОГА:

$ style style_test | grep 'Flesch\|SMOG'
        Flesch Index: 51.7/100
        SMOG-Grading: 11.2

Дальнейшее чтение

dessert · Accepted Answer · 23 November 2019 в 03:23

diction пакет содержит названный инструмент style:

Style анализирует поверхностные характеристики стиля записи документа. Это печатает различные классы удобочитаемости, длину слов, предложений и абзацев. Это может далее определить местоположение предложений с определенными характеристиками.

Например, если я оцениваю Ваше тело вопроса (сохраненный в файле flux_question) распечатать предложения с индексом удобочитаемости (ARI) более чем 10:

$ style -r 10 flux_question
flux_question:1: Is there a command line program that takes a file containing English text, analyzes the text, and outputs its readability scores?
flux_question:2: For example, if one feeds the program a text, the program should output the Flesch-Kincaid grade level, McLaughlin's SMOG grading, etc.
readability grades:
        Kincaid: 10.2
        ARI: 10.8
        Coleman-Liau: 12.5
        Flesch Index: 51.1/100
        Fog Index: 12.0
        Lix: 48.6 = school year 9
        SMOG-Grading: 11.2
sentence info:
        333 characters
        65 words, average length 5.12 characters = 1.65 syllables
        4 sentences, average length 16.2 words
        25% (1) short sentences (at most 11 words)
        0% (0) long sentences (at least 26 words)
        1 paragraphs, average length 4.0 sentences
        25% (1) questions
        25% (1) passive sentences
        longest sent 21 wds at sent 2; shortest sent 8 wds at sent 4
word usage:
        verb types:
        to be (1) auxiliary (2) 
        types as % of total:
        conjunctions 5% (3) pronouns 9% (6) prepositions 2% (1)
        nominalizations 0% (0)
sentence beginnings:
        pronoun (1) interrogative pronoun (0) article (0)
        subordinating conjunction (0) conjunction (0) preposition (0)

Для фильтрации вывода, можно использовать, например. tail -n8 получать только оценки или grep 'Flesch\|SMOG' просто распечатать Индекс Flesch и Классификацию СМОГА:

$ style style_test | grep 'Flesch\|SMOG'
        Flesch Index: 51.7/100
        SMOG-Grading: 11.2

Инструмент для измерения удобочитаемости английского текста

1 ответ

Дальнейшее чтение

Другие вопросы по тегам:

Похожие вопросы: