Командная строка Linux сама по себе доставляет массу удовольствия, и многие утомительные задачи можно выполнить очень легко, но безупречно. Игра со словами и символами, их частота в текстовом файле и т. Д. - вот что мы увидим в этой статье.
Единственная команда, которая приходит нам в голову для настройки командной строки Linux для управления словами и символами из текстового файла, - это команда wc.
А ‘ТуалетКоманда, обозначающая счетчик слов, может выводить на печать счетчики новой строки, слов и байтов из текстового файла.
Чтобы работать с небольшими скриптами для анализа текстового файла, у нас должен быть текстовый файл. Для обеспечения единообразия мы создаем текстовый файл с выводом команды man, как описано ниже.
$ человек мужчина> man.txt
Приведенная выше команда создает текстовый файл ‘man.txt‘С содержанием‘страница руководства' для 'человек‘Команда.
Мы хотим проверить наиболее употребительные слова из созданного выше "Текстовый файл‘, Запустив приведенный ниже скрипт.
$ cat man.txt | tr '' '2' | tr '[: upper:]' '[: lower:]' | tr -d '[: punct:]' | grep -v '[^ a-z]' | сортировать | uniq -c | sort -rn | голова
7557 262 от 163 до 112 это 112, 78 из 78 ручное 76 и 64, если 63 будет
Вышеупомянутый однострочный простой скрипт показывает десять наиболее часто встречающихся слов и их частоту появления в текстовом файле.
Как насчет того, чтобы разбить слово на отдельные части, используя следующую команду.
$ echo 'команда tecmint' | свернуть -w1
т е к м и н т т е а м
Примечание: Здесь ‘-w1’ обозначает ширину.
Теперь мы разберем каждое слово в текстовом файле, отсортируем результат и получим желаемый результат с частотой из десяти наиболее часто встречающихся символов.
$ fold -w1Пример вывода
8579 2413 эл. 1987 г. 1875 т. 1644 г. 1553 п. 1522 г. 1514 с. 1224 г. 1021 лКак насчет того, чтобы в текстовом файле чаще всего встречались символы верхнего и нижнего регистра, а также частота их появления.
$ fold -w1Пример вывода
11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 o. 1269 R 1055 L 836 H 791 P 766 D 753 C 725 M 690 U 605 F 504 G 352 Y 344.Проверьте приведенный выше вывод, где есть знаки препинания. Уберем знаки препинания с помощью "tr‘Команда. Вот так:
$ fold -w1Пример вывода
11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 O 1550 1269 R 1055 L 836 H 791 P 766 D 753 C 725 M 690 U 605 F 504 G 352 YТеперь у меня есть три текстовых файла, давайте запустим приведенный выше скрипт с одним лайнером, чтобы увидеть результат.
$ cat * .txt | fold -w1 | tr '[: lower:]' '[: upper:]' | сортировать | tr -d '[: punct:]' | uniq -c | sort -rn | голова -8Пример вывода
11636 2504 E 2079 A 2005 T 1729 I 1645 N 1632 S 1580 OДалее мы будем генерировать те редкие буквы, длина которых не менее десяти. Вот простой сценарий.
$ cat man.txt | tr '' '2' | tr '[: upper:]' '[: lower:]' | tr -d '[: punct:]' | tr -d '[0-9]' | сортировать | uniq -c | sort -n | grep -E '...' | головаПример вывода
1 ──────────────────────────────────────────── 1 a all 1 abc any или все аргументы внутри являются необязательными 1 см. подробности в setlocale 1 Параметры ab, разделенные символом, не могут использоваться вместе 1 достигается за счет использования переменной среды less 1 дочерний процесс возвратил ненулевой выход статус 1 действует так, как если бы эта опция была предоставлена с использованием имени в качестве имени файла 1 активировать формат локального режима и отображать локальные файлы руководства 1 острый акцентПримечание: Чем больше и больше точек в приведенном выше сценарии, пока не будут получены все результаты. Мы можем использовать. {10}, чтобы получить десять совпадений символов.
Эти простые сценарии также позволяют нам узнать наиболее часто встречающиеся слова и символы на английском языке.
На этом пока все. Я снова буду здесь с другой интересной и необычной темой, которую стоит знать, которую вам, народам, будет интересно прочитать. Не забудьте оставить свой ценный отзыв в разделе комментариев ниже.
Читайте также: 20 забавных команд Linux