Я пытаюсь создать сценарий оболочки, используя довольно большой файл словаря, который принимает в качестве входных данных произвольный текстовый файл, файл словаря и число n, и сценарий вернет n наиболее распространенных опечаток, обнаруженных в этом текстовом файле. Анализируемый текстовый файл, словарь и параметр n должны быть предоставлены в качестве аргументов (параметров) командной строки для сценария оболочки.
Я немного не понимаю, как это реализовать. Могу ли я подсчитать количество раз, когда файлы не совпадают? Если да, то как мне это сделать?
Я думал об использовании команды diff, но не уверен, как n будет там реализован. Потому что с diff это могло быть просто
diff $1 dictionary.txt
но это не вернет то, что я ищу. Можно ли использовать grep?
Я тоже пробовал
comm -23 $1 dictionary.txt
Это показывает слова в данном файле, которых нет в словаре, но я не уверен, как указать их количество с помощью числа n.
