Создание RU словаря для PhpStorm

Задача объединить словари (файлы с набором русских слов) русского языка в один и удалить дубликаты слов.

для начала нужно собрать как можно больше наборов русских слов в таком виде:

...
привет
приветах
приветами
приветам
приветов
приветы
привете
приветом
привету
привета
приветик
приветике
...

объедением все наборы/файлы с расширением "txt" в текущем каталоге в один файл (btw кодировки файлов UTF-8)

28 317 530 aspell_dump-ru-ye.txt
28 384 413 aspell_dump-ru-yo.txt
55 975 663 russian.txt
49 429 042 russian2.txt
19 077 070 russian3.txt
717 145 word_rus.txt
for %f in (*.txt) do type "%f" >> ru_all_dub.dic

получился ru_all_dub.dic (199 372 309 байт)

сортируем строки в полученном файле

"C:\Program Files\Git\usr\bin\sort.exe" W:\dic_ru\ru_all_dub.dic >>W:\dic_ru\ru_all_sort.dic

удаляем дубликаты строк в текстовом файле

"C:\Program Files\Git\usr\bin\uniq.exe" W:\dic_ru\ru_all_sort.dic >>W:\dic_ru\ru_all_new.dic

на выходе получаем отсортированный ru_all_new.dic и без дублей (59 926 581 байт)

теперь подключаем его к PhpStorm

и радуемся грамотными комментариями кода на русском языке :)

p.s. готовый словарь русского языка для phpstorm можно скачать здесь.

dic ru rus phpstorm

просмотров: 1642