Создание RU словаря для PhpStorm
Задача - объединить словари (файлы с набором русских слов) русского языка в один и удалить дубликаты слов.
для начала нужно собрать как можно больше наборов русских слов в таком виде:
... привет приветах приветами приветам приветов приветы привете приветом привету привета приветик приветике ...
объедением все наборы/файлы с расширением "txt" в текущем каталоге в один файл (btw кодировки файлов UTF-8)
28 317 530 aspell_dump-ru-ye.txt 28 384 413 aspell_dump-ru-yo.txt 55 975 663 russian.txt 49 429 042 russian2.txt 19 077 070 russian3.txt 717 145 word_rus.txt
for %f in (*.txt) do type "%f" >> ru_all_dub.dic
получился ru_all_dub.dic (199 372 309 байт)
сортируем строки в полученном файле
"C:\Program Files\Git\usr\bin\sort.exe" W:\dic_ru\ru_all_dub.dic >>W:\dic_ru\ru_all_sort.dic
удаляем дубликаты строк в текстовом файле
"C:\Program Files\Git\usr\bin\uniq.exe" W:\dic_ru\ru_all_sort.dic >>W:\dic_ru\ru_all_new.dic
на выходе получаем отсортированный ru_all_new.dic и без дублей (59 926 581 байт)
теперь подключаем его к PhpStorm

и радуемся грамотными комментариями кода на русском языке :)

p.s. готовый словарь русского языка для phpstorm можно скачать здесь.
просмотров: 1641