ТОМ2 - платформа для парсерных игр

Объявление

Платформа ТОМ предназначена для создания текстовых игр на русском языке и имеет развитый парсер, позволяющий взаимодействовать с играми с помощью команд на близком к естественному языке. В данный момент активно разрабатывается версия ТОМ 2.
Последнюю версию платформы можно скачать здесь.

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » ТОМ2 - платформа для парсерных игр » Лингвистика » Сколько слов в русском языке?


Сколько слов в русском языке?

Сообщений 1 страница 2 из 2

1

В русском языке около 500 тыс.слов. Но наиболее употребительных слов всего от 2000 до 2500. Даже у Пушкина, великого знатока и мастера русского языка, в литературной речи были не все полмиллиона слов, а всего 21197. Ученые обнаружили, что 100 наиболее часто встречающихся слов составляют 20% устной и письменной речи. 1500-2000 слов - это уже 85%. У выпускника средней школы словарный запас составляет от 1500 до 4000 слов. У человека с высшим образованием - до 8000 слов.

Цитата взята из инета, до первоисточника не докопался.

T.e. 65 тысяч слов, которые можно закодировать 2мя байтами, для игрового словаря выше крыши. Еще и место для служебных флагов останется.

Хотя смотря как считали...

P.S. Тест на определение словарного запаса

2

ASBer написал(а):

T.e. 65 тысяч слов, которые можно закодировать 2мя байтами

Может 2мя МЕГАбайтами?
Ну в GenLex.plg.dll кодировалось 174785 слов в 1,83 Мб со всеми служебными флагами. Но там уже шло выделение сигнатур словоизменения и примитивное сжатие по Хаффману. Да, помню как я боролся за каждый бит. Ведь каждый бит со слова давал около 21 Кб сжатия. ^^
В общем, сжать не проблема. Проблема в нахождении этих 65 тысяч нужных слов.

Кстати вот (http://rinza.ifolder.ru/23806764) словарь 5000 самых употребляемых слов, если кому интересно. Правда не помню от куда брал и где именно они "самые употребляемые" :)


Вы здесь » ТОМ2 - платформа для парсерных игр » Лингвистика » Сколько слов в русском языке?