Генератор словоформ от ASBer-а

Страница: 1

Сообщений 1 страница 9 из 9

Поделиться12010-06-03 09:04:55

Автор: ASBer
Администратор
Зарегистрирован: 2010-02-01
Приглашений: 0
Сообщений: 858
Пол: Мужской
Провел на форуме:
21 день 1 час
Последний визит:
2025-10-22 14:33:34

Видимо скоро появится генератор для старого ТОМа.

Когда-то я уже начинал делать генератор по аналогии с рТАДСовым, но забросил и не жалею. Копия всегда получается хуже оригинала.

Сейчас функция генерации неожиданно возникла как побочный результат новых разработок. Грех было бы этим не воспользоваться.

Формат генерируемых словоформ отличается от принятых в ТОМе, поэтому одновременно с генератором будет выпущена новая версия ТОМа.

Поделиться22010-06-04 08:44:16

Автор: ASBer
Администратор
Зарегистрирован: 2010-02-01
Приглашений: 0
Сообщений: 858
Пол: Мужской
Провел на форуме:
21 день 1 час
Последний визит:
2025-10-22 14:33:34

выглядит так:

Поделиться32010-06-04 16:57:22

Автор: Alexandr
Активный участник
Зарегистрирован: 2010-05-20
Приглашений: 0
Сообщений: 402
Пол: Мужской
Провел на форуме:
8 дней 8 часов
Последний визит:
2021-04-03 20:21:59

А этот генератор составляет словоформы автоматически? Если да, то по словарику или используя сложное дерево правил? Может лучше тогда встроить его в сам движок и для большинства слов тогда не пришлось бы описывать все словоформы в проекте игры. Вместо строчки "крюч%; МрЕчНдСи; Ип; Ип=ок; Рп=ка; Дп=ку; Вп=ок; Тп=ком; Пп=ке;" можно было бы просто написать "крючок; МрЕчНдСи; Ип". Все остальные формы генератор достроил бы сам перед запуском. Это бы облегчило написание квестов и чтение исходного кода. А для специфических или придуманных слов составлять как раньше.

Поделиться42010-06-04 17:31:11

Автор: ASBer
Администратор
Зарегистрирован: 2010-02-01
Приглашений: 0
Сообщений: 858
Пол: Мужской
Провел на форуме:
21 день 1 час
Последний визит:
2025-10-22 14:33:34

Alexandr написал(а):

А этот генератор составляет словоформы автоматически?

Скорее полуавтоматически.
Выбрать подходящую парадигму нужно руками. Слов-исключений гораздо больше чем кажется, поэтому редактирование результата генерации тоже будет нередко.

Alexandr написал(а):

Может лучше тогда встроить его в сам движок

В движок нужно встраивать полный словарь языка. Все другие решения для русскоязычного парсера - баловство.

Поделиться52010-06-04 18:40:29

Автор: Alexandr
Активный участник
Зарегистрирован: 2010-05-20
Приглашений: 0
Сообщений: 402
Пол: Мужской
Провел на форуме:
8 дней 8 часов
Последний визит:
2021-04-03 20:21:59

ASBer написал(а):

В движок нужно встраивать полный словарь языка. Все другие решения для русскоязычного парсера - баловство.

Ну это вы слишком сильно сказали. Ведь http://samodum.ru/demo.aspx как-то разбирает фразу "глокая куздра штеко будланула бокра и кудрячит бокрёнка" и определяет, что "глокая" - это прилагаетльное женского рода, "будланула" - это глагол и т.д. Таких слов явно нет в словаре. Я понимаю, что это довольно сложно, но это не баловство! Вы, кстати, были на сайте АОТ ? Если поискать, там можно найти словарик, содержащий около 180 000 лемм со всеми словоформами и ещё много чего полезного.
Но это всё отдельная тема и не стоит сильно углубляться в неё, а то можно "утонуть". Пусть пока будет так, как есть, т.к. основная задача платформы ТОМ - разбор предложений ограниченной сложности, а не разбор любых слов русского языка.

Поделиться62010-06-05 11:27:52

Автор: ASBer
Администратор
Зарегистрирован: 2010-02-01
Приглашений: 0
Сообщений: 858
Пол: Мужской
Провел на форуме:
21 день 1 час
Последний визит:
2025-10-22 14:33:34

Alexandr написал(а):

Ведь http://samodum.ru/demo.aspx как-то разбирает фразу "глокая куздра штеко будланула бокра и кудрячит бокрёнка" и определяет, что "глокая" - это прилагаетльное женского рода, "будланула" - это глагол и т.д. Таких слов явно нет в словаре. Я понимаю, что это довольно сложно, но это не баловство!

Для незнакомых или несуществующих слов такие эвристики вполне оправданы.
Словарные же слова гораздо проще найти в словаре.

Alexandr написал(а):

Вы, кстати, были на сайте АОТ ? Если поискать, там можно найти словарик, содержащий около 180 000 лемм со всеми словоформами и ещё много чего полезного.

Был, и детально разбирался с их словарем. К сожалению не подходит. Пока за основу взял словарь Зализняка.

Alexandr написал(а):

Но это всё отдельная тема и не стоит сильно углубляться в неё, а то можно "утонуть". Пусть пока будет так, как есть, т.к. основная задача платформы ТОМ - разбор предложений ограниченной сложности, а не разбор любых слов русского языка.

Да, конечно полностью согласен, установка абсолютно верная.
Пока вожусь с инструментарием для словаря, посмотрим что получится.
Есть желание прикрутить к парсеру словарь на 2000-3000 распространенных слов.
Или хотя-бы 200-300 самых распространенных слов.

Поделиться72010-06-10 15:25:26

Автор: ASBer
Администратор
Зарегистрирован: 2010-02-01
Приглашений: 0
Сообщений: 858
Пол: Мужской
Провел на форуме:
21 день 1 час
Последний визит:
2025-10-22 14:33:34

Выложил альфу.
Правда толку от нее пока нет, т.к. ТОМ пока не понимает этот формат лексем.

Поделиться82010-06-10 18:48:25

Автор: Alexandr
Активный участник
Зарегистрирован: 2010-05-20
Приглашений: 0
Сообщений: 402
Пол: Мужской
Провел на форуме:
8 дней 8 часов
Последний визит:
2021-04-03 20:21:59

А можно небольшую инструкцию по использованию? Хотя-бы основные функции элементов программы.
Я на глаз не заметил особых отличий генерируемых лексем от старого формата.

Код:

муха = "мухъ%; ; ;
  ИпЕч=а; РпЕч=и; ДпЕч=е; ВпЕч=у; ТпЕч=ой; ПпЕч=е;
  ИпМч=и; РпМч=; ДпМч=ам; ВпМчОд=; ВпМчНд=и; ТпМч=ами; ПпМч=ах;"

застолье = "застолЬй%; ; ;
  ИпЕч=о; РпЕч=а; ДпЕч=у; ВпЕч=о; ТпЕч=ом; ПпЕч=е;
  ИпМч=а; РпМч=ей; ДпМч=ам; ВпМч=а; ТпМч=ами; ПпМч=ах;"

Ещё меня смущают буквы "ъ", "Ь". Или это и есть нововведения? Если так, то объясните их назначение.

И ещё маленькая заметка:
в таблице, в поле "Словоформы" не всегда корректно генерируются слова со словом "о". Например "о огне" лучше сделать "об огне". Это не обязательно, но если не сложно, то поправьте. А можно оставить это на потом, т.к. это не суть важно.

Поделиться92010-06-11 09:09:25

Автор: ASBer
Администратор
Зарегистрирован: 2010-02-01
Приглашений: 0
Сообщений: 858
Пол: Мужской
Провел на форуме:
21 день 1 час
Последний визит:
2025-10-22 14:33:34

Alexandr написал(а):

А можно небольшую инструкцию по использованию? Хотя-бы основные функции элементов программы.

Ну там вроде всё интуитивно... раз получился код лексемы, значит вы сделали всё правильно.
А вообще программка задумывалась как иструмент исследования языка. Вводим любое слово и смотрим что получается.

Alexandr написал(а):

Я на глаз не заметил особых отличий генерируемых лексем от старого формата.

Различие в способе объединения основы с окончанием. ТОМ просто подставляет окончания, а тут еще нужна дополнительная обработка стыковки.

Alexandr написал(а):

Ещё меня смущают буквы "ъ", "Ь". Или это и есть нововведения? Если так, то объясните их назначение.

Да, это оно и есть. Применена внутренняя "транскрипция" слова с целью сокращения количества применяемых парадигм. Иначе различных вариантов окончаний будет гораздо больше.
Чтобы получить слово в "нормальной" записи нужно выполнить обратное преобразование.

Alexandr написал(а):

И ещё маленькая заметка:
в таблице, в поле "Словоформы" не всегда корректно генерируются слова со словом "о". Например "о огне" лучше сделать "об огне".

Предлог "о" применен для наглядности примеров. На генерацию лексем не влияет.
Выбор предлога "о"/"об"/"обо" зависит от следующего слова и здесь такая функциональность явно излишня...

Страница: 1

ТОМ2 - платформа для парсерных игр

Меню навигации

Пользовательские ссылки

Информация о пользователе

Генератор словоформ от ASBer-а

Сообщений 1 страница 9 из 9

Поделиться12010-06-03 09:04:55

Поделиться22010-06-04 08:44:16

Поделиться32010-06-04 16:57:22

Поделиться42010-06-04 17:31:11

Поделиться52010-06-04 18:40:29

Поделиться62010-06-05 11:27:52

Поделиться72010-06-10 15:25:26

Поделиться82010-06-10 18:48:25

Поделиться92010-06-11 09:09:25