Автоматический синонимайзер. Его настоящее и будущее. Часть 2
Опубликованно: 04.06.2008 | Написал: Алексей | Комментариев: 0
В Части 1 я выявил две причины не читаемости текстов, повторюсь:
1. Неосознанность при замене слов. Пример: окончание – син. завершение. Хорошо если это «окончание матча», а если «окончание слова»?
2. Великий и могучий русский язык, со своими словоформами. Род, падеж, число, окончания, суффиксы, корни и т.д.
Где выход и какие перспективы? Самое вкусное я оставил на десерт.
п.2 решению поддается, при должном владении программированием, можно научить комп менять окончания у слов (word делает это «на хорошо»). В большинстве случаев будет работать корректно. Но, что делать с п.1?
Моя идея. Пришла мне в голову, ничего подобного не встречал, но не исключено что не я первый додумался до этого. Если она не нова, пишите в комментарии.
Расстановка баллов. Возьмем любое предложение.
«На днях в книжные магазины Бразилии поступила книга писателя Фернандо Мораиса «Маг».»
Возьмем слово «поступила». Синонимы: устроилась, зачислилась, определилась, попала, приткнулась. Теперь расставим балы следующим образом, по близости позиции слов к слову «поступила».
«На днях (0.125) в книжные(0.25) магазины(0.5) Бразилии(1) поступила книга (1) писателя(0.5) Фернандо(0.25) Мораиса(0.125) «Маг(0.06)».»
Частота встречаемости.
Зачем мы это делали? Представьте себе огромную таблицу, из слов русского языка, на определенную тему:
По горизонтали и вертикали идут слова. На пересечении слов мы проставляем баллы. Если слово «поступила» встречается рядом с: днях, книжные, магазины и т.д., то скорее всего оно подходит по контексту. За это мы ставим баллы. В этом и вся соль. Мы определяем связь слов.
При обращении к базе синонимов мы получаем их список. Потом каждое слово из списка проверяется по таблице встречаемости, со словами из предложения. Что мы имеем в результате, в идеале?
Устроилась 0
Зачислилась 1
Определилась 0
Попала 5.3 (может быть любое число)
Приткнулась 0
Подставляем слово «попала», и кричим «ура!».
Тут все дело упирается в подбор исходного материала, статейной базы. Надо научить комп, чтобы заполнить базу. Зато в будущем, можно использовать и пополнять ее.
Как вариант такой базы, XML запросы для поисковиков, у яндекса есть такая возможность. Можете посмотреть XML-игры. Они работают по схожему принципу. Вводите название предмета, а в результате получаете его свойство, например цвет. Опять же все основано на частоте встречаемости двух слов в контексте. Минус этого варианта в его «муссорности» и отсутствии единой тематики.
Старался объяснить, как можно доходчивее. Интересно услышать ваше мнение. Что вы скажете по данному методу? Стоит ли браться за реализацию?
Автор: Дробенков Алексей
1. Неосознанность при замене слов. Пример: окончание – син. завершение. Хорошо если это «окончание матча», а если «окончание слова»?
2. Великий и могучий русский язык, со своими словоформами. Род, падеж, число, окончания, суффиксы, корни и т.д.
Где выход и какие перспективы? Самое вкусное я оставил на десерт.
п.2 решению поддается, при должном владении программированием, можно научить комп менять окончания у слов (word делает это «на хорошо»). В большинстве случаев будет работать корректно. Но, что делать с п.1?
Моя идея. Пришла мне в голову, ничего подобного не встречал, но не исключено что не я первый додумался до этого. Если она не нова, пишите в комментарии.
Расстановка баллов. Возьмем любое предложение.
«На днях в книжные магазины Бразилии поступила книга писателя Фернандо Мораиса «Маг».»
Возьмем слово «поступила». Синонимы: устроилась, зачислилась, определилась, попала, приткнулась. Теперь расставим балы следующим образом, по близости позиции слов к слову «поступила».
«На днях (0.125) в книжные(0.25) магазины(0.5) Бразилии(1) поступила книга (1) писателя(0.5) Фернандо(0.25) Мораиса(0.125) «Маг(0.06)».»
Частота встречаемости.
Зачем мы это делали? Представьте себе огромную таблицу, из слов русского языка, на определенную тему:
По горизонтали и вертикали идут слова. На пересечении слов мы проставляем баллы. Если слово «поступила» встречается рядом с: днях, книжные, магазины и т.д., то скорее всего оно подходит по контексту. За это мы ставим баллы. В этом и вся соль. Мы определяем связь слов.
При обращении к базе синонимов мы получаем их список. Потом каждое слово из списка проверяется по таблице встречаемости, со словами из предложения. Что мы имеем в результате, в идеале?
Устроилась 0
Зачислилась 1
Определилась 0
Попала 5.3 (может быть любое число)
Приткнулась 0
Подставляем слово «попала», и кричим «ура!».
Тут все дело упирается в подбор исходного материала, статейной базы. Надо научить комп, чтобы заполнить базу. Зато в будущем, можно использовать и пополнять ее.
Как вариант такой базы, XML запросы для поисковиков, у яндекса есть такая возможность. Можете посмотреть XML-игры. Они работают по схожему принципу. Вводите название предмета, а в результате получаете его свойство, например цвет. Опять же все основано на частоте встречаемости двух слов в контексте. Минус этого варианта в его «муссорности» и отсутствии единой тематики.
Старался объяснить, как можно доходчивее. Интересно услышать ваше мнение. Что вы скажете по данному методу? Стоит ли браться за реализацию?
Автор: Дробенков Алексей
Оставить комментарий
- Обязательные поля обозначены *.
Дмитрий
12, 2009, 17:51:00
Seobucks
10, 2009, 21:26:03
Владимир
07, 2009, 02:06:50
mobile
27, 2009, 14:08:24
tanir23
13, 2009, 13:27:50
Сергей
05, 2008, 09:43:54
hz
29, 2008, 07:09:55
Вася
06, 2008, 14:57:55
Приколист
06, 2008, 14:54:57
План
06, 2008, 14:41:20
Синонимайзер
05, 2008, 19:12:07
Colonel Fizz
20, 2008, 11:33:37
Shadx
01, 2008, 19:40:15
Anshir
11, 2008, 10:02:59
Anshir
11, 2008, 09:55:08
Дробенков Алексей
05, 2008, 20:21:57
Евгений
05, 2008, 16:08:40
Дробенков Алексей
05, 2008, 15:39:48
Вирусное СЕО
05, 2008, 04:51:06
Toxic_Cat
05, 2008, 01:38:51
SeoGen
05, 2008, 00:27:02
Владимир
04, 2008, 17:49:43

08, 2009, 09:42:26