|
|
| Автор: Д. С. Бухаров |
| Издательство: Синергия |
| Год: 2016 |
| Cтраниц: 1 |
| Формат: PDF |
| Размер: 0 |
| ISBN: 978-5-04-018884-0 |
| Качество: excellent |
| Язык: |
|
 |
|
Описание:
|
В статье описан подход к формированию поискового множества, используемого при определении эквивалентов текста. Задача такого вида возникает при поиске дубликатов текста, определении авторства и возможного плагиата, организации библиотечного поиска, а также при создании поисковых систем Интернета. В подходе, представленном в статье, учитывается ряд особенностей: частотность слов, пунктуация, морфемная структура слов, регистр букв и артефакты текста (специфические цифро-буквенные сочетания). Разработанная программа протестирована на наборе данных, в число которых включены как оригиналы текстов, так и их специальным образом модифицированные варианты. В результате проведенного эксперимента определены слабые стороны подхода. Приведены варианты по улучшению разработанного программного средства и схема взаимодействия модулей разработанной программы после модификации.
|
Пресс - релиз
string(4) "true"
int(290)
|