Анотація

У роботі дається порівняльне експериментальне дослідження найбільш популярних сучасних методів виявлення нечітких дублікатів для текстових документів. Наводиться кількісна оцінка показників повноти, точності і F-міри. Набір текстів, використаний в експериментах — це веб-колекція РОМІП. Запропоновано два нових алгоритму, що мають високі показники якості.

1 Вступ

Проблема виявлення нечітких дублікатів є однією з найбільш важливих і важких задач аналізу веб-даних і пошуку інформації в інтернеті. Актуальність цієї проблеми визначається різноманітністю додатків, у...

Коротко:

У роботі дається порівняльне експериментальне дослідження найбільш популярних сучасних методів виявлення нечітких дублікатів для текстових документів. Наводиться кількісна оцінка показників повноти, точності і F-міри. Набір текстів, використаний в експериментах — це веб-колекція РОМІП. Запропоновано два нових алгоритму, що мають високі показники якості.

Це продовження першої частини.

4 Опис методів і алгоритмів

Для практичного дослідження були обрані методи і алгоритми визначення нечітких дублікатів, перераховані в...

© 2009 - 2018, Розробка - соціальна ІТ спільнота.
Контакти: info@rozrobka.com
Правила користування