Анотація

У роботі дається порівняльне експериментальне дослідження найбільш популярних сучасних методів виявлення нечітких дублікатів для текстових документів. Наводиться кількісна оцінка показників повноти, точності і F-міри. Набір текстів, використаний в експериментах — це веб-колекція РОМІП. Запропоновано два нових алгоритму, що мають високі показники якості.

1 Вступ

Проблема виявлення нечітких дублікатів є однією з найбільш важливих і важких задач аналізу веб-даних і пошуку інформації в інтернеті. Актуальність цієї проблеми визначається різноманітністю додатків, у...

Коротко:

У роботі дається порівняльне експериментальне дослідження найбільш популярних сучасних методів виявлення нечітких дублікатів для текстових документів. Наводиться кількісна оцінка показників повноти, точності і F-міри. Набір текстів, використаний в експериментах — це веб-колекція РОМІП. Запропоновано два нових алгоритму, що мають високі показники якості.

Це продовження першої частини.

4 Опис методів і алгоритмів

Для практичного дослідження були обрані методи і алгоритми визначення нечітких дублікатів, перераховані в...

Відома компанія Gartner, що спеціалізується на аналітиці та прогнозуванні поділилась своїм баченням майбутнього сучасних передових технологій.

gartner

Даний аналіз є дуже цікавим для розуміння які технології будуть передовими через 2-3 роки. Поки ці технології доходять до масового вжитку можна почати розробляти продукти, які вийдуть на ринок якраз коли цей ринок буде готовий.

© 2009 - 2020, Розробка - соціальна ІТ спільнота.
Контакти: info@rozrobka.com
Правила користування