Управление качеством данных на основе алгоритмов нечеткого поиска

Статья «Управление качеством данных на основе алгоритмов нечеткого поиска».

Для проверки дублирования слабоструктурированной информации нам помогут алгоритмы нечеткого поиска, позволяющие находить данные на основании неполного совпадения и оценки их релевантности — количественного критерия схожести.

По простому: есть справочник организаций, а в нем пользователи занесли одну и ту же организацию несколько раз, например, «ДиджиталДизайн», «Диджитал дизайн», «Диджитал Дезайн/Digital desing». В статье говорится о том, как это выявить.