Обнаружение выбросов: используйте четыре набора данных для сравнения реализации алгоритма kNN и LOF на Python.
Обнаружение выбросов относится к идентификации точек данных в наборе данных, которые значительно отличаются от большинства данных. Выбросы могут указывать на то, что истинная природа этих точек сильно отличается от других точек данных или что в некоторых необычных случаях они представляют собой шум. Обнаружение выбросов имеет широкий спектр применений в интеллектуальном анализе данных, обнаружении аномалий, борьбе с мошенничеством с кредитными картами и других областях.
В этой статье мы сравним два часто используемых алгоритма обнаружения выбросов: алгоритм kNN на основе ближайших соседей и алгоритм LOF (фактор локального выброса) на основе локальной плотности, а также воспользуемся четырьмя наборами данных для оценки их эффектов.
Во-первых, нам нужно установить некоторые необходимые библиотеки:
pip install scikit-learn numpy matplotlib
Затем мы импортируем необходимые библиотеки и устанавливаем путь к набору данных:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor as LOF
from