La distancia entre los vectores de características (vectores de palabras, vectores de temas, vectores de contexto de documentos, etc.) impulsa el rendimiento de la canalización de PNL o de cualquier canalización de aprendizaje automático.
Distancias por pares disponibles en sklearn:
'cityblock', 'cosine', 'euclidean', 'l1', 'l2', 'manhattan', 'braycurtis',
'canberra', 'chebyshev', 'correlation', 'dice', 'hamming', 'jaccard',
'kulsinski', 'mahalanobis', 'matching', 'minkowski', 'rogerstanimoto',
'russellrao', 'seuclidean', 'sokalmichener', 'sokalsneath', 'sqeuclidean',
'yule'