knn是鄰近算法,或者說K最鄰近分類算法,全稱為K-NearestNeighbor,是數據挖掘分類技術中最簡單的方法之壹。所謂K最近鄰,是K個最近的鄰居的意思,說的是每個樣本都可以用最接近的K個鄰近值來代表。近鄰算法是將數據集合中每壹個記錄進行分類的方法。
knn算法的核心思想:
如果壹個樣本在特征空間中的K個最相鄰的樣本中的大多數屬於某壹個類別,則該樣本也屬於這個類別,並具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的壹個或者幾個樣本的類別來決定待分樣本所屬的類別。KNN方法在類別決策時,只與極少量的相鄰樣本有關。由於KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對於類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。