我有一個數據集X,它有10個維度,其中4個是離散值。實際上,這4個離散變量是有序的,即值越高意味著語義越高/更好。
2 of這些離散變量在某種意義上是分類的,對於每個這些變量,距離例如從11到12的距離與從5到6的距離並不相同。雖然較高的變量值實際上意味著較高,但比例不一定是線性的(實際上,它並沒有真正定義)。
我的問題是:
- 將通用的聚類算法(例如K-Means然後是高斯混合(GMM))應用於此數據集是否是個好主意?
是否不連續
- 我是否應該刪除離散變量並僅關注連續變量?
- 我是否應該更好地離散化連續數據並將離散數據使用聚類算法?