我想比較兩個長度為43的向量;它們的值為0(不存在)和1(存在)。我將$ M_ {1,1} $稱為同時存在1的情況,將$ M_ {1,0} $和$ M_ {0,1} $稱為僅存在1的情況,而將其他值為0。
data3 $ IDS 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0data3 $ CESD 1 1 1 0 1 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1
我想了解這兩個向量之間的關係。閱讀有關該主題的 Jaccard索引似乎是一條路。在此特定情況下,Jaccard索引為(請注意,我使用的是維基百科第二個數字旁邊給出的公式):$$ \ frac {M_ {1,1}} {(M_ {1,0} + M_ {0,1}-M_ {1,1})} $$就我而言:$ 8 /(23 + 12-8)= 0.2962963 $
使用:
庫('clusteval')群集相似性(data3 $ IDS,data3 $ CESD,相似性=“ jaccard”,method =“ independence”)
返回:
0.553429
我不太清楚為什麼以及我犯的錯誤在哪裡。
我不了解的另一件事是在高度重疊的情況下。想像$ M_ {1,1} = 30 $,單元格$ M_ {1,0} $和$ M_ {0,1} $中每個值只有$ 2 $。這將導致Jaccard索引為$ 30 /(2 + 2-30)= -1.153846 $。
但是J索引僅在0到1之間定義。我的誤解在哪裡?