採用分類矢量並將其轉換為使用一鍵編碼的二進製表示形式的運算符的名稱是什麼? 我在想,因為我正在寫科學論文,因此需要一個適當的名稱。
採用分類矢量並將其轉換為使用一鍵編碼的二進製表示形式的運算符的名稱是什麼? 我在想,因為我正在寫科學論文,因此需要一個適當的名稱。
統計學家稱一次性編碼為虛擬編碼。正如其他人所建議的那樣(包括註釋中的 Scortchi ),這不是確切的同義詞,但這是通常用於0-1編碼的分類變量的術語。
該術語來自電子工程。試想一下誰會稱1為“熱”?只有那些用電工作的人,“熱”或“帶電”的意思是電線上有電勢。“一個熱”是指電路設計,其中一根電線上的離散電信號電平將被解碼為一組電線上的熱/冷。我想有些具有EE背景的機器學習人員發現了這種類比引人注目。
在計量經濟學和統計學中,您可能會遇到 dummy
或 indicator
變量,它們非常相似,因為它們用於表示具有不同指標的不同類別。雖然有細微的差別。例如,您為K個類別製作了K-1個虛擬變量,因為基本類別對應於所有設置為0的虛擬變量。相反,我認為在一種熱編碼中,您有K條導線,其中基本類別將具有自己的導線(變量)。
我接受過統計訓練,最近聽說過機器學習/計算機科學中的“一次性編碼”。通常,我通常將一次性引用的矩陣稱為設計矩陣/數據矩陣/設計框架。
模式識別和機器學習使用了$ 1 $ -of- $ K $方案。
這是這本書的引文,
二進制變量可用於描述可以採用兩個可能值之一的數量。但是,我們經常會遇到離散變量,它們可能具有$ K $可能的互斥狀態之一。儘管存在各種替代方法來表達此類變量,但我們很快就會看到,一種特別方便的表示形式是$ 1 $ -of-KK $方案,其中變量用$ K $維矢量$ \ textbf {x} $,其中元素$ x_k $之一等於$ 1 $,其餘所有元素等於$ 0 $。因此,例如,如果我們有一個可以包含$ K = 6 $個狀態的變量,並且對該變量的特定觀察恰好對應於$ x_3 = 1 $的狀態,則$ \ textbf {x} $ 將由
表示$ \ textbf {x} =(0,0,1,0,0,0)^ {T} $
在物理科學和工程學中,它稱為(廣義的)克羅內克三角洲。
最簡單的形式是將克朗納克三角洲定義為$$ \ begin {align *} {\ delta} _ {i,j} {\ equiv} \ begin {cases} 1 & \ text {if} & i = j \\ 0 & \ text {else} \ end {cases} \ end {align *}, $$$$$$$$$$$$$$$$$$$ \ begin {align *} {\ delta} _ {\ left [\ text {condition} \ right]} {\ equiv} \ begin {cases} 1 & \ text {if} & \ left [\ text {condition} \ right] \\ 0 & \ text {else} \ end {cases} \ end {align *}。 $$
因此,“ $ {\ delta} _ {i {\ in} \ text {category}} $”將被讀為$$ \ begin {align *} {\ delta} _ {i {\ in} \ text {category}} {\ equiv} \ begin {cases} 1 & \ text {if} & i {\ in} \ text {category} \\ 0 & \ text {else} \ end {cases} \ end {align *}, $$ 如果從上下文可以明顯看出類別,那麼大多數作者會傾向於將其截斷為“ $ {\ delta} _ {i} $”。
Kronecker增量在 Sigma / Pi / 愛因斯坦 /等中非常有用。符號,因為它允許有條件地指定術語。
只需將其與常見的編程結構相關聯,即Kronecker delta的 condition?1:0
,其中?:
是條件運算符。
作為切題,我鼓勵作者放棄老式的$ {\ delta} _ {i,j} $,而轉而使用廣義等效項$ {\ delta} _ {i = j} $ 。老式表示法沒有任何優勢,而廣義表示法則更加明確和可擴展。