題:
何時使用哪個“平均值”?
PhD
2012-02-20 01:43:26 UTC
view on stackexchange narkive permalink

因此,我們有算術平均值(AM),幾何平均值(GM)和諧波平均值(HM)。他們的數學公式以及相關的定型示例(例如,諧波均值及其在“速度”相關問題中的應用)也是眾所周知的。

但是,一直令我著迷的一個問題是“確定在給定上下文中最適合使用哪個均值?”必須至少有一些經驗法則可以幫助理解其適用性,但是我遇到的最常見的答案是:“這取決於” (但取決於什麼? )。

這似乎是一個相當瑣碎的問題,但即使是高中課本也無法解釋這個問題-它們僅提供數學定義!數學上的一個簡單測試就是“您的母親/孩子會理解嗎?”

這也許簡化了,但是我一直使用範圍和觀察值。如果範圍相同= AM(比較分數0-100,則為0-100),如果範圍不同但觀察值相同= GM(比較分數1-5,則為0-10),如果範圍相同但觀察值是不同的= HM(汽車在不同觀測點處的速度,兩個梯子的高度,其他“比率”)。
>“取決於”(但取決於什麼?)取決於數據處理算法。
這不僅僅是使用哪種方法的選擇。您也可以選擇使用哪種匯總統計信息來描述感興趣的總體或過程。一個人不應該只需要一個數字來描述可能非常複雜的事物。
五 答案:
cardinal
2012-02-20 08:14:09 UTC
view on stackexchange narkive permalink

此答案的數學傾向可能比您想要的要大。

要認識的重要一點是,全部這些均值只是偽裝的算術均值 。諧波)是“正確”的意思是在當前問題中找到“加法結構”。

換句話說,假設我們得到了一些抽象量$ x_1,x_2,\ ldots,x_n $ ,我將其稱為“度量”,出於一致性考慮,以下在一定程度上濫用了該術語。這三種方法中的每一種都可以通過以下方式獲得:(1)將每個$ x_i $轉換為某個$ y_i $,(2)取 arithmetic 均值,然後(3)轉換回原始的測量範圍。

算術平均值:顯然,我們使用“身份”轉換:$ y_i = x_i $。因此,步驟(1)和(3)很簡單(什麼都不做),並且$ \ bar x _ {\ mathrm {AM}} = \ bar y $。

幾何平均值:此處的加法結構位於原始觀測值的對數上。因此,我們取$ y_i = \ log x_i $,然後在步驟(3)中獲得GM,我們通過$ \ log $的反函數進行轉換,即$ \ bar x _ {\ mathrm {GM}} = \ exp(\ bar {y})$。

調和平均值:這裡的可加結構位於我們觀察值的倒數上。因此,$ y_i = 1 / x_i $,則$ \ bar x _ {\ mathrm {HM}} = 1 / \ bar {y} $。

在物理問題中,這些問題通常是通過以下過程產生的:相對於測量值$ x_1,\ ldots,x_n $和其他一些數量,例如$ z_1,\ ldots,z_n $,我們有一些數量$ w $保持不變。現在,我們玩以下游戲:保持$ w $和$ z_1 + \ cdots + z_n $不變,並嘗試找到一些$ \ bar x $,以便如果我們替換單個觀察值$ x_i的 each $ by $ \ bar x $,那麼“總計”關係仍然保持

距離-速度-時間示例似乎很受歡迎,因此讓我們使用它。

恆定距離,不同時間

考慮固定距離行駛了$ d $。現在假設我們以速度$ v_1,\ ldots,v_n $行駛此距離$ n $次,乘以時間$ t_1,\ ldots,t_n $。現在我們玩我們的遊戲。假設我們要用某個固定速度$ \ bar v $代替我們的各個速度,以使總時間保持恆定。注意,我們有$$ d-v_i t_i = 0 \ >,$$,因此$ \ sum_i(d-v_i t_i)= 0 $。當我們在遊戲中將每個$ v_i $替換為$ \ bar v $時,我們希望保持這種 total 關係(總時間和總行駛距離)。因此,$$ nd-\ bar v \ sum_i t_i = 0 \ >,$$,由於每個$ t_i = d / v_i $,我們得到$$ \ bar v = \ frac {n} {\ frac {1} {v_1} + \ cdots + \ frac {1} {v_n}} = \ bar v _ {\ mathrm {HM}} \ >。$$

請注意,此處的“附加結構”是針對各個時間,而我們的測量值與它們成反比,因此適用諧波均值。

變距,恆定時間

現在,讓我們更改情況。假設對於$ n $個實例,我們在距離$ d_1,\ ldots,d_n $上以速度$ v_1,\ ldots,v_n $行駛固定時間$ t $。現在,我們希望保留總距離。我們有$$ d_i-v_i t = 0 \ >,$$並且如果$ \ sum_i(d_i-v_i t)= 0 $,整個系統是守恆的。再次玩遊戲,我們尋求一個$ \ bar v $,使得$$ \ sum_i(d_i-\ bar vt)= 0 \ >,$$,但是由於$ d_i = v_i t $,我們得到了$$ \ bar v = \ frac {1} {n} \ sum_i v_i = \ bar v _ {\ mathrm {AM}} \ >。$$

在這裡,我們要維護的累加結構與測量值成比例

等體積立方體

假設我們構造了一個具有給定體積$ V的$ n $維盒$和我們的測量值是盒子的邊長。然後$$ V = x_1 \ cdot x_2 \ cdots x_n \ >,$$ 並假設我們要構造一個具有相同體積的$ n $維(超)多維數據集。也就是說,我們要用共同的邊長$ \ bar x $替換我們的各個邊長$ x_i $。然後$$ V = \ bar x \ cdot \ bar x \ cdots \ bar x = \ bar x ^ n \ >。$$

這很容易表明我們應該採用$ \ bar x =(x_i \ cdots x_n)^ {1 / n} = \ bar x _ {\ mathrm {GM}} $。

請注意,加法結構位於對數中,即$ \ log V = \ sum_i \ log x_i $,我們正在嘗試保留左側數量。

從舊的新方法

作為練習,請考慮一下“ “自然”的意思是在第一個示例中讓距離和時間都變化的情況。也就是說,我們有距離$ d_i $,速度$ v_i $和乘以$ t_i $。我們要保存總的行駛距離和時間,並找到一個恆定的$ \ bar v $來實現這一目標。

鍛煉:在這種情況下,“自然”是什麼意思?

+1這是一個很好的答案。但是,我認為這在一個重要的方面是不完整的:在許多情況下,正確的使用方式取決於*我們正在嘗試回答的問題*,而不是取決於數據中的任何數學結構。在環境風險評估中就是一個很好的例子:監管機構希望隨著時間的推移來估算人群的污染物暴露總量。即使環境濃度數據通常具有乘積結構,這也需要適當加權的算術平均值。幾何平均值將是錯誤的估計值或估計值。
@whuber:(+1)這是一個很好的評論。在構造答案的過程中,我採取了絕對非統計性的分叉方式,因此很高興您提到這一點。這個主題值得一個完整的答案(*提示*)。
@whuber:它還提出了一個事實(可能是無意的),即統計分析有時可能會受到領域專家(或可能是非專家)的監督,他們想估算對其領域有意義的東西,但幾乎完全不自然統計上。我過去遇到過的問題是,他們有時還希望指示統計估計的執行方式! :)
@whuber:如果您還可以通過詳細說明將這種觀點添加到答案中,將不勝感激。老實說,您的解釋是我在Stats.SE上看到的最好的解釋之一!
來自@whuber的通常很棒的評論。有時(也許經常!)正確的使用方法是“無” *;相反,這個問題通常需要擴大到“我應該使用哪種集中趨勢度量?”。
感謝您的**大答复**。您可以推荐一些相關文獻嗎?
@Anony-Mousse:感謝您的友好評論!我不確定要推薦哪些文獻(儘管我會考慮)。從某種意義上說,這個答案的“靈感”(如果可以這樣稱呼)在物理上的考慮要比統計上的更多。
這是非常有啟發性的答案。
@cardinal-很好的答案!對於本練習,最直接的答案是sum(d)/ sum(t),但這是從難以理解的編碼(不是編程)的角度出發的。如果可以的話,它並不純淨。它不是立即可識別為平均值,而是每個術語用(ti)加權的算術平均值。為什麼?我可以得到提示嗎?
Peter Flom
2012-02-20 04:25:44 UTC
view on stackexchange narkive permalink

擴展@Brandon的出色評論(我認為應該提倡回答):

當您對乘法差異感興趣時,應使用幾何平均值。布蘭登指出,範圍不同時應使用幾何平均值。這通常是正確的。原因是我們要均衡範圍。例如,假設大學申請人的SAT分數(0到800),HS的平均成績(0到4)和課外活動(1到10)得到了評分。如果一所大學希望對這些值求平均並均衡範圍(即每種質量相對於範圍的權重增加),那麼幾何均值將是可行的方法。

但這不是當我們擁有不同範圍的音階時,始終為true。如果我們比較不同國家(包括窮國和富國)的收入,我們可能不想要幾何平均值,而想要算術平均值(或更可能是中位數或修整後的平均值)。

我見過的諧波均值唯一用途是比較速率。例如:如果您以40英里/小時的速度從紐約開車到波士頓,然後以60英里/小時的速度返回,那麼您的總體平均值不是50英里/小時的算術平均值,而是諧波平均值。

AM = $(40 + 60)/ 2 = 50 $ HM = $ 2 /(1/40 + 1/60)= 48 $

檢查是否適合這個簡單的例子,想像一下從紐約市到波士頓120英里。然後,那裡的驅動器需要3個小時,開車回家需要2個小時,總時間為5個小時,距離為240英里。 $ 240/5 = 48 $

為什麼您的SAT / GPA /課外示例使用幾何平均值而不是加權或比例算術平均值?為什麼SAT或GPA為零意味著其他兩個值變得無關緊要(正如幾何平均值所暗示的那樣)?如果課外活動傾向於聚集在比理論範圍窄得多的範圍內,那該怎麼辦?百分位數(或其他調整後的值)的算術平均值似乎比原始值的幾何平均值更有意義。
@ruakh有趣。在這種情況下,0問題並不重要,因為SAT和GPA不能真正為0(SAT = 0幾乎是不可能的,而GPA為0則無法畢業)。我認為百分位數的算術平均值將接近其結論中的幾何平均值(即使不是實際數)。
Dimitriy V. Masterov
2012-02-21 04:29:23 UTC
view on stackexchange narkive permalink

我將其簡化為3-4條經驗法則,並提供勾股方法的更多示例。

這3種方法之間的關係是 HM < GM < AM對於具有某些變化的非負數據。當且僅當樣本數據完全沒有變化時,它們才相等。

對於水平數據,請使用AM。價格是一個很好的例子。 要使用比率,請使用GM。投資回報率,相對價格和聯合國的人類發展指數都是例子。 HM適用於費率。以下是 David Giles提供的非汽車示例:

例如,請考慮“每週工作的小時數”(比率)。假設我們有四個人(樣本觀察值),每個人總共工作2000小時。但是,他們每週工作的小時數不同,如下所示:

 人員總小時數每週每週工作時數1 2,000 40 502 2,000 45 44.44443 2,000 35 57.1428574 2,000 50 40總計:8,000 191.587297  

第三列中的值的算術平均值為AM =每週42.5小時。但是,請注意該值的含義。將樣本成員的工作總週數(8,000)除以該平均值得出的數值為188.2353,這是所有四個人工作的總週數。

現在看上表的最後一列。實際上,樣本成員工作的總週數的正確值為191.5873週。如果我們在表的第三列中計算每周小時數的諧波均值,則HM = 41.75642小時(< AM), 將此數字除以8,000小時,得出的總工作週數的正確結果為191.5873。在這種情況下,諧波均值可以為樣本平均值提供適當的度量。

David還討論了這3種均值的加權形式,這些均值出現在用於衡量通貨膨脹的價格指數中。

p>

我經常很難弄清是比率還是比率。投資收益通常在計算均值時視為比率,但由於通常以“每單位時間的百分比”表示,因此它們也是一種比率。我認為有用的區別是比率通常是無單位的,因此回報率就是比率,因為當前價值超過投資的$具有美元符號可以抵消。匯率的分子和分母具有不同的單位。

因此,如果您要總結北歐國家的巨無霸指數,則可以使用同等加權的HM,因為是一個比率。按國家/地區劃分,HM會告訴您在必須擁有相同數量的每種貨幣的約束下,需要支付多少貨幣才能獲得BM。

遲了幾年,但是您是否曾經找到過以下問題的答案:“如果您想總結北歐國家的巨無霸指數,您會使用通用汽車嗎?”?
@StatsScared不,但這將是一個很好的問題!
boscovich
2012-02-20 14:52:13 UTC
view on stackexchange narkive permalink

您的問題的一個可能答案(“我如何確定哪種均值在給定背景下最合適?”)是意大利數學家 Oscar Chisini給出的均值定義。 。

此處是一篇論文,包含更詳細的說明和一些示例(平均行進速度等)。

如果您可以在此處添加幾行有關Chisini定義的信息,以防該鏈接失效,則可能是理想的選擇,和/或幫助讀者知道他們是否想單擊該鏈接以進一步追求這些想法。
確實,與本文的鏈接已失效。Wolfram鏈接沒有提供任何有關Chisini定義如何用於確定在給定上下文中使用哪種含義的見解;在我看來,這只是數學上的概括,而不是使用的處方。
通過使用DOI,您可以看到論文已移至tandfonline.com。引用:R Graziani,P Veronese(2009)。如何計算均值?Chisini方法及其應用。美國統計師63(1),第33-36頁。http://www.tandfonline.com/doi/abs/10.1198/tast.2009.0006
Ira Nirenberg
2016-06-21 03:45:47 UTC
view on stackexchange narkive permalink

我認為回答這個問題的簡單方法是:

  1. 如果數學結構為xy = k(變量之間的反比關係)並且您正在尋找平均值,則您需要使用諧波平均值-等於加權算術平均值-考慮
  2. ol>

    諧波平均值= 2ab /(a + b)= a(b / a + b)+ b(a /(a + b)

    例如:由於您投資的資金量(A)保持固定,但每股價格(P)和份數(N)有所不同(A = PN)。實際上,如果您將算術平均值視為一個均等地位於兩個數字之間的數字,則諧波均值也是一個均等地位於兩個數之間的數字,但是(這很好)“中心”是百分比(比率)相等的位置,即:(x-a)/ a =(b -x)/ b,其中x是諧波平均值。

    1. 如果數學結構是直接變化y = kx,則使用算術平均值,即諧波平均值減少到這種情況。
    2. ol>
我認為您需要檢查諧波平均方程式中的方括號匹配-請注意,您可以在乳膠標記中使用美元符號將其括起來,例如,$ x $`產生$ x $。對於分數,請注意,\ frac {a} {b}`產生$ \ frac {a} {b} $。有關更多信息,請參見我們的[編輯幫助](http://stats.stackexchange.com/editing-help)。
假設您要合計幾種不同模型的概率。在那種情況下,使用幾何或調和均值是否有意義?


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...