何時使用哪個“平均值”？

題:

何時使用哪個“平均值”？

PhD

2012-02-20 01:43:26 UTC

view on stackexchange narkive permalink

因此，我們有算術平均值（AM），幾何平均值（GM）和諧波平均值（HM）。他們的數學公式以及相關的定型示例（例如，諧波均值及其在“速度”相關問題中的應用）也是眾所周知的。

但是，一直令我著迷的一個問題是“確定在給定上下文中最適合使用哪個均值？”必須至少有一些經驗法則可以幫助理解其適用性，但是我遇到的最常見的答案是：“這取決於” （但取決於什麼？）。

這似乎是一個相當瑣碎的問題，但即使是高中課本也無法解釋這個問題-它們僅提供數學定義！數學上的一個簡單測試就是“您的母親/孩子會理解嗎？”

這也許簡化了，但是我一直使用範圍和觀察值。如果範圍相同= AM（比較分數0-100，則為0-100），如果範圍不同但觀察值相同= GM（比較分數1-5，則為0-10），如果範圍相同但觀察值是不同的= HM（汽車在不同觀測點處的速度，兩個梯子的高度，其他“比率”）。

>“取決於”（但取決於什麼？）取決於數據處理算法。

這不僅僅是使用哪種方法的選擇。您也可以選擇使用哪種匯總統計信息來描述感興趣的總體或過程。一個人不應該只需要一個數字來描述可能非常複雜的事物。

五答案:

cardinal

2012-02-20 08:14:09 UTC

view on stackexchange narkive permalink

此答案的數學傾向可能比您想要的要大。

要認識的重要一點是，全部這些均值只是偽裝的算術均值 。諧波）是“正確”的意思是在當前問題中找到“加法結構”。

換句話說，假設我們得到了一些抽象量$ x_1，x_2，\ ldots，x_n $ ，我將其稱為“度量”，出於一致性考慮，以下在一定程度上濫用了該術語。這三種方法中的每一種都可以通過以下方式獲得：（1）將每個$ x_i $轉換為某個$ y_i $，（2）取 arithmetic 均值，然後（3）轉換回原始的測量範圍。

算術平均值：顯然，我們使用“身份”轉換：$ y_i = x_i $。因此，步驟（1）和（3）很簡單（什麼都不做），並且$ \ bar x _ {\ mathrm {AM}} = \ bar y $。

幾何平均值：此處的加法結構位於原始觀測值的對數上。因此，我們取$ y_i = \ log x_i $，然後在步驟（3）中獲得GM，我們通過$ \ log $的反函數進行轉換，即$ \ bar x _ {\ mathrm {GM}} = \ exp（\ bar {y}）$。

調和平均值：這裡的可加結構位於我們觀察值的倒數上。因此，$ y_i = 1 / x_i $，則$ \ bar x _ {\ mathrm {HM}} = 1 / \ bar {y} $。

在物理問題中，這些問題通常是通過以下過程產生的：相對於測量值$ x_1，\ ldots，x_n $和其他一些數量，例如$ z_1，\ ldots，z_n $，我們有一些數量$ w $保持不變。現在，我們玩以下游戲：保持$ w $和$ z_1 + \ cdots + z_n $不變，並嘗試找到一些$ \ bar x $，以便如果我們替換單個觀察值$ x_i的 each $ by $ \ bar x $，那麼“總計”關係仍然保持。

距離-速度-時間示例似乎很受歡迎，因此讓我們使用它。

恆定距離，不同時間

考慮固定距離行駛了$ d $。現在假設我們以速度$ v_1，\ ldots，v_n $行駛此距離$ n $次，乘以時間$ t_1，\ ldots，t_n $。現在我們玩我們的遊戲。假設我們要用某個固定速度$ \ bar v $代替我們的各個速度，以使總時間保持恆定。注意，我們有$$ d-v_i t_i = 0 \ >，$$，因此$ \ sum_i（d-v_i t_i）= 0 $。當我們在遊戲中將每個$ v_i $替換為$ \ bar v $時，我們希望保持這種 total 關係（總時間和總行駛距離）。因此，$$ nd-\ bar v \ sum_i t_i = 0 \ >，$$，由於每個$ t_i = d / v_i $，我們得到$$ \ bar v = \ frac {n} {\ frac {1} {v_1} + \ cdots + \ frac {1} {v_n}} = \ bar v _ {\ mathrm {HM}} \ >。$$

請注意，此處的“附加結構”是針對各個時間，而我們的測量值與它們成反比，因此適用諧波均值。

變距，恆定時間

現在，讓我們更改情況。假設對於$ n $個實例，我們在距離$ d_1，\ ldots，d_n $上以速度$ v_1，\ ldots，v_n $行駛固定時間$ t $。現在，我們希望保留總距離。我們有$$ d_i-v_i t = 0 \ >，$$並且如果$ \ sum_i（d_i-v_i t）= 0 $，整個系統是守恆的。再次玩遊戲，我們尋求一個$ \ bar v $，使得$$ \ sum_i（d_i-\ bar vt）= 0 \ >，$$，但是由於$ d_i = v_i t $，我們得到了$$ \ bar v = \ frac {1} {n} \ sum_i v_i = \ bar v _ {\ mathrm {AM}} \ >。$$

在這裡，我們要維護的累加結構與測量值成比例

等體積立方體

假設我們構造了一個具有給定體積$ V的$ n $維盒$和我們的測量值是盒子的邊長。然後$$ V = x_1 \ cdot x_2 \ cdots x_n \ >，$$ 並假設我們要構造一個具有相同體積的$ n $維（超）多維數據集。也就是說，我們要用共同的邊長$ \ bar x $替換我們的各個邊長$ x_i $。然後$$ V = \ bar x \ cdot \ bar x \ cdots \ bar x = \ bar x ^ n \ >。$$

這很容易表明我們應該採用$ \ bar x =（x_i \ cdots x_n）^ {1 / n} = \ bar x _ {\ mathrm {GM}} $。

請注意，加法結構位於對數中，即$ \ log V = \ sum_i \ log x_i $，我們正在嘗試保留左側數量。

從舊的新方法

作為練習，請考慮一下“ “自然”的意思是在第一個示例中讓距離和時間都變化的情況。也就是說，我們有距離$ d_i $，速度$ v_i $和乘以$ t_i $。我們要保存總的行駛距離和時間，並找到一個恆定的$ \ bar v $來實現這一目標。

鍛煉：在這種情況下，“自然”是什麼意思？

+1這是一個很好的答案。但是，我認為這在一個重要的方面是不完整的：在許多情況下，正確的使用方式取決於*我們正在嘗試回答的問題*，而不是取決於數據中的任何數學結構。在環境風險評估中就是一個很好的例子：監管機構希望隨著時間的推移來估算人群的污染物暴露總量。即使環境濃度數據通常具有乘積結構，這也需要適當加權的算術平均值。幾何平均值將是錯誤的估計值或估計值。

@whuber:（+1）這是一個很好的評論。在構造答案的過程中，我採取了絕對非統計性的分叉方式，因此很高興您提到這一點。這個主題值得一個完整的答案（*提示*）。

@whuber:它還提出了一個事實（可能是無意的），即統計分析有時可能會受到領域專家（或可能是非專家）的監督，他們想估算對其領域有意義的東西，但幾乎完全不自然統計上。我過去遇到過的問題是，他們有時還希望指示統計估計的執行方式！ :)

@whuber:如果您還可以通過詳細說明將這種觀點添加到答案中，將不勝感激。老實說，您的解釋是我在Stats.SE上看到的最好的解釋之一！

來自@whuber的通常很棒的評論。有時（也許經常！）正確的使用方法是“無” *；相反，這個問題通常需要擴大到“我應該使用哪種集中趨勢度量？”。

感謝您的**大答复**。您可以推荐一些相關文獻嗎？

@Anony-Mousse:感謝您的友好評論！我不確定要推薦哪些文獻（儘管我會考慮）。從某種意義上說，這個答案的“靈感”（如果可以這樣稱呼）在物理上的考慮要比統計上的更多。

這是非常有啟發性的答案。

@cardinal-很好的答案！對於本練習，最直接的答案是sum（d）/ sum（t），但這是從難以理解的編碼（不是編程）的角度出發的。如果可以的話，它並不純淨。它不是立即可識別為平均值，而是每個術語用（ti）加權的算術平均值。為什麼？我可以得到提示嗎？

Peter Flom

2012-02-20 04:25:44 UTC

view on stackexchange narkive permalink

擴展@Brandon的出色評論（我認為應該提倡回答）：

當您對乘法差異感興趣時，應使用幾何平均值。布蘭登指出，範圍不同時應使用幾何平均值。這通常是正確的。原因是我們要均衡範圍。例如，假設大學申請人的SAT分數（0到800），HS的平均成績（0到4）和課外活動（1到10）得到了評分。如果一所大學希望對這些值求平均並均衡範圍（即每種質量相對於範圍的權重增加），那麼幾何均值將是可行的方法。

但這不是當我們擁有不同範圍的音階時，始終為true。如果我們比較不同國家（包括窮國和富國）的收入，我們可能不想要幾何平均值，而想要算術平均值（或更可能是中位數或修整後的平均值）。

我見過的諧波均值唯一用途是比較速率。例如：如果您以40英里/小時的速度從紐約開車到波士頓，然後以60英里/小時的速度返回，那麼您的總體平均值不是50英里/小時的算術平均值，而是諧波平均值。

AM = $（40 + 60）/ 2 = 50 $ HM = $ 2 /（1/40 + 1/60）= 48 $

檢查是否適合這個簡單的例子，想像一下從紐約市到波士頓120英里。然後，那裡的驅動器需要3個小時，開車回家需要2個小時，總時間為5個小時，距離為240英里。 $ 240/5 = 48 $

為什麼您的SAT / GPA /課外示例使用幾何平均值而不是加權或比例算術平均值？為什麼SAT或GPA為零意味著其他兩個值變得無關緊要（正如幾何平均值所暗示的那樣）？如果課外活動傾向於聚集在比理論範圍窄得多的範圍內，那該怎麼辦？百分位數（或其他調整後的值）的算術平均值似乎比原始值的幾何平均值更有意義。

@ruakh有趣。在這種情況下，0問題並不重要，因為SAT和GPA不能真正為0（SAT = 0幾乎是不可能的，而GPA為0則無法畢業）。我認為百分位數的算術平均值將接近其結論中的幾何平均值（即使不是實際數）。

Dimitriy V. Masterov

2012-02-21 04:29:23 UTC

view on stackexchange narkive permalink

我將其簡化為3-4條經驗法則，並提供勾股方法的更多示例。

這3種方法之間的關係是 HM < GM < AM對於具有某些變化的非負數據。當且僅當樣本數據完全沒有變化時，它們才相等。

對於水平數據，請使用AM。價格是一個很好的例子。 要使用比率，請使用GM。投資回報率，相對價格和聯合國的人類發展指數都是例子。 HM適用於費率。以下是 David Giles提供的非汽車示例：

例如，請考慮“每週工作的小時數”（比率）。假設我們有四個人（樣本觀察值），每個人總共工作2000小時。但是，他們每週工作的小時數不同，如下所示：
 人員總小時數每週每週工作時數1 2,000 40 502 2,000 45 44.44443 2,000 35 57.1428574 2,000 50 40總計：8,000 191.587297  
第三列中的值的算術平均值為AM =每週42.5小時。但是，請注意該值的含義。將樣本成員的工作總週數（8,000）除以該平均值得出的數值為188.2353，這是所有四個人工作的總週數。

現在看上表的最後一列。實際上，樣本成員工作的總週數的正確值為191.5873週。如果我們在表的第三列中計算每周小時數的諧波均值，則HM = 41.75642小時（< AM），將此數字除以8,000小時，得出的總工作週數的正確結果為191.5873。在這種情況下，諧波均值可以為樣本平均值提供適當的度量。

David還討論了這3種均值的加權形式，這些均值出現在用於衡量通貨膨脹的價格指數中。

p>

我經常很難弄清是比率還是比率。投資收益通常在計算均值時視為比率，但由於通常以“每單位時間的百分比”表示，因此它們也是一種比率。我認為有用的區別是比率通常是無單位的，因此回報率就是比率，因為當前價值超過投資的$具有美元符號可以抵消。匯率的分子和分母具有不同的單位。

因此，如果您要總結北歐國家的巨無霸指數，則可以使用同等加權的HM，因為是一個比率。按國家/地區劃分，HM會告訴您在必須擁有相同數量的每種貨幣的約束下，需要支付多少貨幣才能獲得BM。

遲了幾年，但是您是否曾經找到過以下問題的答案：“如果您想總結北歐國家的巨無霸指數，您會使用通用汽車嗎？”？

@StatsScared不，但這將是一個很好的問題！

boscovich

2012-02-20 14:52:13 UTC

view on stackexchange narkive permalink

您的問題的一個可能答案（“我如何確定哪種均值在給定背景下最合適？”）是意大利數學家 Oscar Chisini給出的均值定義。。

此處是一篇論文，包含更詳細的說明和一些示例（平均行進速度等）。

如果您可以在此處添加幾行有關Chisini定義的信息，以防該鏈接失效，則可能是理想的選擇，和/或幫助讀者知道他們是否想單擊該鏈接以進一步追求這些想法。

確實，與本文的鏈接已失效。Wolfram鏈接沒有提供任何有關Chisini定義如何用於確定在給定上下文中使用哪種含義的見解；在我看來，這只是數學上的概括，而不是使用的處方。

通過使用DOI，您可以看到論文已移至tandfonline.com。引用：R Graziani，P Veronese（2009）。如何計算均值？Chisini方法及其應用。美國統計師63（1），第33-36頁。http://www.tandfonline.com/doi/abs/10.1198/tast.2009.0006

Ira Nirenberg

2016-06-21 03:45:47 UTC

view on stackexchange narkive permalink

我認為回答這個問題的簡單方法是：

如果數學結構為xy = k（變量之間的反比關係）並且您正在尋找平均值，則您需要使用諧波平均值-等於加權算術平均值-考慮

諧波平均值= 2ab /（a + b）= a（b / a + b）+ b（a /（a + b）

例如：由於您投資的資金量（A）保持固定，但每股價格（P）和份數（N）有所不同（A = PN）。實際上，如果您將算術平均值視為一個均等地位於兩個數字之間的數字，則諧波均值也是一個均等地位於兩個數之間的數字，但是（這很好）“中心”是百分比（比率）相等的位置，即：（x-a）/ a =（b -x）/ b，其中x是諧波平均值。

如果數學結構是直接變化y = kx，則使用算術平均值，即諧波平均值減少到這種情況。

我認為您需要檢查諧波平均方程式中的方括號匹配-請注意，您可以在乳膠標記中使用美元符號將其括起來，例如，$ x $`產生$ x $。對於分數，請注意，\ frac {a} {b}`產生$ \ frac {a} {b} $。有關更多信息，請參見我們的[編輯幫助]（http://stats.stackexchange.com/editing-help）。

假設您要合計幾種不同模型的概率。在那種情況下，使用幾何或調和均值是否有意義？

ⓘ

該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到，我們感謝它分發的cc by-sa 3.0許可。

关于 - 法律

Loading...