- 如果您查看 Wolfram Alpha
- 或此Wikipedia頁面按年齡中位數列出的國家/地區列表
很顯然, 中位數
我無法向自己解釋為什麼 算術平均值會更糟。為什麼會這樣?
最初在此處發布,因為我不知道該站點的存在。 sub>
很顯然, 中位數
我無法向自己解釋為什麼 算術平均值會更糟。為什麼會這樣?
最初在此處發布,因為我不知道該站點的存在。 sub>
中位數比平均水平更能抵抗這種錯誤。此外,中位年齡通常為20至40歲,但人們可以活到100歲以上(現代國家人口中越來越多且明顯的一部分現在生活在100歲以上)。與非常年輕的人相比,這種年齡的人對中位數的影響是對中位數的1.5到4倍。因此,中位數是有關一個國家的年齡分佈的最新統計數據,與死亡率和預期壽命相比,與中位數相比更為獨立。
最後,中位數為我們提供了一個年齡分佈本身的情況略好一些:例如,當您看到中位數為35歲時,您知道一半的人口年齡超過35歲,因此您可以推斷出一些有關出生率,父母年齡等等的信息。 ;但是如果 mean 是35歲,那麼您就不能這麼說了,因為例如35歲可能受到70歲時大量人口膨脹的影響,或者可能是由於某些年齡段的人口差距所致
因此,出於人口統計學的原因,而不是出於統計的原因,中位數似乎更適合綜合價值的作用。總結相對較大的人口年齡。
約翰在姐妹網站上給了您很好的答案。
他沒有明確提及的一個方面是穩健性:中位數作為中心位置的度量比平均值更好,因為它具有更高的細分點(50%),而平均值具有非常低的0之一(有關詳細信息,請參閱Wikipedia)。
從直覺上講,這意味著個別不良觀察不會使中位數偏斜,而平均值卻會偏斜。
這是我的答案首次發佈在math.stackexchange上:
中位數是許多人說“平均”時真正想到的。中位數更容易解釋:一半的人口高於該年齡段,一半的人口低於該年齡段。平均值稍微有些微妙。
人們會尋找對稱性,有時會在不對稱時強加對稱性。人口中的年齡分佈遠非對稱,因此均值可能會產生誤導。年齡分佈就像金字塔。孩子很多,老人很多。 (或者至少這是一種穩定狀態。在美國,第二次世界大戰後嬰兒潮時代的一代人隨著年齡的增長扭曲了這一分佈。有人稱這種情況為“金字塔金字塔”,因為嬰兒潮一代已經製造出了“金字塔金字塔”。
由於分佈不對稱,報告中位數可能會更好,因為它是對稱統計量。即使採樣分佈不均勻,中位數也是對稱的。
為什麼斧頭比斧頭好?
這與您的問題類似。他們只是刻薄,做不同的事情。如果人們在談論中位數,那麼他們試圖傳達的故事,他們試圖應用於數據的模型就不同於帶有均值的模型。
舉一個具體的例子,考慮剛果(金)和日本的平均年齡。一個因內戰而遭受嚴重破壞,另一個因人口老齡化而發展良好。對於蘋果與蘋果的比較而言,平均值並不十分有趣。另一方面,中位數可以作為衡量中心趨勢的信息,因為根據定義,中位數有一半以上,一半以下。關於人口金字塔的維基百科文章可能具有啟發性(請參閱有關年輕人膨脹,人口老齡化的部分)。
我認為沒有很好的描述性理由選擇年齡分佈的中位數而不是均值。比較報告數據是一種實用性。
許多國家/地區報告的人口年齡間隔為5歲,上限是無限制的。這會造成一些困難,難以根據區間計算平均值,尤其是對於最年輕的區間(受嬰兒死亡率影響),最高的“區間”(80+“區間”的平均值是多少?)和接近最高的區間(每個間隔的平均值通常低於中間值)。
通過在中位數區間內插值來估計中位數要容易得多,通常通過假設該區間內的年齡分佈平坦或梯形來近似(許多國家的死亡率在中位數年齡附近相對較低,這比年輕人或老年人更合理。
由於HIPAA法規針對出於個人隱私原因而故意對數據進行屏蔽和掩蓋的規定,美國的公共衛生數據存儲庫正朝著以5年遞增的年份格式的AGE過渡。
鑑於過去的挑戰(在HIPAA之前)基於出生日期和死亡日期之間的差異,在相當規模的度量數據元素上存在挑戰,我們可能需要重新考慮AGE作為可以應在公共衛生數據集中進行參數化描述,而應採用以非參數形式描述AGE的模型作為有序的度量標準。我知道,對於生物醫學信息學界的許多派別來說,這似乎是“最重要的”,但是如上面的評論中所述,這種想法在“解釋”方面可能有一定的優點。
非參數方法可用的所有分析能力如何?是的,的確,我們每個人幾乎都將嘗試將GLM(通用線性模型)技術應用於一個變量,該變量以與AGE相同的方式向我們展示。
同時,必須考慮該分佈的形狀以及如何通過多維相互作用對分佈中存在的多維質心和子組質心確定多維形狀。如何處理這些非常複雜的數據集?
當數據元素不能滿足“模型的假設”時,我們將逐步進行掃描(我說的是進行遍歷,而不是向下;我們應該是方法的機會均等的雇主,每種工具都來自工廠,表格遵循功能規則)其他可能模型的列表,以找到那些“不失敗”假設測試的模型。
按照當前公共衛生數據集中的格式,我們確實確實需要(作為數據可視化社區)提出一個更標準的模型,以五年為增量(5YI)處理AGE。我對AGE(使用新的5YI格式)進行數據可視化的投票是使用直方圖以及箱形圖和晶須圖。是的,這意味著中位數。 (沒有雙關語!)
有時候一張圖片真的值一千個字,而摘要是一千個字的摘要。箱須圖顯示了分佈的“形狀”,作為直方圖的有意義的符號表示,幾乎達到了標誌性的分辨率。通過顯示“並排”框和晶須圖來比較五年年齡增量的分佈,可以立即在視覺上比較第75位至第50位(中位數)與較低的25位Ntile的模式,這將成為比較AGE的優雅“通用標準”世界。對於那些通過表格顯示的文本機制繼續享受數據表示快感的人來說,“莖和葉”圖當被用作描繪變化的“火花”方法中的動畫可視化圖形元素時也可能有用。隨時間變化的分佈形狀。
年齡已經成熟。現在需要使用更強大的計算算法來進一步探索它。
要給出原始問題有用的答案,我們需要知道問題背後的問題。換句話說,“為什麼要使用某種匯總統計數據來比較不同國家的年齡分佈?”中位數對於某些問題可能是最有用的。平均值可能對其他人最有用。並且可能存在一些問題,其中“特定年齡以上(或以下)的百分比”是最有用的統計信息。
您在這裡得到了很好的答案,但讓我加2美分。我從事藥理學工作,涉及血容量,消除率,藥物作用的基本水平,最大藥物作用以及諸如此類的參數。
我們區分可以採用任何值的變量正或負,與只能為正的值。可以採用任何值(正負)的變量的一個示例是藥物效應,它可以是正值,零值或負值。只能實際為正的變量的一個示例是血容量或藥物清除率。
我們用通常是正態或對數正態,任何值的正態和對數正態的分佈對這些事物建模對於唯一積極的。對數正態數是取正態分佈數的冪的數字E,這就是為什麼它只能為正數的原因。
對於正態分佈變量,中位數,均值和眾數相同數字,因此使用哪個都無所謂。但是,對於對數正態分佈的變量,平均值大於中位數和眾數,因此它並不是很有用。實際上,中位數是基礎正態值的均值,因此它是一種更具吸引力的度量。
由於年齡(大概)永遠不可能為負,因此對數正態分佈可能是對其更好的描述。比正常值高,因此中值(E等於基本正常值的平均值)更有用。
我被教導,中值應與範圍和均值一起使用,並應使用標準差。當我們談論年齡時,我認為範圍是表達傳播的一種更相關的方式,並且對於大多數人來說更容易理解。例如,在研究人群中,平均年齡為53歲(標準差5.4)或中位年齡為48歲(範圍23-77)。因此,我寧願使用中位數而不是均值。但是,我將對統計學家或統計學專業人士對使用均值和範圍會說些什麼感到非常感興趣?我在科學論文中看到了很多。
John關於math.stackexchange的答案可以看成如下:
當分佈偏斜時,中位數可能比平均值更好。
請注意,當他說嬰兒比成人多時,他實際上是在暗示年齡分佈是偏態分佈。
我希望平均年齡會受到數據集中異常值的影響,而中位數年齡並非如此。讓我們以一個疫苗接種患者的數據集為例:1、2、3、4、4、5、6、6、6、78歲,平均為:11.5,這些患者的中位年齡為4.5。該平均年齡已受到異常值78的影響。在處理偏態分佈的數據集時,中位數是最好的。
當然,就人口統計分析而言,如果您要尋找離群值或僅由中位數貼錯標籤的增長區域,則我認為均值和中位數都是有價值的,尤其是相互結合時。在退休社區較大的社區或出生率爆炸的地區,單靠中位數可能無法為您提供全部信息,而相比之下,均值可能會非常有用。
最短答案:中位數年齡不是好於平均年齡;但是,您可能已經註意到有更多的人使用它。因此,一個更好的問題可能是:“為什麼人口統計學家使用平均年齡多於平均年齡?”
作為詞彙的統計術語,其起源是試圖了解其人口的國家(名義上是法律實體)。因此,請考慮一下那些政府中的人們,他們想要或需要多少信息,以及他們需要花費多少時間來理解科學單詞的精確數學含義。
不使用圖片就可以匯總大量數據的最簡單方法是報告一個數字。這被稱為有關參數的估計量(在這個籠子裡,是指從人類出生起經過的時間,精確到歲數)。一套。 Jaynes在他的 book Probability Theory:The Logic of Science中證明,人們可以選擇基於功利損失函數構造一個估計器,該函數總結基於使用單個數字而不是整個整數而犯錯誤的後果。基於該信息進行決策時的數據集。
在Jaynes的書中,他通過數學證明證明了模式或最大似然估計器是使損耗最小的估計器,其形狀類似於Dirac delta函數。均值使二次損失函數最小化,這樣從估計中得到的另一個函數,一旦通過單位標度,損失的數量(不良後果)就會迅速增加。
相反,中位數使形狀像倒三角形的損失函數最小化,因此,以一個精度單位偏移的期望函數比僅25倍(例如,當使用均值)。實際上,精度單位沒有任何區別,因為在這種三角形的尖銳損耗函數中沒有曲率。
有了這一理論基礎,人們可以從字面上得出根本不對稱的損失函數,並形成了無數個新的估計器,這些估計器量身定制以滿足其消費者/用戶的需求。處理單個數字的文化期望的另一種替代方法是教育那些相同的信息用戶/消費者,當與分佈的其他參數(例如方差,偏度和峰度)配對使用時,集中趨勢的度量可以提供更多信息(可能只想從方差開始並傾斜以使它們變得容易。
方差只是分散度量的一個示例; Jaynes的另一個建議(用其他著作)是形成貝葉斯後驗分佈併計算值為0.5(或置信區間/標準偏差等)的最短可信區間的寬度。如果您不贊成貝葉斯理論,請不要 sidetracked)。四分位數間距是一種更直觀的方法,可能會讓更多的人更容易理解,尤其是在以中位數作為其集中趨勢的相應度量方式報告時。
我不確定是否存在非參數形式的偏斜或峰度,但如果確實存在,則肯定會比這些參數類似物更容易理解。我有一個直覺,一個主要的(如果不是占主導地位的)部分原因是中位數年齡比平均年齡增長的頻率更高,是因為它對那些時間較少或希望深入了解諸如sigma代數之類的事物的人更具吸引力,勒貝格測度理論等對於理解概率推理的更常見基礎在技術上都是必需的。