題:
為什麼年齡中位數比平均年齡更好?
Lazer
2010-09-11 01:26:57 UTC
view on stackexchange narkive permalink

alt text

alt text

很顯然, 中位數

我無法向自己解釋為什麼 算術平均值會更糟。為什麼會這樣?

最初在此處發布,因為我不知道該站點的存在。 sub>

您似乎已經在其他網站上找到了合理的答案?
@Shane:但是,從不同的角度來看,也許不同的站點有可能獲得不同的答案?
十四 答案:
whuber
2010-09-11 03:17:24 UTC
view on stackexchange narkive permalink
我認為,統計數據無法很好地回答這個問題。例如,平均數可能與死亡率研究相關,但年齡並不像您想像的那樣容易測量。例如,老年人,文盲和某些第三世界國家的人傾向於將年齡舍入為5或10的倍數。

中位數比平均水平更能抵抗這種錯誤。此外,中位年齡通常為20至40歲,但人們可以活到100歲以上(現代國家人口中越來越多且明顯的一部分現在生活在100歲以上)。與非常年輕的人相比,這種年齡的人對中位數的影響是對中位數的1.5到4倍。因此,中位數是有關一個國家的年齡分佈的最新統計數據,與死亡率和預期壽命相比,與中位數相比更為獨立。

最後,中位數為我們提供了一個年齡分佈本身的情況略好一些:例如,當您看到中位數為35歲時,您知道一半的人口年齡超過35歲,因此您可以推斷出一些有關出生率,父母年齡等等的信息。 ;但是如果 mean 是35歲,那麼您就不能這麼說了,因為例如35歲可能受到70歲時大量人口膨脹的影響,或者可能是由於某些年齡段的人口差距所致

因此,出於人口統計學的原因,而不是出於統計的原因,中位數似乎更適合綜合價值的作用。總結相對較大的人口年齡。

我認為您的意思是“中位數比平均值更能抵抗此類錯誤”。不過,我同意您的評論,並且我認為美國人口普查通常會在正式報告中報告許多類別的中位數(而不僅僅是年齡),原因基本上都是相同的。收入也許是比年齡更好的例子來說明這一點。
您已經用一個事實(均值對異常值/偏態分佈敏感)代替了關於中位數優先於均值的值聲明。實際上,您認為均值不是首選,因為它不是中位數(很像那些說均值對稱分佈(即均值和中位數相等)時才應使用均值的人)。
@Alexis我不接受您的批評。你能詳細說明嗎?畢竟,這個答案所提供的遠遠不只是“事實”:它包含了很多答案,並對其含義進行了分析。具體來說,您指的是什麼“價值聲明”?
我擔心的是均值和中位數的事實特徵(例如,前者對異常值敏感,即“與非常年輕人相比,該年齡段的人對中位數的影響是對中位數的1.5至4倍。”)轉化為有關其價值的“價值”,即“中位數使我們對年齡分佈本身的狀況有了更好的了解”。前者是事實,後者是該事實的估值。我關心的是兩者之間的切換。更多:http://stats.stackexchange.com/questions/96371/should-the-mean-be-used-when-data-are-skewed
@Alexis謝謝。我仍在努力理解“價值”的含義。我聲明了統計數據可以為我們提供有關分佈情況的保真度,而不是人們對不同年齡段的關注程度(在這種情況下通常指的是“價值”)。我以敏感性(影響)的標準度量來支持該聲明。如果您能幫助我更好地了解您的擔憂,那麼我很樂意澄清有關這方面的帖子。 (鏈接問題的某些答复者在理解您的擔憂時也遇到類似的麻煩。)
@whuber(感謝您的耐心等待),這是我在以前的評論中引用的“更好”之類的詞,我認為此處帶有“人們在乎多少”的含義。我想我想提出一個問題:“我們不是要說不同,不是更好嗎?”
@Alexis請記住,這個問題不是關於平均值或中位數的一般使用,而是在評估*年齡分佈時的效用。*請注意,我的回答一開始就承認沒有萬能藥: *對於特定目的有用且相關。*我不認為您犯了我所指控的罪過,這是“更好”的含糊用法:我已經仔細規定了*在這種情況下*中位數和均值如何不同*。在我看來,您可能需要關注均值* vs *中位數的問題,但這不是解決問題的地方。
Dirk Eddelbuettel
2010-09-11 01:48:50 UTC
view on stackexchange narkive permalink

約翰在姐妹網站上給了您很好的答案。

他沒有明確提及的一個方面是穩健性:中位數作為中心位置的度量比平均值更好,因為它具有更高的細分點(50%),而平均值具有非常低的0之一(有關詳細信息,請參閱Wikipedia)。

從直覺上講,這意味著個別不良觀察不會使中位數偏斜,而平均值卻會偏斜。

對於整個人口的描述性統計而言,分類不是問題。
John D. Cook
2010-09-11 19:20:44 UTC
view on stackexchange narkive permalink

這是我的答案首次發佈在math.stackexchange上:

中位數是許多人說“平均”時真正想到的。中位數更容易解釋:一半的人口高於該年齡段,一半的人口低於該年齡段。平均值稍微有些微妙。

人們會尋找對稱性,有時會在不對稱時強加對稱性。人口中的年齡分佈遠非對稱,因此均值可能會產生誤導。年齡分佈就像金字塔。孩子很多,老人很多。 (或者至少這是一種穩定狀態。在美國,第二次世界大戰後嬰兒潮時代的一代人隨著年齡的增長扭曲了這一分佈。有人稱這種情況為“金字塔金字塔”,因為嬰兒潮一代已經製造出了“金字塔金字塔”。

由於分佈不對稱,報告中位數可能會更好,因為它是對稱統計量。即使採樣分佈不均勻,中位數也是對稱的。

中位數在什麼意義上是“對稱”統計量?分佈趨於圍繞其中位數對稱分佈(也不關於均值)肯定不是這種情況。如果您只是說在另一條評論中寫的“中位數將人口分成一半”(*定義*中位數),則您的論點聽起來是循環的:中位數是好的,因為中位數是中位數!
John
2010-09-11 05:30:30 UTC
view on stackexchange narkive permalink

為什麼斧頭比斧頭好?

這與您的問題類似。他們只是刻薄,做不同的事情。如果人們在談論中位數,那麼他們試圖傳達的故事,他們試圖應用於數據的模型就不同於帶有均值的模型。

ars
2010-09-12 10:01:58 UTC
view on stackexchange narkive permalink

舉一個具體的例子,考慮剛果(金)和日本的平均年齡。一個因內戰而遭受嚴重破壞,另一個因人口老齡化而發展良好。對於蘋果與蘋果的比較而言,平均值並不十分有趣。另一方面,中位數可以作為衡量中心趨勢的信息,因為根據定義,中位數有一半以上,一半以下。關於人口金字塔的維基百科文章可能具有啟發性(請參閱有關年輕人膨脹,人口老齡化的部分)。

Henry
2011-03-27 10:39:31 UTC
view on stackexchange narkive permalink

我認為沒有很好的描述性理由選擇年齡分佈的中位數而不是均值。比較報告數據是一種實用性。

許多國家/地區報告的人口年齡間隔為5歲,上限是無限制的。這會造成一些困難,難以根據區間計算平均值,尤其是對於最年輕的區間(受嬰兒死亡率影響),最高的“區間”(80+“區間”的平均值是多少?)和接近最高的區間(每個間隔的平均值通常低於中間值)。

通過在中位數區間內插值來估計中位數要容易得多,通常通過假設該區間內的年齡分佈平坦或梯形來近似(許多國家的死亡率在中位數年齡附近相對較低,這比年輕人或老年人更合理。

Richard E. Gilder
2012-01-02 21:18:02 UTC
view on stackexchange narkive permalink

由於HIPAA法規針對出於個人隱私原因而故意對數據進行屏蔽和掩蓋的規定,美國的公共衛生數據存儲庫正朝著以5年遞增的年份格式的AGE過渡。

鑑於過去的挑戰(在HIPAA之前)基於出生日期和死亡日期之間的差異,在相當規模的度量數據元素上存在挑戰,我們可能需要重新考慮AGE作為可以應在公共衛生數據集中進行參數化描述,而應採用以非參數形式描述AGE的模型作為有序的度量標準。我知道,對於生物醫學信息學界的許多派別來說,這似乎是“最重要的”,但是如上面的評論中所述,這種想法在“解釋”方面可能有一定的優點。

非參數方法可用的所有分析能力如何?是的,的確,我們每個人幾乎都將嘗試將GLM(通用​​線性模型)技術應用於一個變量,該變量以與AGE相同的方式向我們展示。

同時,必須考慮該分佈的形狀以及如何通過多維相互作用對分佈中存在的多維質心和子組質心確定多維形狀。如何處理這些非常複雜的數據集?

當數據元素不能滿足“模型的假設”時,我們將逐步進行掃描(我說的是進行遍歷,而不是向下;我們應該是方法的機會均等的雇主,每種工具都來自工廠,表格遵循功能規則)其他可能模型的列表,以找到那些“不失敗”假設測試的模型。

按照當前公共衛生數據集中的格式,我們確實確實需要(作為數據可視化社區)提出一個更標準的模型,以五年為增量(5YI)處理AGE。我對AGE(使用新的5YI格式)進行數據可視化的投票是使用直方圖以及箱形圖和晶須圖。是的,這意味著中位數。 (沒有雙關語!)

有時候一張圖片真的值一千個字,而摘要是一千個字的摘要。箱須圖顯示了分佈的“形狀”,作為直方圖的有意義的符號表示,幾乎達到了標誌性的分辨率。通過顯示“並排”框和晶須圖來比較五年年齡增量的分佈,可以立即在視覺上比較第75位至第50位(中位數)與較低的25位Ntile的模式,這將成為比較AGE的優雅“通用標準”世界。對於那些通過表格顯示的文本機制繼續享受數據表示快感的人來說,“莖和葉”圖當被用作描繪變化的“火花”方法中的動畫可視化圖形元素時也可能有用。隨時間變化的分佈形狀。

年齡已經成熟。現在需要使用更強大的計算算法來進一步探索它。

這是一篇寫得很好的文章,但似乎與原始問題沒有任何联系。
我認為,@Andy是間接地但適當地解決了該問題的明顯意圖。錯誤(如果有的話)在於問題本身,這是模棱兩可的,因為它沒有指定均值可能比中位數“差”的含義。因此,一個好的答案是必須探索這一點,並考慮用單個統計數據總結年齡分佈的目的。在這裡,自然而然地引起了關於“年齡”可能意味著什麼以及如何恰當地比較年齡分佈的討論。
Emil Friedman
2012-05-23 20:34:40 UTC
view on stackexchange narkive permalink

要給出原始問題有用的答案,我們需要知道問題背後的問題。換句話說,“為什麼要使用某種匯總統計數據來比較不同國家的年齡分佈?”中位數對於某些問題可能是最有用的。平均值可能對其他人最有用。並且可能存在一些問題,其中“特定年齡以上(或以下)的百分比”是最有用的統計信息。

Mike Dunlavey
2010-09-14 05:23:26 UTC
view on stackexchange narkive permalink

您在這裡得到了很好的答案,但讓我加2美分。我從事藥理學工作,涉及血容量,消除率,藥物作用的基本水平,最大藥物作用以及諸如此類的參數。

我們區分可以採用任何值的變量正或負,與只能為正的值。可以採用任何值(正負)的變量的一個示例是藥物效應,它可以是正值,零值或負值。只能實際為正的變量的一個示例是血容量或藥物清除率。

我們用通常是正態或對數正態,任何值的正態和對數正態的分佈對這些事物建模對於唯一積極的。對數正態數是取正態分佈數的冪的數字E,這就是為什麼它只能為正數的原因。

對於正態分佈變量,中位數,均值和眾數相同數字,因此使用哪個都無所謂。但是,對於對數正態分佈的變量,平均值大於中位數和眾數,因此它並不是很有用。實際上,中位數是基礎正態值的均值,因此它是一種更具吸引力的度量。

由於年齡(大概)永遠不可能為負,因此對數正態分佈可能是對其更好的描述。比正常值高,因此中值(E等於基本正常值的平均值)更有用。

年齡分佈肯定不是對數正態分佈。
我認為您不能僅根據年齡總是正數來推斷年齡是對數正態分佈。伽瑪和威布爾分佈也總是正的,那麼為什麼不選擇那些呢?
-1
Susanne
2015-02-12 22:34:32 UTC
view on stackexchange narkive permalink

我被教導,中值應與範圍和均值一起使用,並應使用標準差。當我們談論年齡時,我認為範圍是表達傳播的一種更相關的方式,並且對於大多數人來說更容易理解。例如,在研究人群中,平均年齡為53歲(標準差5.4)或中位年齡為48歲(範圍23-77)。因此,我寧願使用中位數而不是均值。但是,我將對統計學家或統計學專業人士對使用均值和範圍會說些什麼感到非常感興趣?我在科學論文中看到了很多。

歡迎來到簡歷,蘇珊。如果您已發布此帖子以獲取答案,請刪除它,然後將其重新發佈為新問題。我們的[幫助]中提供了有關如何使用本網站的指南。
user28
2010-09-11 02:33:58 UTC
view on stackexchange narkive permalink

John關於math.stackexchange的答案可以看成如下:

當分佈偏斜時,中位數可能比平均值更好。

請注意,當他說嬰兒比成人多時,他實際上是在暗示年齡分佈是偏態分佈。

實際上,我認為當今許多國家的偏向更多地轉向老年人,而不是小孩。
也許,它是相反的偏斜,但總的觀點是正確的。對於偏斜的分佈,中位數可能比平均值有意義。
我剛剛更新了math.stackexchange的答案以強調這一點。人們會尋找對稱性,並且當對稱性不存在時會錯誤地施加對稱性。當您報告中位數時,您給出的答案是對稱的-即使分佈不是對稱的,中位數也會將總體分成兩半。
這個答案在我看來總是有些偷偷摸摸的:當分佈不偏斜時(即它們是對稱的),均值*等於*中位數,因此說當分佈偏斜時,中位數“更好”是一種後門方式,即“只使用中位數。”
Eustache
2012-03-10 16:27:28 UTC
view on stackexchange narkive permalink

我希望平均年齡會受到數據集中異常值的影響,而中位數年齡並非如此。讓我們以一個疫苗接種患者的數據集為例:1、2、3、4、4、5、6、6、6、78歲,平均為:11.5,這些患者的中位年齡為4.5。該平均年齡已受到異常值78的影響。在處理偏態分佈的數據集時,中位數是最好的。

請參閱我對User28的回复。
Matt L.
2014-05-28 21:18:26 UTC
view on stackexchange narkive permalink

當然,就人口統計分析而言,如果您要尋找離群值或僅由中位數貼錯標籤的增長區域,則我認為均值和中位數都是有價值的,尤其是相互結合時。在退休社區較大的社區或出生率爆炸的地區,單靠中位數可能無法為您提供全部信息,而相比之下,均值可能會非常有用。

brethvoice
2020-03-31 19:21:02 UTC
view on stackexchange narkive permalink

最短答案:中位數年齡不是好於平均年齡;但是,您可能已經註意到有更多的人使用它。因此,一個更好的問題可能是:“為什麼人口統計學家使用平均年齡多於平均年齡?”

作為詞彙的統計術語,其起源是試圖了解其人口的國家(名義上是法律實體)。因此,請考慮一下那些政府中的人們,他們想要或需要多少信息,以及他們需要花費多少時間來理解科學單詞的精確數學含義。

不使用圖片就可以匯總大量數據的最簡單方法是報告一個數字。這被稱為有關參數的估計量(在這個籠子裡,是指從人類出生起經過的時間,精確到歲數)。一套。 Jaynes在他的 book Probability Theory:The Logic of Science中證明,人們可以選擇基於功利損失函數構造一個估計器,該函數總結基於使用單個數字而不是整個整數而犯錯誤的後果。基於該信息進行決策時的數據集。

在Jaynes的書中,他通過數學證明證明了模式或最大似然估計器是使損耗最小的估計器,其形狀類似於Dirac delta函數。均值使二次損失函數最小化,這樣從估計中得到的另一個函數,一旦通過單位標度,損失的數量(不良後果)就會迅速增加。

相反,中位數使形狀像倒三角形的損失函數最小化,因此,以一個精度單位偏移的期望函數比僅25倍(例如,當使用均值)。實際上,精度單位沒有任何區別,因為在這種三角形的尖銳損耗函數中沒有曲率。

有了這一理論基礎,人們可以從字面上得出根本不對稱的損失函數,並形成了無數個新的估計器,這些估計器量身定制以滿足其消費者/用戶的需求。處理單個數字的文化期望的另一種替代方法是教育那些相同的信息用戶/消費者,當與分佈的其他參數(例如方差,偏度和峰度)配對使用時,集中趨勢的度量可以提供更多信息(可能只想從方差開始並傾斜以使它們變得容易。

方差只是分散度量的一個示例; Jaynes的另一個建議(用其他著作)是形成貝葉斯後驗分佈併計算值為0.5(或置信區間/標準偏差等)的最短可信區間的寬度。如果您不贊成貝葉斯理論,請不要 sidetracked)。四分位數間距是一種更直觀的方法,可能會讓更多的人更容易理解,尤其是在以中位數作為其集中趨勢的相應度量方式報告時。

我不確定是否存在非參數形式的偏斜或峰度,但如果確實存在,則肯定會比這些參數類似物更容易理解。我有一個直覺,一個主要的(如果不是占主導地位的)部分原因是中位數年齡比平均年齡增長的頻率更高,是因為它對那些時間較少或希望深入了解諸如sigma代數之類的事物的人更具吸引力,勒貝格測度理論等對於理解概率推理的更常見基礎在技術上都是必需的。

儘管這裡有很多關於估計量的好主意,但我認為它們出現在錯誤的位置:這個問題僅僅是關於*描述*的統計信息。它不一定要成為任何事物的估計量。
@whuber如果不描述具有單個數字的數據集的相關屬性,那麼任何統計的目的是什麼?我同意方差,偏度,峰度或與高階矩相關的數量通常不是估計值,而是用於度量集中趨勢的限定符。但是,我希望我們不要忽視通常所說的“概率”一詞的含義。在OP的背景下,似乎有人問“在這樣某地的人大約幾歲?”因此中位數是一個估計量,因為它用一個數字來表示感興趣的數量(參數)。
描述性統計量和估計量之間的區別部分在於其用途:前者是數據集的屬性,純淨且簡單。概率不涉及,創建或使用描述性統計也不是必需的。相反,估計器試圖完全刻畫其他特徵:即假設從中得出數據的“人口”。


該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 2.0許可。
Loading...