題:
最令人困惑的統計術語
Peter Flom
2012-01-12 18:35:19 UTC
view on stackexchange narkive permalink

我們統計學家使用許多詞語的方式與其他所有人使用它們的方式略有不同。當我們教或解釋我們在做什麼時,這會引起很多問題。我將開始一個列表(現在,我將在每個註釋中添加一些定義):

  • 力量是正確拒絕錯誤的虛假假設的能力。通常,這意味著正確地說出“某事正在發生”。在以下情況下,以一定百分比(通常為5%)具有顯著性:如果樣本所來自的總體的真實影響為0,那麼至少在5%的時間內出現至少與從樣本中獲得的統計一樣極端的統計數據
  • 交互作用-如果因變量和一個自變量之間的關係在另一個自變量的不同級別上不同,則兩個自變量進行交互

,但是必須還有很多!

我建議人們也為他們的答案增加一些背景。示例可能是在不同領域中使用不同詞的同一個詞(固定效果[Gelman,2005](http://dx.doi.org/10.1214/009053604000001048))或在不同上下文中具有不同含義的詞(重要性與統計意義) [Bushway et al。,2006](http://dx.doi.org/10.1007/s11292-005-5129-7))。
如果回答者可以用一兩個句子解釋“技術”一詞的真正含義,或者是什麼可能導致它被認為具有不同的含義,那將是很好的。
稍後,我將根據您的評論完成回答;-)
...和“相關性”!
對於“樣本”,請參閱http://stats.stackexchange.com/questions/20945/how-to-define-what-a-sample-is的註釋。
如果統計的期望值不等於其估計的數量,則該統計信息將帶有偏差。
有關“偏見”的更多信息,請訪問http://stats.stackexchange.com/questions/20946/can-a-coin-be-biased。
偏見:http://stats.stackexchange.com/questions/18945/difference-among-bias-systematic-bias-and-systematic-error
十五 答案:
Fomite
2012-01-13 00:45:40 UTC
view on stackexchange narkive permalink

“重要”是我遇到的最大問題,因為它既具有通用的英語用法含義,又會在研究結果的討論中浮現出來。我什至發現我在談論統計結果的同一句話中混入了“重要”一詞,以表示重要。

這就是瘋狂。

是的,但是沒有更好的說法:“我非常確定這很重要,但是我沒有做任何測試,也不會做,因為它很明顯/無法完成/無論如何”
Dilip Sarwate
2012-01-12 19:58:54 UTC
view on stackexchange narkive permalink

我建議將Linear添加到列表中。

我在math.SE上問了一個問題,關於我作為工程師所認為的隨機變量的 linear 最小均方誤差估計$ Y $給定一個隨機變量$ X $的值(意思是將$ Y $估計為$ \ hat {Y} = aX + b $,並選擇$ a $和$ b $以便最小化$ E [(Y- aX-b)^ 2] $),並給出了部分答案。關於該問題的評論之一說:“

“我對您的語言有些不滿意,因為我擔心這種使用“線性”一詞的方式可能會引起人們的普遍誤解,即所謂線性回歸是指擬合一條直線。當統計學家堅持認為某人擬合拋物線或正弦波等時正在進行線性回歸時,人們會認為這令人困惑。”

所以,線性回歸對統計學家意味著什麼?

有關此答案的站點相關問題,[線性回歸中線性代表什麼?](http://stats.stackexchange.com/a/8706/1036)
@AndyW那麼,您是否可以說Linear屬於Peter Flom發起的清單?
是的,我同意它適合該清單。 (+1)
它適合該列表,但是出於一個不尋常的原因:“線性”一詞的含義已得到很好的確立,並在許多面向數學的領域中一致使用。潛在的混亂問題涉及公式的哪一部分是線性的。
您能否舉例說明如何擬合拋物線並仍稱其為線性模型?
Dikran Marsupial
2012-01-12 21:37:43 UTC
view on stackexchange narkive permalink

概率

在我看來,與解釋假設檢驗和置信區間有關的大多數問題都源於貝葉斯對概率的定義基於貝葉斯定義。例如,p值是零假設為真的概率,而在AFAICS中,在概率論中,沒有任何概率可以與特定假設的真相相關聯。

看起來/當談到/解釋置信區間時,那些曾經說(true)參數有95%的機會位於xx和xx之間的人,可能會考慮相同的考慮。
是的,一點沒錯!
+1但是,我對您的最後一句話的措詞略有不同。在最頻繁的設置中,原假設為true的概率為1或0,但您不知道哪個*。 (嚴格來說,這不太正確,因為“概率”是長期的相對頻率,而“長期的頻率”並沒有真正適用。儘管如此,當人們這樣說時,人們*可以*可以理解正在說的內容/如何我們了解自己所處的情況。例如,人們意識到您不能將原假設p值用作原假設成立的概率。)
“因為'概率'是長期的相對頻率”,許多概率論者會強烈反對這一說法
guest
2012-01-19 07:24:07 UTC
view on stackexchange narkive permalink

“信心”

很難勸說非統計學家,他們的信心區間不是(直接)關於...的信譽不同的參數值。

要對術語的技術含義有信心,我們需要想像一些重複的實驗,每個實驗都以某種預先指定的方式計算一個間隔。要達到95%的置信區間,公式的這些使用中的95%將捕獲相關的相關參數。

但非統計學家通常僅根據一項實驗就將“ 95%置信度”解釋為有關合理參數值的陳述。通常,他們假設間隔覆蓋了有關參數的某些後驗信念的95%,即“我們可以確定參數在$ a $和$ b $之間”。而是定義了一個可信的間隔。

(當然,在某些情況下,這兩個概念近似或完全一致。但是通常它們並不相同,而數值一致則不然。不能消除濫用技術術語的問題。)

xuexue
2012-01-20 07:30:01 UTC
view on stackexchange narkive permalink

“喜好度”-在日常用語中與“概率”同義,但在統計中具有特殊含義:它是統計模型參數的函數,其值是假設觀察到的結果的概率參數等於參數值。

Harvey Motulsky
2012-01-13 22:49:08 UTC
view on stackexchange narkive permalink

錯誤。

在統計中,“錯誤”是實際數據值與模型預測的偏差。

在現實生活中,錯誤是發生錯誤或其他問題。

拼寫錯誤不只是與通信介質的實際(預期)值的偏差嗎?我真的看不出這是什麼不同的詞,只是它在不同(但不衝突)的上下文中使用。我發現很難相信這會對剛接觸該領域的人造成困擾。
值可能與預測值不同的一個原因是實驗者搞砸了。這就像一個拼寫錯誤。但是,為什麼您的體重與您的性別和年齡的所有人的平均體重不同?為什麼您的收入與平均收入不同?在統計中,偏離均值是“錯誤”,但這不是錯誤,只是變異。
是的,但是我認為這取決於您的看法。如果您看一眼小學樣本中的單詞拼寫,您將得到變異,變異是由人為造成的,是的,但也並非由實驗者造成。您可能會用不同年齡的英語寫作看同一件事。我認為您會發現早期英語的可變性更高:)
-1
Adam
2012-01-19 08:47:41 UTC
view on stackexchange narkive permalink

“推論”

一開始我最難理解的一件事是總體與樣本之間的差異。統計人員寫出這些奇特的人口水平回歸方程,然後突然下降到樣本水平工作中,$ \ beta $ s變成$ b $ s。我花了很長時間才意識到您正在使用樣本水平數據和回歸方程來估算總體水平參數。

關於推理的另一個重要部分是中心極限定理。一旦您意識到您只是從總體中進行採樣-儘管採樣是類似於推理的另一個複雜功能-然後您就會理解,即使樣本均值擁有一個值,該值也不一定與總體中的均值相同。

也許我對您的問題了解得比較鬆散,但是一旦有人理解了推論或樣本與總體之間的差異,便可以對他們進行全面的統計。

Thomas Levine
2012-01-13 01:54:51 UTC
view on stackexchange narkive permalink

對我們(或至少對我來說),“樣本”的“隨機性”表明它是“人口”的代表。

對其他人而言,“隨機性”有時意味著一個人/事情不尋常。

我還沒有對“隨機性”感到困惑。但是,如果有的話,顯然它存在。
更確切地說,它已經存在
在我看來,“隨機”的後一種用法似乎很新。出於這個原因,我覺得這有點煩人(這只會使統計數據更加難以理解)。當我聽到自己以這種方式使用它時,這會更令人討厭。
JohnRos
2012-01-19 13:12:05 UTC
view on stackexchange narkive permalink

我認為應該區分混淆公眾的術語和混淆統計學家的術語。以上建議大部分是統計學家容易理解的術語,並且(可能)被公眾誤解了。我希望在列表中添加一些統計學家容易理解的術語:今天,該術語將在貝葉斯規則出現的任何時候使用,很少在主觀信念的背景下使用,這被認為是決策理論。

  • 經驗貝葉斯:最初是指具有非參數性的常客設置。今天,通常將意味著參數(客觀)先驗的參數是估計值,而不是先驗的。即曾經被稱為II型最大可能性。
  • 非參數化:有時是指“無模型”。有時要“免費發行”。如今,“參數”模型可能包含數百萬個參數,實際上已變得毫無意義。
  • III類錯誤:有時是指符號錯誤。有時是指模型的規格不正確。
  • 當我問時,我的意思是“使公眾感到困惑的術語”,但是肯定讓統計學家感到困惑的術語也值得一提
    這可能應該分為單獨的答案。
    zbicyclist
    2012-01-18 11:23:21 UTC
    view on stackexchange narkive permalink

    生態學,通常用於指代生物系統,但也有統計謬誤。摘自Wikipedia:

    生態謬誤(或生態推斷謬誤)是在生態研究中解釋統計數據時出現的錯誤,其中有關特定個體性質的推論僅基於為該行為收集的匯總統計數據。這些人所屬的組。這種謬論是假設一個小組中的每個成員具有整個小組的平均特徵。

    Thomas Levine
    2012-01-13 01:58:31 UTC
    view on stackexchange narkive permalink

    “調查”是數學類型(“調查抽樣”)還是一張紙(“問卷”)?

    我尚未對此進行調查,但我懷疑許多公眾認為後者是“調查”。我進一步懷疑他們不考慮前者。

    是不是由驗船師進行的調查? ;)
    usεr11852
    2012-11-28 12:04:25 UTC
    view on stackexchange narkive permalink

    “載荷”,“係數”和“重量”;在談論主成分分析時。

    我通常會發現人們在使用它們時是很特別的,他們在不首先明確定義含義的情況下可以互換使用,而我實際上遇到過涉及“加載向量”的論文有時是指PC本身,有時是指與特定PC相關的“權重”。

    Jollifee對主成分的出色引用可能在第1.1節末尾指出:“有些作者根據規範化區分了“載荷”和“係數”這兩個術語。約束,但在本書中將可以互換使用。”只是讓人們認為他們有免費通行證,可以根據自己的喜好混合和匹配術語...。

    Glen
    2012-02-15 09:43:06 UTC
    view on stackexchange narkive permalink

    附加模型。仍然不確定這意味著什麼。我認為它是指沒有交互作用的模型。但是隨後,我將看到一篇文章,他們將其用於引用其他內容,即樣條模型。

    DaL
    2015-11-06 02:09:11 UTC
    view on stackexchange narkive permalink

    我最容易混淆的術語之一是“混淆矩陣”。當然,使用的術語本身是令人混淆的,而不是概念。

    我試圖跟踪該術語的歷史並混淆矩陣由( http://en.wikipedia.org/wiki/Karl_Pearson)於1904年發明。他使用了 http://en.wikipedia.org/wiki/Contingency_table一詞。它出現在F.R.S.的Karl Pearson (1904)。對進化論的數學貢獻(PDF)。 Dulau and Co. http://ia600408.us.archive.org/18/items/cu3192400306483333/cu31924003064833.pdf

    在戰爭世界2期間,h ttps: //en.wikipedia.org/wiki/Detection_theory的開發是為了研究刺激與反應之間的關係。在那裡使用了混淆矩陣。

    由於檢測理論的緣故,術語“心理學”被使用。從那裡開始,術語“機器學習”就出現了。

    看來,儘管該概念是在統計學中發明的,但與機器學習非常相關,但它在繞道100年後才達到了機器學習。 / p>

    有關該術語用法的一些參考,請參見:術語混淆矩陣的起源是什麼?

    John
    2012-01-13 00:25:13 UTC
    view on stackexchange narkive permalink

    “統計信息”

    對公眾來說,“現在我要對你說謊並以一種你不理解的方式說話。”



    該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
    Loading...