下圖中$ Y $和$ X $之間是什麼關係?在我看來,存在負線性關係,但是由於我們有很多異常值,因此該關係非常弱。是嗎?我想學習如何解釋散點圖。
下圖中$ Y $和$ X $之間是什麼關係?在我看來,存在負線性關係,但是由於我們有很多異常值,因此該關係非常弱。是嗎?我想學習如何解釋散點圖。
該問題涉及幾個概念:如何評估僅以散點圖形式給出的數據,如何匯總散點圖以及關係是否(以及在何種程度上)看起來線性。讓我們對其進行排序。
使用探索性數據分析(EDA)原理。(至少在最初,它們是在開發時使用的) (適用於鉛筆和紙),強調簡單,易於計算,健壯的數據摘要。最簡單的一種匯總是基於一組數字中的位置,例如中間值,它描述了一個“典型”值。 容易從圖形中可靠地估計出中間值。
散點圖顯示成對的數字。每對中的第一對(如橫軸上所示)提供一組單個數字,我們可以分別對其進行總結。
在此特定散點圖中, y值似乎位於兩個幾乎完全獨立的組:頂部 $ 60 $ span>之上的值和等於或小於 $ 60 $的值 span>在底部。 (這種印象可以通過繪製y值的直方圖來確認,該圖很明顯是雙峰的,但是在此階段需要做很多工作。)我請懷疑論者在散點圖上起眼睛。當我使用散點圖中的點進行大半徑,伽馬校正的高斯模糊(即標準的快速圖像處理結果)時,我會看到:
兩組(上組和下組)非常明顯。 (上方的一組要比下方的一組輕得多,因為它包含的點要少得多。)
因此,讓我們分別總結y值的組。我將通過在兩組的中值處繪製水平線來做到這一點。為了強調數據的印象並顯示我們沒有進行任何類型的計算,我(a)刪除了所有裝飾,例如軸和網格線,並且(b)使點模糊。這樣,在圖形上“斜眼看”就丟失了有關數據中模式的很少信息:
類似地,我嘗試標記具有垂直線段的x值的中位數。在上一組(紅線)中,您可以通過計數斑點來檢查這些線確實將組分為水平和垂直兩個相等的兩半。在較低的組(藍線)中,我僅憑視覺估計位置,而沒有進行任何實際計數。
交點是兩組的中心。 關於x和y值之間關係的一個很好的摘要是報告這些中心位置。然後,一個人希望通過描述每組中數據分散的數量來補充該摘要,左右,上下左右-圍繞它們的中心。為了簡潔起見,我在這裡不做這些,但是請注意,(大致)我繪製的線段的長度反映了每個組的總體分佈。
最後,我畫了一條(虛線)連接兩個中心。 這是一條合理的回歸線。這是對數據的良好描述嗎?當然不是:看看數據在這條線上的分佈程度。它甚至是線性的證據嗎?這幾乎沒有關係,因為線性描述太差了。但是,因為這是擺在我們面前的問題,所以讓我們解決這個問題。
從統計意義上來說,當 或y值圍繞線或沿平衡隨機方式變化時,關係是線性
前者在這裡似乎並非如此:因為y值似乎分為兩組,所以它們的變化永遠不會在線的上方或下方大致對稱分佈的意義上,看起來平衡。 (這立即排除了將數據轉儲到線性回歸程序包中並對x執行y的最小二乘擬合的可能性:答案將無關緊要。)
x的變化如何?這更合理:在圖上的每個高度處,虛線周圍點的水平散點都非常平衡。在較低的高度(較低的y值)中,該散佈中的傳播似乎要大一些,但這也許是因為那裡還有更多的點。 (您擁有的隨機數據越多,它們的極值將越分散。)
此外,當我們從上到下進行掃描時,在回歸線周圍沒有水平散佈的地方嚴重失衡:這將是非線性的證據。 (好吧,也許在y = 50左右,可能會有太多的x值。這種微妙的效果可以作為進一步的證據,將數據分為y = 60值附近的兩組。)
我們已經看到
將x視為y的線性函數加上一些“不錯”的隨機變化是有道理的。
將y視為x加隨機變化的線性函數不是。
回歸可以通過將數據分為一組高y值和一組低y值,使用中值找到兩組中心並連接這些中心來估算線。
所得的線具有向下的斜率,表示負線性關係。
線性關係不大。
儘管如此,由於行周圍x值的散佈仍然很大(與開始時x值的整體散佈相比),這種負線性關係為“非常弱”。
將數據描述為形成兩個橢圓形的雲可能更為有用(一個用於60以上的y,另一個用於較低的y) y的值)。在每個雲中,x和y之間幾乎沒有可檢測的關係。雲的中心在(0.29,90)和(0.38,30)附近。這些雲具有可比的散佈,但是高層雲的數據要比較低雲的少得多(也許是20%)。
其中兩個結論證實了在雲計算中得出的結論。質疑自身存在弱的負面關係。其他的則補充並支持了這些結論。
在這個似乎沒有成立的問題中得出的一個結論是,斷言存在“異常值”。進行更仔細的檢查(如下圖所示)將不會出現任何單獨的點,甚至是很小的一組點,這些點或點可以有效地視為離群值。經過足夠長時間的分析後,可能會引起人們的注意,將注意力集中在右中角附近的兩個點或左下角的一個點,但是即使不考慮它們,也不會極大地改變人們對數據的評估
還有更多話要說。下一步將是評估這些雲的傳播。使用此處顯示的相同技術,可以分別評估兩個雲中每個x和y之間的關係。可以評估甚至更低的雲的輕微不對稱性(似乎在最小的y值處出現更多數據),甚至可以通過重新表達y值進行調整(平方根可能會很好)。在此階段,尋找外圍數據將是有意義的,因為在這一點上,描述將包括有關典型數據值及其範圍的信息。異常值(根據定義)離中間值太遠,無法用觀察到的擴散量來解釋。
這項工作(相當定量)都不需要比找到中間值要多得多。分組數據並使用它們進行一些簡單的計算,因此即使數據只能以圖形形式提供,也可以快速而準確地完成。使用顯示系統(例如,硬拷貝和鉛筆:-),可以在幾秒鐘內輕鬆找到此處報告的每個結果(包括定量值),該顯示系統可以在圖形的頂部進行標記。 >
讓我們玩得開心!
然後,我使用一條平滑的運行線生成下面的黑色回歸線,其中虛線為95%的CI帶為灰色。下圖顯示了平滑範圍為數據一半的範圍,儘管更緊密的範圍或多或少地揭示了相同的關係。大約$ X = 0.4 $處的斜率略有變化,表明可以使用線性模型並在非線性最小二乘回歸(紅線)中添加$ X $的斜率的線性鉸鏈函數來近似這種關係:
$$ Y = \ beta_ {0} + \ beta_ {X} X + \ beta _ {\ text {c}} \ max \ left(X- \ theta,0 \ right)+ \ varepsilon $$
係數估計為:
$$ Y = 50.9 -37.7X -26.74436 \ max \ left(X-0.46,0 \ right)$$
我會請注意,儘管可重震的震顫器斷言沒有強線性關係,但鉸鏈項所隱含的與直線$ Y = 50.9-37.7X $的偏差與$ X $的斜率(即37.7)的階次相同,因此,我會不同意我們沒有看到強非線性關係(即是的,沒有強關係,但是非線性項與線性項一樣強)。
解釋
(我假設您只對$ Y $作為因變量感興趣。)$ Y $的值是$ X $的預測非常弱(調整後的$ R ^ {2} $ = 0.03)。關聯近似為線性,斜率略有下降,約為0.46。殘差在右側有些偏斜,可能是因為y是$ Y $值的下限。給定樣本量$ N = 170 $,我傾向於容忍違反常態。對$ X>0.5 $值的更多觀察將有助於確定斜率的變化是真實的還是在該範圍內$ Y $的方差減小的偽影。
$ \ ln(Y)$圖形:
(紅線只是ln(Y)在X上的線性回歸。)
在評論中Russ Lenth寫道:“我只是想知道這是否如果您使$ \ log Y $與$ X $保持順暢,則將保持住。$ Y $的分佈向右傾斜。”這是一個很好的建議,因為$ \ log Y $轉換與$ X $的擬合也稍好一點,即$ Y $和$ X $之間的線的殘差分佈更對稱。但是,他建議的$ \ log(Y)$和我的$ X $線性鉸鏈都偏愛(未轉換的)$ Y $和$ X $之間的關係,該關係沒有用直線描述。
這是我的 2¢ s> 1.5¢。對我而言,最顯著的特徵是數據突然停止並在Y範圍的底部“聚積”。我確實看到了兩個(潛在)“簇”和一般的負關聯,但最顯著的特徵是(潛在的)底板效應以及頂部,低密度簇僅在X範圍的一部分上延伸的事實。
由於“簇”是模糊的雙變量正態,因此參數正態混合模型可能是有趣的嘗試。使用@Alexis的數據,我發現 三個 集群可以優化BIC。高密度的“地板效果”被選為第三類。代碼如下:
library(mclust)dframe = read.table(url(“ http://doyenne.com/personal/files/data .csv“),標頭= T,sep =”,“)mc = Mclust(dframe)summary(mc)#------------------------ ----------------------------#EM算法擬合的高斯有限混合模型#------------ ----------------------------------------##Mclust VVI(對角線,可變音量和形狀)模型包含3個組成部分:##log.likelihood n df BIC ICL#-614.4713 170 14 -1300.844 -1338.715##聚類表:#1 2 3#72 72 26
現在,我們可以從中推斷出什麼?我不認為 Mclust
僅僅是人為模式識別出了問題。 (鑑於我對散點圖的理解可能是正確的。)另一方面,毫無疑問,這是事後。我看到了我認為可能是有趣的模式,因此決定進行檢查。該算法確實找到了一些東西,但是後來我只檢查了我認為可能存在的東西,因此我的拇指肯定在秤上。有時可以設計出緩解這種情況的策略(請參閱@whuber的出色答案此處),但是我不知道在這種情況下如何進行這樣的處理。結果,我花了很多心思來得出這些結果(我經常做這種事情,以至於有人錯過了整個 shaker)。當我們下次見面時,確實為我提供了一些思考和與客戶討論的材料。這些數據是什麼?會產生地板效應是否有意義?可以有不同的群體有意義嗎?如果這些是真實的,那將是多麼有意義/令人驚訝/有趣/重要?是否存在獨立數據/我們是否可以方便地獲取它們以對這些可能性進行誠實的測試?等等
讓我描述一下我所看到的內容:
如果我們對$ y $的條件分佈感興趣(如果我們經常看到$ x $,則關注點集中在$ y $如IV和$ y $作為DV),那麼對於$ x \ leq 0.5 $,$ Y | x $的條件分佈看起來是雙峰的,具有較高的組(介於約70和125之間,均值略低於100)和較低的組(介於0和大約70之間,平均大約30左右)。在每個模態組中,與$ x $的關係幾乎持平。 (請參見下面的紅色和藍色線條,粗略地估計出我大概會感覺到的位置)
然後,通過查看這兩個組在$ X $中的密集程度,我們可以繼續再說一遍:
對於$ x>0.5 $,上層人群完全消失,這使$ x $的總體均值下降,而低於約0.2時,下層人群的密度遠低於其上方,因此總體平均水平較高。
在這兩種效果之間,它會導致兩者之間出現明顯的負(但非線性)關係,因為$ E(Y | X = x)$似乎相對於$ x $有所減少,但幅度較大,中心地區大部分平坦。 (請參見紫色虛線)
毫無疑問,知道$ Y $和$ X $是什麼很重要,因為這樣可能更清楚為什麼有條件的$ Y $的分佈在其大部分範圍內可能是雙峰的(實際上,甚至可能很明顯,確實有兩組,它們在$ X $中的分佈引起了在$ Y | x $中明顯減少的關係)。 >
這是我純粹基於“肉眼”檢查而看到的。在一些類似基本圖像處理程序(例如我畫過線的程序)的遊戲中,我們可以開始找出一些更準確的數字。如果我們對數據進行數字化處理(使用體面的工具非常簡單,有時甚至有些乏味,需要正確處理),那麼我們可以對這種印象進行更複雜的分析。
這種探索性分析可能會導致一些重要的問題(有時會令那些擁有數據但僅顯示圖表的人感到驚訝),但是我們必須謹慎對待這樣的模型選擇的範圍檢查-如果我們應用基於地塊外觀選擇的模型,然後在相同數據上估算這些模型,當我們在相同的模型上使用更正式的模型選擇和估算時,我們往往會遇到相同的問題數據。 [這完全不是要否認探索性分析的重要性-只是我們必須小心進行分析的後果,而不考慮我們如何進行分析。 ]
對Russ的評論的回應:
[稍後編輯:澄清一下-我大體上同意Russ的批評是作為一般預防措施,當然也有可能我所看到的不止於此。我計劃返回並編輯這些內容,以對我們通常用肉眼識別的虛假模式以及我們可能開始避免最嚴重情況的方式進行更廣泛的評論。我相信我也可以添加一些理由,說明為什麼我認為在這種特定情況下它可能不僅是虛假的(例如,通過回歸圖或0階內核平滑,儘管當然,缺少更多可用於測試的數據,到目前為止,可以做到;例如,如果我們的樣本沒有代表性,那麼即使重採樣也只能使我們走到現在。在這里和其他地方。
例如,當您查看殘差圖或QQ圖時,我建議做的一件事是生成許多已知情況的圖(無論是應該存在的情況還是在不成立假設的情況下) ),以明確應忽略多少模式。
這裡是一個示例,其中Q-Q圖放置在其他24個(滿足假設條件)中,以使我們看到該圖有多尋常。這種練習很重要,因為它可以幫助我們通過解釋每一個小小的擺動來避免愚弄自己,大多數都是簡單的雜音。
我經常指出,如果您能通過掩蓋幾點來改變印象,我們可能只依賴於噪聲所產生的印象。
[但是,當從很多點而不是很少點顯而易見時,很難維持它不存在的地方。]
在胡布答案中的顯示支持我的印象,即高斯模糊圖似乎在$ Y $中出現了相同的雙峰趨勢。
當我們沒有更多的數據要檢查時,我們至少可以查看印像是否傾向於重採樣(引導雙變量分佈並查看是否幾乎始終存在),或者其他處理方式
1)這是一種方法來查看表觀雙峰態是否不僅僅是偏度加噪聲-它是否出現在核密度估計中?如果我們在各種變換下繪製內核密度估計值,它仍然可見嗎?在這裡,我將其轉換為更大的對稱性,達到默認帶寬的85%(因為我們正在嘗試確定一個相對較小的模式,並且默認帶寬未針對該任務進行優化):
地塊為$ Y $,$ \ sqrt {Y} $和$ \ log(Y)$。垂直線分別為$ 68 $,$ \ sqrt {68} $和$ \ log(68)$。雙峰減少了,但仍然很明顯。由於在原始KDE中非常清楚,因此似乎可以確認它在那裡-第二和第三幅圖表明它至少對轉換具有一定的魯棒性。
2)這是另一種基本的觀察方法,它不僅可以查看“噪聲”:
步驟1:在Y上執行聚類
第2步:在$ X $上分成兩組,分別對這兩組進行聚類,看是否很相似。如果沒有任何進展,則不應該期望將這兩個半部分完全分割。
帶點的聚類與“全部合為一個”不同上圖中的“設置”群集。我待會再做一些,但似乎似乎確實在該位置附近可能存在水平“分裂”。
我將嘗試使用回歸圖或Nadaraya-Watson估計器(都在本地回歸函數的估計值$ E(Y | x)$。我還沒有生成,但是我們將看看它們的運行情況。我可能會排除數據很少的末端。
3)編輯:這是回歸圖,用於寬度為0.1的bin(不包括末端,如我之前所建議):
這與我對情節的原始印象完全一致;它不能證明我的推理是正確的,但是我的結論與回歸圖得出的結果相同。
如果我在情節中看到的內容以及由此產生的推理是虛假的,我可能不應該成功地像這樣辨別$ E(Y | x)$。
(接下來要嘗試的是Nadayara-Watson估計器,如果有時間,我可能會看到它在重採樣下的情況。)
4)稍後編輯:
Nadarya-Watson,高斯內核,帶寬0.15:
再次,這與我的最初印象令人驚訝地一致。以下是基於十個引導程序重採樣的NW估計量:
這裡有寬泛的模式,儘管其中有幾個重採樣並不很清楚地遵循基於整個數據。我們看到,左側水平的情況比右側水平的情況不確定-噪聲水平(部分是來自很少的觀察,部分是來自廣泛的傳播),因此很難斷言均值確實更高。比居中居左。
我的總體印像是,我可能並沒有簡單地自欺欺人,因為各個方面對各種挑戰(平滑,轉換,分成小組,重採樣)的適應性中等,如果這些挑戰會使他們難以理解,只是噪音。另一方面,跡象表明,雖然效果與我最初的印像大體上一致,但效果相對較弱,因此聲稱從左側向中央移動的期望發生任何實際變化可能太大了。
好的,伙計們,我跟隨亞歷克西斯(Alexis)的身分,並捕獲了數據。這是$ \ log y $與$ x $的關係圖。
以及相關性:
> cor.test(〜x + y,data = data)皮爾遜積矩相關數據:x和yt = -2.6311 ,df = 169,p值= 0.009298替代假設:真實相關性不等於095%置信區間:-0.33836844 -0.04977867樣本估計值:cor -0.1983692 > cor.test(〜x + log(y),數據=數據)Pearson的乘積矩相關數據:x和log(y)t = -2.8901,df = 169,p值= 0.004356替代假設:真實相關不等於095%置信區間:-0.35551268 -0.06920015樣本估計值:cor- 0.2170188
相關性測試確實表明可能存在負相關性。我仍然不相信任何雙峰態(但也不相信它不存在)。
[[我刪除了早期版本中的殘差圖,因為我忽略了@whuber試圖預測$ X | Y的觀點。美元。]
Russ Lenth想知道如果Y軸是對數的,圖形將如何顯示。 Alexis抓取了數據,因此很容易在對數軸上進行繪製:
在對數刻度上,沒有雙峰或趨勢的跡象。對數刻度是否有意義,當然取決於數據表示的細節。同樣,是否合理地認為數據代表從兩個總體中抽取的樣本取決於細節。
附錄:根據以下評論,這是修訂版:
p>
好吧,您是對的,關係很弱,但不為零。我想肯定。但是,不要猜測,只需運行簡單的線性回歸(OLS回歸)並找出答案!在那裡,您將得到xxx的斜率,該斜率告訴您關係是什麼。是的,您的確有可能使結果有偏差的異常值。可以解決。您可以使用Cook的距離或創建一個槓桿圖來估計異常值對該關係的影響。
祝你好運
通過查看X / Y數據點的方向及其散佈,您已經對問題提供了一些直覺。簡而言之,您是正確的。
在形式上,方向可以稱為 correlation符號,色散可以稱為 variance 。這兩個鏈接將為您提供有關如何解釋兩個變量之間的 linear 關係的更多信息。
這是家庭作業。因此,您的問題的答案很簡單。在X上對Y進行線性回歸,您將得到類似這樣的信息:
係數標準Er t StatC 53.14404163 6.522516463 8.147781908X -44.8798926 16.80565866 -2.670522684
因此,t統計量對X變量的置信度為99%時很重要。因此,您可以將變量聲明為具有某種關係。
它是線性的嗎?添加變量X2 =(X-mean(X))^ 2,然後再次回歸。
係數標準誤差53.46173893 6.58938281 8.11331508X -43.9503443 17.01532569 -2.582985779X2 -44.601130 114.1461801 -0.390736951
在X處的係數仍然很重要,但是X2不是。 X2代表非線性。因此,您聲明該關係似乎是線性的。
以上是針對家庭作業的。
在現實生活中,事情更加複雜。想像一下,這是關於一班學生的數據。 Y-臥推(以磅為單位),X-時間(以分鐘為單位),在臥推前屏住呼吸。我要問學生的性別。只是為了好玩,讓我們添加另一個變量Z,並假設所有Y<60的Z = 1(女孩),而Y> = 60時Z = 0(男孩)。使用三個變量運行回歸:
係數標準誤差t StatC 92.93031357 3.877092841 23.969071X -6.55246715 8.977138488 -0.72990599X2 -43.6291362 59.06955097 -0.738606194Z -63.3231270 2.960160265 -21.39179009
>發生了什麼事?! X和Y之間的“關係”消失了!哦,這似乎是由於混淆變量,性別
造成的。這個故事的寓意是什麼?您需要知道什麼數據才能“解釋”“關係”,甚至首先要建立關係。在這種情況下,當我被告知有關學生體育鍛煉的數據時,我會立即詢問他們的性別,甚至在不獲取性別變量的情況下也不會費心分析數據。另一方面,如果要求您“描述”散點圖,那麼一切都會進行。相關性,線性擬合等。對於您的家庭作業,上面的前兩個步驟應該足夠了:查看X的係數(關係),然後查看X ^ 2(線性)。確保刪除X變量的平均值(減去均值)。