題:
在此圖中,$ Y $和$ X $之間是什麼關係?
PSS
2014-09-07 20:20:20 UTC
view on stackexchange narkive permalink

下圖中$ Y $和$ X $之間是什麼關係?在我看來,存在負線性關係,但是由於我們有很多異常值,因此該關係非常弱。是嗎?我想學習如何解釋散點圖。

enter image description here

什麼是$ X $?什麼是$ Y $?您產生什麼異常值?是什麼讓您認為它們不是真實的度量?理論是什麼?
謝謝你的評論。我只是在一本書中看到這個情節。Y是因變量,X是自變量。沒有理論。它繪製了一個散點圖以顯示給定x的Y的關係。書中有一個問題問是否存在任何關係,線性還是非線性?強還是弱?
這是[tasseography](http://en.wikipedia.org/wiki/Tasseography)中的一項練習。這在日間交易者中非常流行,他們稱其為[技術分析](http://en.wikipedia.org/wiki/Technical_analysis)。基本上,在不了解數據性質的情況下,這是徒勞的
@chl,您因向賞金者捐款而感到震驚=)
@Aksakal這取決於分析的目的。對於*得出推論*或*做出預測*我們在這裡可能會處於不穩定狀態,但是對於*描述*一批數據或-如本問題所述-*學習如何解釋(描述)散點圖* –這個練習可以完成很多工作。
@whuber,的問題是關於“關係”的。OP表示他想學習如何“解釋”情節,而不是“描述”。我看到解釋和描述之間有很大的不同。我認為,後者屬於探索性分析(EA),而前者則屬於EA。
@Aksakal統計語言通常更確切地理解“關係”:描述數字元組集。例如,相關係數描述了一種關係。根本變量之間的起源,性質或因果關係沒有任何暗示。我同意你的看法,通常對“解釋”的理解更為深刻,但是由於在問題中過分強調關係,所以我認為不要將“解釋”的字面意思推得太遠是很公平的。恕我直言,認為描述散點圖僅僅是閱讀茶葉太過分了。
@whuber,,我認為您應該向OP明確說明,您提供的內容在探索性分析的範圍內是可以的,而不是在推斷性上下文中可以。我不確定OP是否理解這種區別,否則他會更謹慎地對待問題中的語言。
@Aksakal謝謝您的建議。不過,在實施過程中,我可以使用您的更多幫助。您是在說我在這個主題中的答案並未明確表示它是探索性的嗎?鑑於一開始就非常強調EDA,並且其中的所有語言和結論都是關於* data *的,而不是關於任何基礎變量的,所以這很難理解。還是您建議我先前的評論中的某些內容可能會誤導我,我應該提供更正或澄清?
我的第一反應是該數據看起來像服務時間數據。也許服務器響應時間之類的。hist(Y)看起來呈對數正態分佈。
九 答案:
whuber
2014-09-07 22:19:19 UTC
view on stackexchange narkive permalink

該問題涉及幾個概念:如何評估僅以散點圖形式給出的數據,如何匯總散點圖以及關係是否(以及在何種程度上)看起來線性。讓我們對其進行排序。

評估圖形數據

使用探索性數據分析(EDA)原理。(至少在最初,它們是在開發時使用的) (適用於鉛筆和紙),強調簡單,易於計算,健壯的數據摘要。最簡單的一種匯總是基於一組數字中的位置,例如中間值,它描述了一個“典型”值。 容易從圖形中可靠地估計出中間值。

散點圖顯示成對的數字。每對中的第一對(如橫軸上所示)提供一組單個數字,我們可以分別對其進行總結。

在此特定散點圖中, y值似乎位於兩個幾乎完全獨立的組:頂部 $ 60 $ span>之上的值和等於或小於 $ 60 $的值 span>在底部。 (這種印象可以通過繪製y值的直方圖來確認,該圖很明顯是雙峰的,但是在此階段需要做很多工作。)我請懷疑論者在散點圖上起眼睛。當我使用散點圖中的點進行大半徑,伽馬校正的高斯模糊(即標準的快速圖像處理結果)時,我會看到:

Figure 0

兩組(上組和下組)非常明顯。 (上方的一組要比下方的一組輕得多,因為它包含的點要少得多。)

因此,讓我們分別總結y值的組。我將通過在兩組的中值處繪製水平線來做到這一點。為了強調數據的印象並顯示我們沒有進行任何類型的計算,我(a)刪除了所有裝飾,例如軸和網格線,並且(b)使點模糊。這樣,在圖形上“斜眼看”就丟失了有關數據中模式的很少信息:

Figure

類似地,我嘗試標記具有垂直線段的x值的中位數。在上一組(紅線)中,您可以通過計數斑點來檢查這些線確實將組分為水平和垂直兩個相等的兩半。在較低的組(藍線)中,我僅憑視覺估計位置,而沒有進行任何實際計數。

評估關係:回歸

交點是兩組的中心。 關於x和y值之間關係的一個很好的摘要是報告這些中心位置。然後,一個人希望通過描述每組中數據分散的數量來補充該摘要,左右,上下左右-圍繞它們的中心。為了簡潔起見,我在這裡不做這些,但是請注意,(大致)我繪製的線段的長度反映了每個組的總體分佈。

最後,我畫了一條(虛線)連接兩個中心。 這是一條合理的回歸線。這是對數據的良好描述嗎?當然不是:看看數據在這條線上的分佈程度。它甚至是線性的證據嗎?這幾乎沒有關係,因為線性描述太差了。但是,因為這是擺在我們面前的問題,所以讓我們解決這個問題。

評估線性度

從統計意義上來說,當 或y值圍繞線沿平衡隨機方式變化時,關係是線性

前者在這裡似乎並非如此:因為y值似乎分為兩組,所以它們的變化永遠不會在線的上方或下方大致對稱分佈的意義上,看起來平衡。 (這立即排除了將數據轉儲到線性回歸程序包中並對x執行y的最小二乘擬合的可能性:答案將無關緊要。)

x的變化如何?這更合理:在圖上的每個高度處,虛線周圍點的水平散點都非常平衡。在較低的高度(較低的y值)中,該散佈中的傳播似乎要大一些,但這也許是因為那裡還有更多的點。 (您擁有的隨機數據越多,它們的極值將越分散。)

此外,當我們從上到下進行掃描時,在回歸線周圍沒有水平散佈的地方嚴重失衡:這將是非線性的證據。 (好吧,也許在y = 50左右,可能會有太多的x值。這種微妙的效果可以作為進一步的證據,將數據分為y = 60值附近的兩組。)

結論

我們已經看到

  • 將x視為y的線性函數加上一些“不錯”的隨機變化是有道理的。

  • 將y視為x加隨機變化的線性函數不是

  • 回歸可以通過將數據分為一組高y值和一組低y值,使用中值找到兩組中心並連接這些中心來估算線。

  • 所得的線具有向下的斜率,表示線性關係。

  • 線性關係不大。

  • 儘管如此,由於行周圍x值的散佈仍然很大(與開始時x值的整體散佈相比),這種負線性關係為“非常弱”。

  • 將數據描述為形成兩個橢圓形的雲可能更為有用(一個用於60以上的y,另一個用於較低的y) y的值)。在每個雲中,x和y之間幾乎沒有可檢測的關係。雲的中心在(0.29,90)和(0.38,30)附近。這些雲具有可比的散佈,但是高層雲的數據要比較低雲的少得多(也許是20%)。

其中兩個結論證實了在雲計算中得出的結論。質疑自身存在弱的負面關係。其他的則補充並支持了這些結論。

在這個似乎沒有成立的問題中得出的一個結論是,斷言存在“異常值”。進行更仔細的檢查(如下圖所示)將不會出現任何單獨的點,甚至是很小的一組點,這些點或點可以有效地視為離群值。經過足夠長時間的分析後,可能會引起人們的注意,將注意力集中在右中角附近的兩個點或左下角的一個點,但是即使不考慮它們,也不會極大地改變人們對數據的評估


其他方向

還有更多話要說。下一步將是評估這些雲的傳播。使用此處顯示的相同技術,可以分別評估兩個雲中每個x和y之間的關係。可以評估甚至更低的雲的輕微不對稱性(似乎在最小的y值處出現更多數據),甚至可以通過重新表達y值進行調整(平方根可能會很好)。在此階段,尋找外圍數據將是有意義的,因為在這一點上,描述將包括有關典型數據值及其範圍的信息。異常值(根據定義)離中間值太遠,無法用觀察到的擴散量來解釋。

這項工作(相當定量)都不需要比找到中間值要多得多。分組數據並使用它們進行一些簡單的計算,因此即使數據只能以圖形形式提供,也可以快速而準確地完成。使用顯示系統(例如,硬拷貝和鉛筆:-),可以在幾秒鐘內輕鬆找到此處報告的每個結果(包括定量值),該顯示系統可以在圖形的頂部進行標記。 >

+1,從地塊上我確實想知道的一件事是是否存在地板效應。y值的底部似乎比我從簡單的雙變量法線中所期望的更多。
非常感謝您提供完整的答案。通過問這個問題我學到了很多東西:)
哇。我將永遠不會看到這兩個組和結果行。我對此表示懷疑。
@ whuber:請問您對我在以下鏈接中發布的散點圖的看法,無論它是線性的還是強弱的?並將回歸線與最低線進行比較。我感謝您的幫助。http://stats.stackexchange.com/questions/114397/what-is-the-effect-of-having-skewed-dependent-variable-on-scatterplot-result結果
@Russ我很高興聽到有人質疑這一探索,因為沒有EDA是唯一的或確定性的。我提供了另一張圖片,以幫助您了解我所看到的。我想邀請您發表一個答案,該答案同等或更簡化,並且具有描述性。
作為人類,我們非常傾向於尋找模式,甚至是那些不存在的模式。我認為,僅使用兩個獨立的RV(其中一個是傾斜的)來獲得一個像我們這裡這樣的散點圖是很合理的。我沒有任何證據,也沒有其他可供選擇的分析,只是說沒有關係或沒有關係的分析。是的,可能存在雙峰。如果可以進一步觀察該過程,我們可以看到發生了什麼。我只是認為我們需要保持謹慎,並意識到我們對可能虛假的模式做出反應的傾向。
我想知道Y是否是車輛eMPG,而排名第一的是電動汽車……還是其他比例。
@Russ您是正確的。需要經驗來避免過多地閱讀模式。我的經驗表明,使用150-200點很難隨機獲得我在y坐標中測得的強雙峰。如今,可以通過模擬輕鬆,快速地補充這種經驗:當您認為看到某種模式時,(1)對其進行定量表徵,(2)在根據更簡單的替代假設生成的隨機樣本中尋找它。如果圖案顯示得非常多,則可以怪罪您的視覺皮層,但否則您可能會發現一些東西。
(續)問題是基本的。EDA尋求簡單,簡約的數據描述,認識到在任何情況下都沒有完美的描述-這是一種理想的分析方法。在這種情況下,其原理非常有效。通過仔細檢查您稍後提出的建議,我發現了y分組:將y值重新表達為對數是否有幫助?由於雙峰性,答案是明確的。此外,即使控制x,兩組y值的印象仍然保持不變。這個例子說明了EDA不僅是人類主觀的模式構造。
在回顧了所有其他答案(以及您的聊天對話@Russ--and)之後,令我驚訝的是,您似乎反對該分析中最不重要的元素:我的建議“指向兩個y可能是有用的”組。無論您是否同意該觀點,其餘分析仍然成立。我使用的強大的探索性方法(相當於在雲中找到兩個典型點並在它們之間畫線)仍將對趨勢做出合理的估計。*其他任何結論*均不取決於y雙峰態的發現。
@whuber-我希望您向我們展示殘差圖,以便您合理估計趨勢。殘差與擬合的關係,可以按組單獨指定,也可以根據需要使用不同的符號表示。
@Russ執行此分析時,我只有圖像-並且在其中相信可以很好地看到殘差。既然有了數據,我邀請您查看我進行的兩次擬合的殘差:(1)相對於穿過點(0.29,90)和(0.38,30)(子彈)的** x **結論中的1和3);(2)對於x,當y> = 60時相對於*常數* 0.29,當y <60時相對於常數0.38(子彈點7)。擬合(2)幾乎一樣好,等腰殘差對稱地分佈在0附近。這些殘差*有*小趨勢:朝相反的方向!
好的,我在您的答案中添加了您要求的繪圖,顯示了擬合的輕微趨勢(1)。當$ Y $值本身在$(0,120)$範圍內變化時,看到殘差在$(-200,+ 200)$範圍內變化是令人不安的
@Russ謝謝。那不是我描述的殘差圖-x和y的作用相反。但是,它仍然提供信息。異方差是最引人注目的事情:它實際上似乎為兩類假說提供了支持(這將使異方差消失)。提醒您,我對這個假設一無所知。我在這裡編寫的所有內容都是本著對數據進行仔細,可靠描述的原始精神。*任何*單個曲線作為這些數據的描述將是原始的,可能還不能令人滿意。
通過查看第一個模糊的情節,我知道這是令人沮喪的。辛苦了想法:二維非參數直方圖可能會很好地將信息傳遞到大腦,以解釋比線條更多的圖片。
@Engr這是一個很好的建議。我試圖將分析範圍限制在僅可從散點圖圖像中輕鬆獲取的內容,因為這是OP可用的內容,而不是原始數據。有了手頭的數據,您還可以做更多的事情,您的建議將是自然而然的第一步。
如果可以刪除這些行,然後執行類似ifft2(fft2(a)。* fft2(a))的操作,則可能會發現該字段的一部分已翻譯。它將在圖像的2d互相關圖中創建一個較低的第二個峰值。看起來平移約為1.5-2.0網格間距。
Alexis
2014-09-08 00:04:17 UTC
view on stackexchange narkive permalink

讓我們玩得開心!

首先,我從圖片中刪除了數據。

然後,我使用一條平滑的運行線生成下面的黑色回歸線,其中虛線為95%的CI帶為灰色。下圖顯示了平滑範圍為數據一半的範圍,儘管更緊密的範圍或多或少地揭示了相同的關係。大約$ X = 0.4 $處的斜​​率略有變化,表明可以使用線性模型並在非線性最小二乘回歸(紅線)中添加$ X $的斜率的線性鉸鏈函數來近似這種關係:

$$ Y = \ beta_ {0} + \ beta_ {X} X + \ beta _ {\ text {c}} \ max \ left(X- \ theta,0 \ right)+ \ varepsilon $$

係數估計為:

$$ Y = 50.9 -37.7X -26.74436 \ max \ left(X-0.46,0 \ right)$$

我會請注意,儘管可重震的震顫器斷言沒有強線性關係,但鉸鏈項所隱含的與直線$ Y = 50.9-37.7X $的偏差與$ X $的斜率(即37.7)的階次相同,因此,我會不同意我們沒有看到強非線性關係(即是的,沒有強關係,但是非線性項與線性項一樣強)。

Play time with data

解釋
(我假設您只對$ Y $作為因變量感興趣。)$ Y $的值是$ X $的預測非常弱(調整後的$ R ^ {2} $ = 0.03)。關聯近似為線性,斜率略有下降,約為0.46。殘差在右側有些偏斜,可能是因為y是$ Y $值的下限。給定樣本量$ N = 170 $,我傾向於容忍違反常態。對$ X>0.5 $值的更多觀察將有助於確定斜率的變化是真實的還是在該範圍內$ Y $的方差減小的偽影。

$ \ ln(Y)$圖形:

(紅線只是ln(Y)在X上的線性回歸。)

Updated with graph per Russ Lenth's suggestion.

在評論中Russ Lenth寫道:“我只是想知道這是否如果您使$ \ log Y $與$ X $保持順暢,則將保持住。$ Y $的分佈向右傾斜。”這是一個很好的建議,因為$ \ log Y $轉換與$ X $的擬合也稍好一點,即$ Y $和$ X $之間的線的殘差分佈更對稱。但是,他建議的$ \ log(Y)$和我的$ X $線性鉸鏈都偏愛(未轉換的)$ Y $和$ X $之間的關係,該關係沒有用直線描述。

非常感謝:)感謝您抽出寶貴時間並在散點圖上使運行路線更流暢
我只是想知道,是否可以使$ \ log Y $與$ X $平滑?$ Y $的分佈偏向正確,我認為使該分佈更加對稱的變換看起來也不太像標誌性的空散點圖。
-1
亞歷克西斯(Alexis),在我們的回答中,我們都以未定義的方式使用“強”而感到內。在我的某些措辭中暗示了我的意思是“弱”,它的意思是表明與y值的散佈相比,斜率小。在這方面,我認為您的分析沒有得出任何不同的結論。我感到需要謹慎,因為,假設接受y的混合模型可能有好處,似乎在較高的組中x和y之間實際上可能存在弱的*正*關係,而在較低的組中沒有關係。
一路+1!@whuber您可以推荐一些技巧來正規化對$ Y $的雙峰性進行眼球調查嗎?(那是什麼有限混合模型?)
@whuber我同意有關“強”的觀點。我喜歡推翻實踐中的普遍偏見((翻新John Cleese在《生命的意義》中的一句話)強調線性關係的假設。但當然:這些是“弱”關係。:)
-1
Tukey的* EDA *書中的Alexis充滿了他們。有關更多的技術(具有更高的複雜性和數學依據),請參見Hoaglin,Mosteller和Tukey,*了解魯棒性和探索性數據分析*。
@Alexis,如果您不介意,您是如何抓取全部數據的?使用自動模式還是手動模式?
@rivu手冊。頂了10或15分鐘。首先使用指針放置每個點,然後使用箭頭鍵將其精確定位。
gung - Reinstate Monica
2014-09-08 08:42:34 UTC
view on stackexchange narkive permalink

這是我的 2¢ s> 1.5¢。對我而言,最顯著的特徵是數據突然停止並在Y範圍的底部“聚積”。我確實看到了兩個(潛在)“簇”和一般的負關聯,但最顯著的特徵是(潛在的)底板效應以及頂部,低密度簇僅在X範圍的一部分上延伸的事實。

由於“簇”是模糊的雙變量正態,因此參數正態混合模型可能是有趣的嘗試。使用@Alexis的數據,我發現 三個 集群可以優化BIC。高密度的“地板效果”被選為第三類。代碼如下:

  library(mclust)dframe = read.table(url(“ http://doyenne.com/personal/files/data .csv“),標頭= T,sep =”,“)mc = Mclust(dframe)summary(mc)#------------------------ ----------------------------#EM算法擬合的高斯有限混合模型#------------ ----------------------------------------##Mclust VVI(對角線,可變音量和形狀)模型包含3個組成部分:##log.likelihood n df BIC ICL#-614.4713 170 14 -1300.844 -1338.715##聚類表:#1 2 3#72 72 26  

enter image description here

現在,我們可以從中推斷出什麼?我不認為 Mclust 僅僅是人為模式識別出了問題。 (鑑於我對散點圖的理解可能是正確的。)另一方面,毫無疑問,這是事後。我看到了我認為可能是有趣的模式,因此決定進行檢查。該算法確實找到了一些東西,但是後來我只檢查了我認為可能存在的東西,因此我的拇指肯定在秤上。有時可以設計出緩解這種情況的策略(請參閱@whuber的出色答案此處),但是我不知道在這種情況下如何進行這樣的處理。結果,我花了很多心思來得出這些結果(我經常做這種事情,以至於有人錯過了整個 shaker)。當我們下次見面時,確實為我提供了一些思考和與客戶討論的材料。這些數據是什麼?會產生地板效應是否有意義?可以有不同的群體有意義嗎?如果這些是真實的,那將是多麼有意義/令人驚訝/有趣/重要?是否存在獨立數據/我們是否可以方便地獲取它們以對這些可能性進行誠實的測試?等等

+1指出探索性分析是如何自然導致有趣的*問題*的。我希望我在回答中更加強調了這一點。儘管我認為這會促使人們相信(此時)確實存在三個不同的組,但是聚類結果仍然提供了一種有效的方式,可以*看到* x和y之間存在負關係,並總結該關係。我被問到自動聚類在多大程度上可以作為一種普遍有用的探索性工具,前提是我們不願意過多地了解結果。
Glen_b
2014-09-08 05:11:27 UTC
view on stackexchange narkive permalink

讓我描述一下我所看到的內容:

如果我們對$ y $的條件分佈感興趣(如果我們經常看到$ x $,則關注點集中在$ y $如IV和$ y $作為DV),那麼對於$ x \ leq 0.5 $,$ Y | x $的條件分佈看起來是雙峰的,具有較高的組(介於約70和125之間,均值略低於100)和較低的組(介於0和大約70之間,平均大約30左右)。在每個模態組中,與$ x $的關係幾乎持平。 (請參見下面的紅色和藍色線條,粗略地估計出我大概會感覺到的位置)

然後,通過查看這兩個組在$ X $中的密集程度,我們可以繼續再說一遍:

對於$ x>0.5 $,上層人群完全消失,這使$ x $的總體均值下降,而低於約0.2時,下層人群的密度遠低於其上方,因此總體平均水平較高。

在這兩種效果之間,它會導致兩者之間出現明顯的負(但非線性)關係,因為$ E(Y | X = x)$似乎相對於$ x $有所減少,但幅度較大,中心地區大部分平坦。 (請參見紫色虛線)

enter image description here

毫無疑問,知道$ Y $和$ X $是什麼很重要,因為這樣可能更清楚為什麼有條件的$ Y $的分佈在其大部分範圍內可能是雙峰的(實際上,甚至可能很明顯,確實有兩組,它們在$ X $中的分佈引起了在$ Y | x $中明顯減少的關係)。 >

這是我純粹基於“肉眼”檢查而看到的。在一些類似基本圖像處理程序(例如我畫過線的程序)的遊戲中,我們可以開始找出一些更準確的數字。如果我們對數據進行數字化處理(使用體面的工具非常簡單,有時甚至有些乏味,需要正確處理),那麼我們可以對這種印象進行更複雜的分析。

這種探索性分析可能會導致一些重要的問題(有時會令那些擁有數據但僅顯示圖表的人感到驚訝),但是我們必須謹慎對待這樣的模型選擇的範圍檢查-如果我們應用基於地塊外觀選擇的模型,然後在相同數據上估算這些模型,當我們在相同的模型上使用更正式的模型選擇和估算時,我們往往會遇到相同的問題數據。 [這完全不是要否認探索性分析的重要性-只是我們必須小心進行分析的後果,而不考慮我們如何進行分析。 ]


對Russ的評論的回應:

[稍後編輯:澄清一下-我大體上同意Russ的批評是作為一般預防措施,當然也有可能我所看到的不止於此。我計劃返回並編輯這些內容,以對我們通常用肉眼識別的虛假模式以及我們可能開始避免最嚴重情況的方式進行更廣泛的評論。我相信我也可以添加一些理由,說明為什麼我認為在這種特定情況下它可能不僅是虛假的(例如,通過回歸圖或0階內核平滑,儘管當然,缺少更多可用於測試的數據,到目前為止,可以做到;例如,如果我們的樣本沒有代表性,那麼即使重採樣也只能使我們走到現在。在這里和其他地方。

例如,當您查看殘差圖或QQ圖時,我建議做的一件事是生成許多已知情況的圖(無論是應該存在的情況還是在不成立假設的情況下) ),以明確應忽略多少模式。

這裡是一個示例,其中Q-Q圖放置在其他24個(滿足假設條件)中,以使我們看到該圖有多尋常。這種練習很重要,因為它可以幫助我們通過解釋每一個小小的擺動來避免愚弄自己,大多數都是簡單的雜音。

我經常指出,如果您能通過掩蓋幾點來改變印象,我們可能只依賴於噪聲所產生的印象。

[但是,當從很多點而不是很少點顯而易見時,很難維持它不存在的地方。]

在胡布答案中的顯示支持我的印象,即高斯模糊圖似乎在$ Y $中出現了相同的雙峰趨勢。

當我們沒有更多的數據要檢查時,我們至少可以查看印像是否傾向於重採樣(引導雙變量分佈並查看是否幾乎始終存在),或者其他處理方式

1)這是一種方法來查看表觀雙峰態是否不僅僅是偏度加噪聲-它是否出現在核密度估計中?如果我們在各種變換下繪製內核密度估計值,它仍然可見嗎?在這裡,我將其轉換為更大的對稱性,達到默認帶寬的85%(因為我們正在嘗試確定一個相對較小的模式,並且默認帶寬未針對該任務進行優化):

enter image description here

地塊為$ Y $,$ \ sqrt {Y} $和$ \ log(Y)$。垂直線分別為$ 68 $,$ \ sqrt {68} $和$ \ log(68)$。雙峰減少了,但仍然很明顯。由於在原始KDE中非常清楚,因此似乎可以確認它在那裡-第二和第三幅圖表明它至少對轉換具有一定的魯棒性。

2)這是另一種基本的觀察方法,它不僅可以查看“噪聲”:

步驟1:在Y上執行聚類

enter image description here

第2步:在$ X $上分成兩組,分別對這兩組進行聚類,看是否很相似。如果沒有任何進展,則不應該期望將這兩個半部分完全分割。

enter image description here

帶點的聚類與“全部合為一個”不同上圖中的“設置”群集。我待會再做一些,但似乎似乎確實在該位置附近可能存在水平“分裂”。

我將嘗試使用回歸圖或Nadaraya-Watson估計器(都在本地回歸函數的估計值$ E(Y | x)$。我還沒有生成,但是我們將看看它們的運行情況。我可能會排除數據很少的末端。

3)編輯:這是回歸圖,用於寬度為0.1的bin(不包括末端,如我之前所建議):

enter image description here

這與我對情節的原始印象完全一致;它不能證明我的推理是正確的,但是我的結論與回歸圖得出的結果相同。

如果我在情節中看到的內容以及由此產生的推理是虛假的,我可能不應該成功地像這樣辨別$ E(Y | x)$。

(接下來要嘗試的是Nadayara-Watson估計器,如果有時間,我可能會看到它在重採樣下的情況。)

4)稍後編輯:

Nadarya-Watson,高斯內核,帶寬0.15:

enter image description here

再次,這與我的最初印象令人驚訝地一致。以下是基於十個引導程序重採樣的NW估計量:

enter image description here

這裡有寬泛的模式,儘管其中有幾個重採樣並不很清楚地遵循基於整個數據。我們看到,左側水平的情況比右側水平的情況不確定-噪聲水平(部分是來自很少的觀察,部分是來自廣泛的傳播),因此很難斷言均值確實更高。比居中居左。

我的總體印像是,我可能並沒有簡單地自欺欺人,因為各個方面對各種挑戰(平滑,轉換,分成小組,重採樣)的適應性中等,如果這些挑戰會使他們難以理解,只是噪音。另一方面,跡象表明,雖然效果與我最初的印像大體上一致,但效果相對較弱,因此聲稱從左側向中央移動的期望發生任何實際變化可能太大了。

我質疑了一個答案,但是我有信心說這是找到了不存在的東西
@RussLenth感謝您的回复(非常感謝)。您說的不是$ Y | x $中的雙峰索賠嗎?我所說的其他所有內容都直接源自此。
好吧,我對胡伯的回答作了更詳盡的評論。我只是認為,對於可能是虛假的模式,此答案會花更多的時間。我很好奇的是,看來這可能是一本教科書中的問題,我想知道背面或教師手冊中是否有答案。
我試圖推翻我的否決票,但我想我不能。僅僅因為我真的不同意您的回答,並不一定意味著它對討論沒有幫助。我不確定如何使用否決票,也並不意味著任何個人含義。
@Russ-對於我的答案實際存在缺陷的地方,這不是特別明確的,但是我已經做出了最好的猜測-我的回答過長,因此將其移至我的答案的底部。
@Russ不用擔心投票率下降,這並不重要,除了它表明我應該解決某些問題之外。了解為什麼我們不同意(就我們所做的事情而言)比擔心假冒的互聯網要點重要得多。您有一個值得討論的異議,而我很樂意為下一次簡短的討論付出十倍的反對票。如果您不同意,我鼓勵您每次反對時都對我投反對票。那是我學習一些東西的機會。
讓我們[繼續聊天中的討論](http://chat.stackexchange.com/rooms/16990/discussion-between-russ-lenth-and-glen-b)。
@RussLenth,您可以通過重新單擊否決票撤消否決票。如果您不確定您的投票在懸浮文本上的向下(或向上)箭頭位置,則會通知您。
您使用了哪種聚類算法?我什至都不用w-k-means,分層或DEBSCAN,因為我認為使用這種類型的群集將不起作用。我直接跳到GMM。
@gung有2個組的直接k均值,直接在Y上(因為我說的變量是“分組”)
+1我實際上做了很多這種分析,但不想過多地用這些結果來擴展我的答案。您以清晰,易讀且令人信服的形式展示了您的出色表現。另外我要做的一件事是使x相對於y回歸(實際上是平滑的)(儘管y的特徵是“從屬的”):我認為結果有助於以某種不可知的方式評估關係中的非線性應該被視為一組或兩組。
內核密度和(ahem)聚類研究雙峰的另一個+1。
Russ Lenth
2014-09-08 06:56:13 UTC
view on stackexchange narkive permalink

好的,伙計們,我跟隨亞歷克西斯(Alexis)的身分,並捕獲了數據。這是$ \ log y $與$ x $的關係圖。 plot of log(Y) vs. X

以及相關性:

  > cor.test(〜x + y,data = data)皮爾遜積矩相關數據:x和yt = -2.6311 ,df = 169,p值= 0.009298替代假設:真實相關性不等於095%置信區間:-0.33836844 -0.04977867樣本估計值:cor -0.1983692 > cor.test(〜x + log(y),數據=數據)Pearson的乘積矩相關數據:x和log(y)t = -2.8901,df = 169,p值= 0.004356替代假設:真實相關不等於095%置信區間:-0.35551268 -0.06920015樣本估計值:cor- 0.2170188  

相關性測試確實表明可能存在負相關性。我仍然不相信任何雙峰態(但也不相信它不存在)。

[[我刪除了早期版本中的殘差圖,因為我忽略了@whuber試圖預測$ X | Y的觀點。美元。]

順便說一句...我剛剛想到,將log(Y)變換作為從屬關係仍然等同於找到非線性關係...與殘差相比,log(Y)比我在其中使用的鉸鏈函數更好我的回答...但結論之一是相似的:$ Y $和$ X $之間的關係比$ Y = a + bX $具有更好的函數表達式。
謝謝您留下的殘留情節,拉斯。這不是要求,但我想指出的是,我發現感興趣的東西-也許對於探索GoF具有更大的價值-是** x **作為yy函數的關係*而不是這種方式。查看* x *殘差會提示一些迄今為止尚未提出的(可能有用的)問題,例如我們是否可以通過* x *的非線性重新表達來學習一些知識(是的,我們可以);無論兩人假說(是,再次)以及我的擬合的健壯性(非常健壯)如何,都可以說很多。
好吧,也許您想為此做殘差圖。我將繼續討論其他內容。
Harvey Motulsky
2014-09-08 07:00:41 UTC
view on stackexchange narkive permalink

Russ Lenth想知道如果Y軸是對數的,圖形將如何顯示。 Alexis抓取了數據,因此很容易在對數軸上進行繪製:

enter image description here

在對數刻度上,沒有雙峰或趨勢的跡象。對數刻度是否有意義,當然取決於數據表示的細節。同樣,是否合理地認為數據代表從兩個總體中抽取的樣本取決於細節。


附錄:根據以下評論,這是修訂版:

p>

enter image description here

我在Russ Lenth發布他的圖表後幾分鐘內發布了自己的圖表。我沒看過他,否則我不會貼我的。
我發現在估算中(線性線性)回歸結果與log($ Y $)相比更強。
該圖形展示了一個可視化選擇不佳的效果的有趣示例:通過縮小長寬比並將y軸擴展到所需的兩倍以上,該軟件會自動抑制任何垂直散射的視覺效果,使得觀眾很難看到任何東西。這就是為什麼一個好的探索,儘管以圖形表示為指導,但必須(a)使用*揭示*而不是抑制數據行為的合適的可視化方法,並且(b)進行額外的分析來支持它們(如@Glen_b's文章中所示))。
對於問題中的Y範圍,對數基數2將是更簡單的選擇,以使Y軸的值具有合理的範圍。它還會阻止上限範圍1和1,000的合適值與當前數據不符。
Helgi Guðmundsson
2014-09-07 20:51:38 UTC
view on stackexchange narkive permalink

好吧,您是對的,關係很弱,但不為零。我想肯定。但是,不要猜測,只需運行簡單的線性回歸(OLS回歸)並找出答案!在那裡,您將得到xxx的斜率,該斜率告訴您關係是什麼。是的,您的確有可能使結果有偏差的異常值。可以解決。您可以使用Cook的距離或創建一個槓桿圖來估計異常值對該關係的影響。

祝你好運

是什麼讓您認為它們是真實的異常值,而不是DGP是非線性的?
好吧,我想可能也是這種情況。但是很難說,這些點是如此分散。
為什麼要假設OLS具有線性關係?非參數回歸FTW!:)
@Alexis正確地強調了必須通過領域理論或模型檢查來證明諸如線性之類的假設是正確的。但是,我認為在沒有仔細考慮為什麼會出現這樣的值的情況下徹底刪除異常值是統計分析中非常常見的錯誤。
是的,沒有合理的理由(例如錯誤的價值)就無法刪除異常值。但是,轉換可以幫助調整價值的分佈,使其更合適,並減少異常值。是的,我同意,我認為在沒有正當理由的情況下刪除異常值是很普遍的。
@Glen_b已鏈接到我的答案中的.csv文件(單擊“數據”)。
@Alexis向您道歉。我錯過了它。
Robert Kubrick
2014-09-07 21:00:34 UTC
view on stackexchange narkive permalink

通過查看X / Y數據點的方向及其散佈,您已經對問題提供了一些直覺。簡而言之,您是正確的。

在形式上,方向可以稱為 correlation符號,色散可以稱為 variance 。這兩個鏈接將為您提供有關如何解釋兩個變量之間的 linear 關係的更多信息。

Aksakal
2014-09-10 21:16:01 UTC
view on stackexchange narkive permalink

這是家庭作業。因此,您的問題的答案很簡單。在X上對Y進行線性回歸,您將得到類似這樣的信息:

 係數標準Er t StatC 53.14404163 6.522516463 8.147781908X -44.8798926 16.80565866 -2.670522684  

因此,t統計量對X變量的置信度為99%時很重要。因此,您可以將變量聲明為具有某種關係。

它是線性的嗎?添加變量X2 =(X-mean(X))^ 2,然後再次回歸。

 係數標準誤差53.46173893 6.58938281 8.11331508X -43.9503443 17.01532569 -2.582985779X2 -44.601130 114.1461801 -0.390736951  

在X處的係數仍然很重要,但是X2不是。 X2代表非線性。因此,您聲明該關係似乎是線性的。

以上是針對家庭作業的。

在現實生活中,事情更加複雜。想像一下,這是關於一班學生的數據。 Y-臥推(以磅為單位),X-時間(以分鐘為單位),在臥推前屏住呼吸。我要問學生的性別。只是為了好玩,讓我們添加另一個變量Z,並假設所有Y<60的Z = 1(女孩),而Y> = 60時Z = 0(男孩)。使用三個變量運行回歸:

 係數標準誤差t StatC 92.93031357 3.877092841 23.969071X -6.55246715 8.977138488 -0.72990599X2 -43.6291362 59.06955097 -0.738606194Z -63.3231270 2.960160265 -21.39179009  > 

發生了什麼事?! X和Y之間的“關係”消失了!哦,這似乎是由於混淆變量,性別

造成的。

這個故事的寓意是什麼?您需要知道什麼數據才能“解釋”“關係”,甚至首先要建立關係。在這種情況下,當我被告知有關學生體育鍛煉的數據時,我會立即詢問他們的性別,甚至在不獲取性別變量的情況下也不會費心分析數據。另一方面,如果要求您“描述”散點圖,那麼一切都會進行。相關性,線性擬合等。對於您的家庭作業,上面的前兩個步驟應該足夠了:查看X的係數(關係),然後查看X ^ 2(線性)。確保刪除X變量的平均值(減去均值)。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...