朱莉婭有希望加入統計界嗎？

Christopher Aden

2012-04-02 03:56:09 UTC

view on stackexchange narkive permalink

我最近閱讀了R-Bloggers的一篇帖子，該帖子與John Myles White的此博客帖子相關，涉及一種稱為 Julia的新語言。 Julia利用即時編譯器的優勢，該編譯器可提供極佳的快速運行時間，並將其置於與C / C ++相同的速度量級（相同的 order ，但速度不一樣）。此外，它使用我們開始使用傳統語言進行編程的人們所熟悉的正統循環機制，而不是R的apply語句和向量運算。

R絲毫不會消失，即使來自Julia的如此出色的時機也是如此。它在行業中具有廣泛的支持，並且可以執行幾乎所有操作的眾多出色軟件包。

我的興趣本質上是貝葉斯（Bayesian），通常不可能進行矢量化。當然，串行任務必須使用循環來完成，並且每次迭代都需要大量的計算。在執行這些串行循環任務時，R可能會非常慢，並且C / ++並不是編寫程序的第一步。 Julia似乎是用C / ++編寫的一種很好的選擇，但是它還處於起步階段，並且缺少許多我喜歡R的功能。只有獲得足夠的支持，將Julia作為計算統計工作台來學習才有意義。來自統計界的人，人們開始為此編寫有用的軟件包。

我的問題如下：

Julia需要具有哪些功能才能使R成為統計事實語言？
學習朱莉婭（Julia）來執行繁重的計算任務，而不是學習像C / ++這樣的低級語言，有什麼優缺點？

朱莉婭（Julia）比Incanter（http://incanter.org/）和其他類似項目更好嗎？

重新構造程序（例如循環）：聽起來像是倒退了一大步。從單CPU和小型CPU平台到大規模並行平台，我們正處於風雲突變的時刻。隨著這種發展發生在未來十年左右的時間裡，與程序代碼相比，輕鬆，自動可並行化的編碼功能風格將獲得巨大的優勢。當然，在選擇統計平台時還需要考慮許多其他因素，但是作為長期策略，這一點值得牢記。

-1

克里斯托弗（Christopher），一個好的方法是以一種旨在徵求原因和證據的方式來構架問題。例如，不要嘗試“朱莉婭（Julia）有必要的誘惑力……”，而應嘗試類似“朱莉婭（Julia）”的哪些元素可能會使其獲得吸引力以及為什麼？而不是“值得學習”，而是問“為什麼朱莉婭現在值得學習？它的潛在優勢是什麼？”您可以通過指定您可能感興趣的* Julia *的用途來進一步完善該問題，例如軟件開發，解決一次性問題，生物統計學，數據挖掘等。

@Whuber:我感謝您的建議並已實施。謝謝！

克里斯托弗，做得好！（該問題的+1）。現在，我認為@naught可以為*不*成為CW做一個很好的例子，但我仍然同意chl的看法，即可能會出現多個好的答案-這已經非常明顯了， -因此更喜歡保持該線程的CW狀態。

@whuber:的問題似乎已經發生了很大變化。我現在對CW沒有很好的理由了:)

我對CW給我低質量答案的擔心是沒有根據的。我對到目前為止收到的回复非常滿意。

新設計面臨的最大障礙是舊設計以某種方式（或多或少有效地）維持了其最初意圖之外的另一種適應。朱莉婭（Julia）的最大競爭對手不是R。它更多是關於Hp計算對base-R的適應。在這裡，我想到了諸如“ compiler”軟件包之類的字節碼倡議。編譯器起步很慢，但最終它將趕上Javascript在非矢量化操作方面的速度，並在朱莉婭擁有多達R的代碼倉庫之前這樣做。結果可能會使R遠離優雅。 ...

@whuber,您能為我提供有關»“易於並自動並行化的編碼功能樣式”的更多信息嗎？作為在CUDA和MPI上苦苦掙扎的人，這聽起來很有趣！

@trolle3000很好，實用的參考書包括有關R的書籍（例如其創始人之一John Chambers撰寫的許多書籍）和* Mathematica *（支持多種編程範例，但支持函數式編程並在許多版本中提供自動並行化）通過“ Parallel *”命令以及最近的CUDA支持）。例如，請參閱http://mathematica.stackexchange.com/questions/1883。

@trolle3000:自動並行化是某些語言中的一項不錯的功能。例如，Matlab在統計工具箱中具有許多並行的功能。儘管許多並行化不會像CUDA那樣困難（明確），但仍需要付出一些努力。參見：http://cran.r-project.org/web/packages/doMC/index.html和http://docs.julialang.org/en/latest/manual/parallel-computing/

@ChristopherAden, @whuber;並行化不僅自動地擺脫了“某些語言” ...！例如，MATLAB的parfor命令將僅並行化一個已經令人尷尬的並行問題，就像C語言中的#omp pragma parfor一樣。我真正的問題是，函數編程在並行化方面的固有優勢是什麼？

顯然是“ #pragma omp parallel for”

@trolle3000我認為沒有人聲稱並行化是如此自動化。但是，當（如果）編寫了程序的功能版本時，您已經進行了許多並行化工作，這就是為什麼* Mathematica *之類的應用程序通常可以非常有效地自動化並行化的原因。相反，如果您以程序方式對算法進行編碼，則通常很難並行化它。

令我驚訝的是，當前有關“函數式編程”的討論似乎省略了諸如Haskell，Clojure和Scala之類的*真正的函數式語言。還要注意，命令性語言並發性不一定比FP差（例如Go）。

Julia剛推出了一個很棒的MCMC新包裝！你們應該檢查一下:) https://github.com/brian-j-smith/Mamba.jl

“開始使用傳統語言進行編程的我們所熟悉的正統循環機制，而不是R的apply語句和向量運算。”-我對這句話有疑問。您可能是指那些開始從事命令式編程的程序員。反正什麼是“傳統編程語言”？R的apply語句符合非常傳統的功能語言範例，並且類似於ML中的通用編程風格。兩種方法都至少有40年的歷史了。我在1990年代中期首次看到C ++ STL。“應用”與IT一樣具有傳統意義

-1

謝謝，@Colin。我相信您誤解了我的評論：我不認為我說過或暗示矢量化對於代碼“快速”是必需的。向量化有助於提高可伸縮性和極高的速度，因此向量化是將要應用於大問題的代碼的重要考慮因素。有趣的是，您聲稱Julia對未明確以矢量化形式編寫的代碼進行矢量化。如果是這樣，我們當然可以期望Julia中實現的許多算法都是快速且可擴展的。

-1

@Colin謝謝。正是在我理解您的評論的意義上，我不希望解釋器或編譯器會識別所有矢量化機會。

有人想補充說明一下“ apply”與“ foreach”有什麼區別，但主要是語法。

Update：

Julia現在支持缺少數據/ NA的DataFrame，模塊/命名空間，公式類型和 model.matrix 基礎結構，繪圖（排序），數據庫支持（但尚未提供給DataFrames）以及通過關鍵字傳遞參數。現在還提供一個IDE（Julia Studio），Windows支持，一些統計測試以及一些日期/時間支持。