Zeppelin 0.6發佈,原生支援SparkR

Zeppelin跟SparkR使用spark 1.5+的分析平台建置的時候我使用了Zeppelin-with-R這個變種去建制支援SparkR的環境,當時的Zeppelin的版本是0.5.6

前一陣子發現0.6的版本被放出來了,雖然還是開發中
https://github.com/apache/zeppelin/tree/branch-0.6
https://zeppelin.incubator.apache.org/docs/0.6.0-SNAPSHOT/

其中讓人高興的是Zeppelin-with-R被併進去現在原生可以使用SparkR了
不過目前SparkR的支援目前還是選擇性,必須在編譯的時候加入-Pr跟-Psparkr

mvn clean package -DskipTests -Dcheckstyle.skip -Pr -Psparkr -Pspark-1.6

其他要說有什麼重大改變

  • 就是這個版本開始支援使用者登入,開始有了User的概念

0.5.x:只有單ㄧuser而且不支援認證

0.6+:開始支援多個user跟認證機制

  • 對於interpreter的宣告統一 原本使用pyspark, sql等spark家族的功能的時候使用的事
    %pyspark
    %sql
    

現在則是統一成

%spark.pyspark
%spark.sql 
  • 原本notebook裏面包含dataframe物件的話會自動畫出圖表,0.6這個版本則不會

最後是讓我有點小失望的一點,他這版對於SparkR的繪圖變得會自動縮放圖形反而變得有點難控制
相關的設定或是interpreter新增可以參考spark/src/main/sparkr-resources/interpreter-setting.json

0.5.x

0.6

comments powered by Disqus