Python

PySparkをJupyterLabで使おうーDocker Hubで簡単に環境設定

大規模データを処理するときにはSparkを使うことが多くなってきたのではないでしょうか。

Apache Sparkはいろいろなプログラミング言語をサポートしており、JavaやScala、RにPythonでも使うことができます。

データ分析をする上では今はPythonが一般的ですから、僕もPythonでSparkを使う、つまりPySparkを使おうとしたことがあります。

そのときどのように環境設定をしたかというとDocker HubのDocker imageを使うとすごく簡単に環境構築ができましたので、そのことを書いておきたいと思います。

もしこれからPySparkの環境構築をしたい、PySparkをJupyterLabやJupyter notebookで使いたいけれどどのように環境を作ったら良いかわからない、という方には参考になるかと思いますのでぜひ最後まで読んでいただけるとうれしいです!

 

Docker HubのPySpark Docker imageを使う

Docker Hub

Docker HubというのはいろいろなDocker imageを集めたDocker用のGithub的なものだと思っていただければOKです。
こちらのURLにアクセスするとこのようなサイトにログインできます。
https://hub.docker.com

右の方を見るとSign inとかありますが、こちらは全部無視してよく、上の検索窓に検索したDocker imageのキーワードを入れます。

今回はPysparkと入れてみると、Pyspark用のDocker imageが検索されますのでこれらは誰でも使うことができます。

おすすめは一番上の"jupyter/pyspark-notebook"です。シンプルに一番スターが多くダウンロード数も多いのでこれで良いかと思います。

使ってみても問題なしです。

 

"jupyter/pyspark-notebook" imageのpull

では、このjupyter/pyspark-notebookを使う方法は大きく二つあり、一つ目はDocker imageのPullです。

 command
docker pull jupyter/pyspark-notebook

こちらのコマンドでDocker pullができます。

するとこのようにpullができ、結果的にこのようにdocker imageが作られました。

 

 

Dockerfileを使ってビルドしたい場合

もしpullをしない場合はDockerfileというファイルを作って、そちらに下の一行だけ書いてビルドすればよいです。

from jupyter/pyspark-notebook

ビルドはこのようなコマンドでできます。

 command
docker build -t pyspark-image .

 

Docker runして使う

さて、これでDocker imageができたらあとはdocker runして使うだけです。

例えばこんな感じでdocker runします。

 command
docker run -it --rm -p 8888:8888 -v ${PWD}:/home/jovyan/work "image IDを入力"

このimageではdocker runすると自動でJupyteLabが使えるようになるので、画面に出るURLをコピーしてブラウザに貼り付けると、JupyterLabが起動して使えるようになります。

 

おすすめ記事

1

お疲れさまです! 久しぶりの更新になってしまいましたが、僕が未経験からデータサイエンティストになるまでの転職活動の全記録を書き残しておきたいと思います。 僕は博士号を取得後に研究員として仕事をしていま ...

2

こんにちわ、さとしです! 気がつけばこのデータサイエンティスト転職から、1年が経とうとしています。 今はご時世的に外にも出られず、変化があまりない生活を送ったせいもあってか、なんかあっという間に1年が ...

3

データサイエンティストに転職して1年が経ち、いろいろな業務を経験させてもらいつつ、自分でもある程度本を読んできました。 仕事の話は下記の記事で書きましたが、自分で読んだ本については書いていないのでこの ...

-Python

Copyright© さとぶろぐ , 2023 All Rights Reserved Powered by AFFINGER5.