-
-
Pythonで中心極限定理を可視化してイメージしよう
2022/5/6
今回は統計で習った中心極限定理をPythonで可視化してイメージしてみたいと思います。 統計学の教科書とかで中心極限定理の定義は習ってざっくりとどんなものかはわかるかもしれませんが、自分で手を動かして ...
-
-
【Pandas】aggとgroupbyで列単位で集計関数を適用する
2023/9/13
Pandasのデータフレームを操作するときに、各列に対して異なる集計関数を適用したいこともありますよね。 でも普通にデータフレームに対してmeanとかMaxなどを適用しても全数値列に対して適用されるだ ...
-
-
統計検定2級にCBTで合格したのでその勉強法と感想(2022/4)
2022/4/23
データサイエンティストという肩書で仕事をしているので、さすがに統計検定2級くらい取っておいた方がいいよなぁと思って1年くらい経ちました。 たまに先輩が統計の話をし始めると、ちょっと何言ってるかわからな ...
-
-
PySparkでgroupByによる集計処理と統計値の計算
2023/9/13
今回はPySparkでのgroupByによる集計処理を書いておきます。 集計は本当によくやる処理ですし、PySparkでももれなくSpark DataFrameの処理に使いますから、しっかりやっていき ...
-
-
PySparkでデータフレームの結合(join)
2023/9/13
データフレームの結合処理はPandasでもよくやりますよね。 PySparkでも結合処理は同じようにやることができますので、基本的な結合処理を確認しておきたいと思います。 ただし、僕の独断と偏見で、i ...
-
-
PySparkで条件による行の抽出操作〜filter
2025/1/18
条件による行の抽出操作はデータフレームを扱う時によくやることですよね。 今回はPySparkでSpark DataFrameの行を条件によって抽出する方法を紹介します。 ======== ...
-
-
PySparkのshowメソッドの行数指定と表示を省略しない方法
2023/9/13
PySparkでSpark DataFrameを表示したいときはshowメソッドを使うかと思いますが、普通にdf.show()みたいにやるだけですと、カラムの内容が省略されて表示されてしまいます。 内 ...
-
-
PySparkでデータフレームに列を追加する〜withColumn
2025/1/18
Pandasのデータフレームで列を追加することはよくあると思いますが、PySparkでも同様にSpark DataFrameに列を追加したいことがあると思います。 ================== ...
-
-
PySparkでCSVファイル出力とパーティション分け
2023/9/13
前回の記事ではPySparkでCSVファイルを読み込む方法をやりましたので、今回はCSVファイル出力をやりたいと思います。 ただし、ただCSVファイルに出力するだけでなく、PySparkらしく分散保存 ...
-
-
PySparkでCSVファイルの読み込み
2023/9/13
こんにちわ! 今回の記事ではPySparkでCSVファイルを読み込む方法を紹介したいと思います。 みんな大好きPandasではread_csvで読み込むことができますが、PySparkでも似たような感 ...