マッサン

Python

Pythonで中心極限定理を可視化してイメージしよう

2022/5/6  

今回は統計で習った中心極限定理をPythonで可視化してイメージしてみたいと思います。 統計学の教科書とかで中心極限定理の定義は習ってざっくりとどんなものかはわかるかもしれませんが、自分で手を動かして ...

Python

【Pandas】aggとgroupbyで列単位で集計関数を適用する

2023/9/13  

Pandasのデータフレームを操作するときに、各列に対して異なる集計関数を適用したいこともありますよね。 でも普通にデータフレームに対してmeanとかMaxなどを適用しても全数値列に対して適用されるだ ...

データ分析

統計検定2級にCBTで合格したのでその勉強法と感想(2022/4)

2022/4/23  

データサイエンティストという肩書で仕事をしているので、さすがに統計検定2級くらい取っておいた方がいいよなぁと思って1年くらい経ちました。 たまに先輩が統計の話をし始めると、ちょっと何言ってるかわからな ...

Python

PySparkでgroupByによる集計処理と統計値の計算

2023/9/13  

今回はPySparkでのgroupByによる集計処理を書いておきます。 集計は本当によくやる処理ですし、PySparkでももれなくSpark DataFrameの処理に使いますから、しっかりやっていき ...

Python

PySparkでデータフレームの結合(join)

2023/9/13  

データフレームの結合処理はPandasでもよくやりますよね。 PySparkでも結合処理は同じようにやることができますので、基本的な結合処理を確認しておきたいと思います。 ただし、僕の独断と偏見で、i ...

Python

PySparkで条件による行の抽出操作〜filter

2025/1/18  

条件による行の抽出操作はデータフレームを扱う時によくやることですよね。 今回はPySparkでSpark DataFrameの行を条件によって抽出する方法を紹介します。   ======== ...

Python

PySparkのshowメソッドの行数指定と表示を省略しない方法

2023/9/13  

PySparkでSpark DataFrameを表示したいときはshowメソッドを使うかと思いますが、普通にdf.show()みたいにやるだけですと、カラムの内容が省略されて表示されてしまいます。 内 ...

Python

PySparkでデータフレームに列を追加する〜withColumn

2025/1/18  

Pandasのデータフレームで列を追加することはよくあると思いますが、PySparkでも同様にSpark DataFrameに列を追加したいことがあると思います。 ================== ...

Python

PySparkでCSVファイル出力とパーティション分け

2023/9/13  

前回の記事ではPySparkでCSVファイルを読み込む方法をやりましたので、今回はCSVファイル出力をやりたいと思います。 ただし、ただCSVファイルに出力するだけでなく、PySparkらしく分散保存 ...

Python

PySparkでCSVファイルの読み込み

2023/9/13  

こんにちわ! 今回の記事ではPySparkでCSVファイルを読み込む方法を紹介したいと思います。 みんな大好きPandasではread_csvで読み込むことができますが、PySparkでも似たような感 ...