PySparkでSpark DataFrameを表示したいときはshowメソッドを使うかと思いますが、普通にdf.show()みたいにやるだけですと、カラムの内容が省略されて表示されてしまいます。
内容を全てちゃんと確認したい時にはこれはやっかいですよね。
それに表示行数も指定したいでしょう。
というわけで、今回はshowメソッドでの行数指定と表示を省略しない方法を紹介します。
-
データサイエンティストとして3年間で3社経験した僕の転職体験談まとめ
こんにちわ、サトシです。33歳です。 今回は、データサイエンティストの3年間に3社で働いた僕が、データサイエンティストとしての転職活動についてまとめて書きたいと思います。 これまでSE→博士研究員→ポ ...
showメソッドで行数指定
まずは行数を指定する方法です。
こちらは簡単で、showメソッドのカッコの中に表示したい行数を入力すればOKです。
1 |
df.show(10) |
このようにすればちゃんと10行が表示されることがわかるかと思います。
ただし、このままでは、まだdescription列が省略されて表示されてしまっています。
ですので、次は省略しない方法です。
カラムの内容を省略せずに表示
カラム内容を省略しない場合は、行数指定のあとの第二引数にFalseと入れれば省略されずに表示されます。
この第二引数はtruncateを意味しており、Falseなら省略せず、Trueとすれば省略して表示します。
1 2 |
df.show(10, False) #(n ,truncate) truncate=Falseにすると省略せずに全部表示する |
デフォルトはTrue設定です。
Falseとするだけでなく、truncate=Falseとした方がわかりやすいですね。
行数についてもn=10とすると、もっとわかりやすいです。
1 |
df.show(n=10, truncate=False) |
こんな感じでPySparkでshowでデータフレームを確認する時には、こちらの引数を気をつけてみてください。
PySparkの勉強法
もしPySparkをちゃんと学びたい方はUdemyのコースがおすすめです。日本語の書籍は古いやつしかないからです。。。
【Udemy】PySparkによる大規模データ処理手法と機械学習
英語でもよい方は英語のこのあたりがわかりやすいです。