PySparkでSpark DataFrameを表示したいときはshowメソッドを使うかと思いますが、普通にdf.show()みたいにやるだけですと、カラムの内容が省略されて表示されてしまいます。
内容を全てちゃんと確認したい時にはこれはやっかいですよね。
それに表示行数も指定したいでしょう。
というわけで、今回はshowメソッドでの行数指定と表示を省略しない方法を紹介します。
showメソッドで行数指定
まずは行数を指定する方法です。
こちらは簡単で、showメソッドのカッコの中に表示したい行数を入力すればOKです。
1 |
df.show(10) |
このようにすればちゃんと10行が表示されることがわかるかと思います。
ただし、このままでは、まだdescription列が省略されて表示されてしまっています。
ですので、次は省略しない方法です。
カラムの内容を省略せずに表示
カラム内容を省略しない場合は、行数指定のあとの第二引数にFalseと入れれば省略されずに表示されます。
この第二引数はtruncateを意味しており、Falseなら省略せず、Trueとすれば省略して表示します。
1 2 |
df.show(10, False) #(n ,truncate) truncate=Falseにすると省略せずに全部表示する |
デフォルトはTrue設定です。
Falseとするだけでなく、truncate=Falseとした方がわかりやすいですね。
行数についてもn=10とすると、もっとわかりやすいです。
1 |
df.show(n=10, truncate=False) |
こんな感じでPySparkでshowでデータフレームを確認する時には、こちらの引数を気をつけてみてください。