Python

PySparkのshowメソッドの行数指定と表示を省略しない方法

PySparkでSpark DataFrameを表示したいときはshowメソッドを使うかと思いますが、普通にdf.show()みたいにやるだけですと、カラムの内容が省略されて表示されてしまいます。

内容を全てちゃんと確認したい時にはこれはやっかいですよね。

それに表示行数も指定したいでしょう。

というわけで、今回はshowメソッドでの行数指定と表示を省略しない方法を紹介します。

データサイエンティストとして3年間で3社経験した僕の転職体験談まとめ

こんにちわ、サトシです。33歳です。 今回は、データサイエンティストの3年間に3社で働いた僕が、データサイエンティストとしての転職活動についてまとめて書きたいと思います。 これまでSE→博士研究員→ポ ...

 

showメソッドで行数指定

まずは行数を指定する方法です。

こちらは簡単で、showメソッドのカッコの中に表示したい行数を入力すればOKです。

 

 

このようにすればちゃんと10行が表示されることがわかるかと思います。

 

 

ただし、このままでは、まだdescription列が省略されて表示されてしまっています。

ですので、次は省略しない方法です。

 

カラムの内容を省略せずに表示

カラム内容を省略しない場合は、行数指定のあとの第二引数にFalseと入れれば省略されずに表示されます。

この第二引数はtruncateを意味しており、Falseなら省略せず、Trueとすれば省略して表示します。

 

 

 
デフォルトはTrue設定です。

Falseとするだけでなく、truncate=Falseとした方がわかりやすいですね。

行数についてもn=10とすると、もっとわかりやすいです。

 

 
こんな感じでPySparkでshowでデータフレームを確認する時には、こちらの引数を気をつけてみてください。

 

PySparkの勉強法

もしPySparkをちゃんと学びたい方はUdemyのコースがおすすめです。日本語の書籍は古いやつしかないからです。。。

【Udemy】PySparkによる大規模データ処理手法と機械学習

英語でもよい方は英語のこのあたりがわかりやすいです。

おすすめ記事

1

こんにちわ、サトシです。33歳です。 今回は、データサイエンティストの3年間に3社で働いた僕が、データサイエンティストとしての転職活動についてまとめて書きたいと思います。 これまでSE→博士研究員→ポ ...

2

お疲れさまです! 久しぶりの更新になってしまいましたが、僕が未経験からデータサイエンティストになるまでの転職活動の全記録を書き残しておきたいと思います。 僕は博士号を取得後に研究員として仕事をしていま ...

3

こんにちわ、サトシです。 今回は、企業でデータサイエンティストとして働いていた僕が、フリーランスとしてどのような手順で独立していったかについて書いていきたいと思います。 僕はSIer SE→博士過程→ ...

-Python

Copyright© さとぶろぐ , 2024 All Rights Reserved Powered by AFFINGER5.