-
Qiitaの転職記事300本を自然言語処理して転職記事の傾向を調べてみた
2022/5/20
自然言語処理の技術は最近いろいろな場面で使われていますね。 僕は業務で自然言語を使うことが今までにほとんどなかったので、さすがにちょっと勉強してみないとなと思い、重い腰を上げてタイトルにもあるようにQ ...
-
Python/Scipyで母比率の信頼区間の計算をしよう(binom)
2022/5/6
今回は母比率の信頼区間推定をPythonでやってみたいと思います。 これまでに母平均の信頼区間推定の記事を書きましたが、母比率の方もやってみます。 母比率の信頼区間の復習 まずは母比率の ...
-
Python/Scipyで母平均の信頼区間を計算しよう(母分散:未知)
2022/5/6
今回は母平均の信頼区間推定(母分散:未知バージョン)をPythonでやってみたいと思います。 前回のこちらの記事では、母分散:既知でやりましたが、今回は未知のパターンになります。 母分散 ...
-
Python/Scipyで母平均の信頼区間を計算しよう(母分散:既知)
2022/5/6
今回も統計シリーズで母平均の信頼区間推定をPythonでやってみたいと思います。 Pythonのライブラリの中にScipyという科学計算に強いライブラリがあり、こちらを使うと簡単に区間推定ができます。 ...
-
Pythonで中心極限定理を可視化してイメージしよう
2022/5/6
今回は統計で習った中心極限定理をPythonで可視化してイメージしてみたいと思います。 統計学の教科書とかで中心極限定理の定義は習ってざっくりとどんなものかはわかるかもしれませんが、自分で手を動かして ...
-
【Pandas】aggとgroupbyで列単位で集計関数を適用する
2023/9/13
Pandasのデータフレームを操作するときに、各列に対して異なる集計関数を適用したいこともありますよね。 でも普通にデータフレームに対してmeanとかMaxなどを適用しても全数値列に対して適用されるだ ...
-
統計検定2級にCBTで合格したのでその勉強法と感想(2022/4)
2022/4/23
データサイエンティストという肩書で仕事をしているので、さすがに統計検定2級くらい取っておいた方がいいよなぁと思って1年くらい経ちました。 たまに先輩が統計の話をし始めると、ちょっと何言ってるかわからな ...
-
PySparkでgroupByによる集計処理と統計値の計算
2023/9/13
今回はPySparkでのgroupByによる集計処理を書いておきます。 集計は本当によくやる処理ですし、PySparkでももれなくSpark DataFrameの処理に使いますから、しっかりやっていき ...
-
PySparkでデータフレームの結合(join)
2023/9/13
データフレームの結合処理はPandasでもよくやりますよね。 PySparkでも結合処理は同じようにやることができますので、基本的な結合処理を確認しておきたいと思います。 ただし、僕の独断と偏見で、i ...
-
PySparkで条件による行の抽出操作〜filter
2023/9/13
条件による行の抽出操作はデータフレームを扱う時によくやることですよね。 今回はPySparkでSpark DataFrameの行を条件によって抽出する方法を紹介します。 filterで条 ...