さとぶろぐ

データサイエンスを中心とした雑記ブログ

Pandas Transformメソッドの基本：group byしたいけどレコードは減らしたくない

2025年4月3日

transform()メソッドは、グループごとの計算を行いつつ、その結果を元のデータフレームに統合してくれます。

といってもわかりづらいので、transform()メソッドの挙動を見ていきましょう。

このメソッドは、あるグループごとの統計量を計算し、その結果を元のデータセットに適用するために使用されます。

例えば、以下のコードでは、カテゴリごとに列の平均値を計算し、新しい列'Mean'に結果を格納しています。
注目すべきはレコードが減っていないところです。カテゴリごとに平均してその結果を結合した形になっています。

import pandas as pd
data = {'Category': ['A', 'B', 'A', 'B', 'A'], 'Value': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)
df

1

2

3

4

import pandas as pd

data = {'Category': ['A', 'B', 'A', 'B', 'A'], 'Value': [10, 20, 30, 40, 50]}

df = pd.DataFrame(data)

df

df['MEAN'] = df.groupby('Category')['Value'].transform('mean')
df

1 2	df['MEAN'] = df.groupby('Category')['Value'].transform('mean') df

df['MAX'] = df.groupby('Category')['Value'].transform('max')
df['MIN'] = df.groupby('Category')['Value'].transform('min')
df['SUM'] = df.groupby('Category')['Value'].transform('sum')
df

1

2

3

4

df['MAX'] = df.groupby('Category')['Value'].transform('max')

df['MIN'] = df.groupby('Category')['Value'].transform('min')

df['SUM'] = df.groupby('Category')['Value'].transform('sum')

df

======================================================
さらにデータサイエンスを学んでいきたいという方向けに「Pythonによるデータサイエンス」動画を提供しています。
基礎編・応用編それぞれ35時間以上の動画となっており、今なら50%OFFですので、ぜひチェックしてみてください！
>>>Pythonによるデータサイエンス基礎編
>>>Pythonによるデータサイエンス応用編

関連記事

: Python

Python/Scipyで母平均の信頼区間を計算しよう（母分散：既知）

今回も統計シリーズで母平均の信頼区間推定をPythonでやってみたいと思います。 Pythonのライブラリの中にScipyという科学計算に強いライブラリがあり、こちらを使うと簡単に区間推定ができます。 ...

: Python

PythonとPlotly Expressでアニメーション付きのコロプレス図（階級区分図）を作ろう〜新型コロナ感染者数推移

GISデータを扱っていると地図上にマッピングして、どの地域がどんな感じになっているか視覚的にみたい事はよくあるかと思います。そんなときに便利なのかコロプレス図（階級区分図）と呼ばれるものです。名前 ...

: Python

Pandasでの時系列データの欠損埋め：interpolateの使い方

時系列データのデータセットでは欠損値（ギャップ）がしばしば発生することがあります。これらのギャップを適切に処理しないと、データ分析やモデルの予測精度に悪影響を及ぼす可能性がありますから、こうしたギャ ...

: Python

Python/Scipyで母比率の信頼区間の計算をしよう（binom）

今回は母比率の信頼区間推定をPythonでやってみたいと思います。これまでに母平均の信頼区間推定の記事を書きましたが、母比率の方もやってみます。母比率の信頼区間の復習まずは母比率の ...

: Python

PySparkのshowメソッドの行数指定と表示を省略しない方法

PySparkでSpark DataFrameを表示したいときはshowメソッドを使うかと思いますが、普通にdf.show()みたいにやるだけですと、カラムの内容が省略されて表示されてしまいます。内 ...

Pythonを勉強するべき？それともExcelで十分？データ分析ツールの選択について考える

Pandasでの時系列データの欠損埋め：interpolateの使い方

管理人の紹介

サトシ

SE→博士→研究者→データサイエンティスト（会社員）→フリーランス → 株式会社Mikage設立

✅ Udemy講師（受講者約2万人）

✅ 企業・自治体様向けのAI活用研修などのお仕事も承っています。こちらの「お問い合わせ/お仕事の依頼」よりお気軽にご連絡ください。
お問い合わせ/お仕事のご依頼

※当ブログではアフィリエイト・Google AdSense等による広告を掲載しています

Udemyでの学習動画

✅オンライン学習プラットフォームUdemyにて学習動画を公開しています。

✅公式LINEやってます！
ご登録はコチラ ▶ https://lin.ee/4gsWB1vJ

✅公式LINE登録者限定特典あり！
1. Udemy全講座のスライドが見れる！
2. Udemy講座を格安で購入できるクーポンをいつでも使える！

＜リリース済みコース抜粋＞
・Pythonによる時系列分析~機械学習・ディープラーニング編
・Pythonによる異常検知
・PySparkによる大規模データ処理手法と機械学習
・初めての画像分類モデル開発
・SQLによるマーケティングデータ分析
・SnowflakeによるML/AI活用
・Snowflakeによるデータエンジニアリングの基礎
・Google GeminiとGoogle Workspaceによる業務効率化
他、20講座以上

記事の検索

おすすめ記事

1: 個別スクール：Pythonによるデータサイエンス・AI開発（基礎編）

このオンライン講座について概要本講座は「Pythonによるデータサイエンス/AI開発マスターコース」の基礎編ということで、データサイエンスの様々な基本トピックに取り組みます。データサイエンスと一口 ...

2: 個別スクール：Pythonによるデータサイエンス・AI開発（応用編）

このオンライン講座について概要本講座は「データサイエンス/AI開発マスターコース」の応用編ということで、統計・機械学習・ディープラーニングの基礎を既に身につけた方が、より複雑なビジネス課題や高度な ...

3: 個別スクール：SQLによるデータ分析マスターコース

このオンライン講座について概要本講座は「SQLによるデータ分析マスターコース」ということで、ローカル環境でのPostgresQLを使用したデータベース操作に始まり、AWSの代表的なデータ分析サービ ...