Pandasのgroupbyの使い方. Pandasを使っているとGroupbyな処理をしたくなることが増えてきます。ドキュメントを読んだりしながらよく使ったりする機能の骨格をまとめました。手っ取り早く勉強するなら、本が簡単そうです。 Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理作者: Wes McKinney,小林儀匡,鈴木 … Pandasの「groupby」は、同じグループのデータをまとめて、任意の関数(合計・平均など)を実行したい時に使用します。, 例えば、”商品毎”や”月別”の販売数を集計して売上の要因を分析するなど、データ分析でよく使うテクニックなので、ぜひ参考にしてください。, groupby関数の仕組みを図で説明します。まず、DataFrameのバラバラのデータ(りんご・ぶどう)を「グループ化」します。そして、任意の関数(以下の例はSUM)を実行し、適用した結果をDataFrameへ反映します。, 上記の例では合計(SUM)で説明しましたが、平均・標準偏差・最小値・最大値、あるいは自分で作成した関数を適用することも可能です。, 今回紹介するgroupbyの使い方一覧です。No.1〜No.4までを順に説明していきます。, この記事では以下のサンプルデータを使います。よろしければ、ダウンロードしてご利用ください。, また、GoogleColabへのサンプルデータ(Excelファイル)の読み込み方法については、以下の記事を参考にしてください。, それでは、「groupby」によるデータの個数を算出する方法から説明していきます。まずはExcelファイルを読み込んでください。, Pandasを使ってExcelファイルを読み込みます。インデックス(一番左の列)を見ると、0から364までの365日分のデータであることが分かります。, データの個数を集計する場合は、「groupby」と「count」を組み合わせます。”日付”の列にそれぞれの商品名の販売日数が表示されているのが分かります。, データの合計を集計する場合は、「groupby」と「sum」を組み合わせます。”販売数量”の列にそれぞれの商品名の販売合計が表示されているのが分かります。, 次に、販売数量を「月毎」で合計する方法について説明します。先ほど説明したとおり「groupby」と「sum」を組み合わせて算出します。売上データの要因分析でよく使うテクニックで覚えておくと便利です。以下の手順で説明します。, ”年月”で合計するために、まずは日付を”年月日”から”年月”に変換する必要があります。詳しくは、日付を変換する方法をご確認ください。, 「groupby」と「sum」を組み合わせて、年月(日付)毎に販売数量を合計します。”販売数量”の列に合計が表示されているのが分かります。, さらに、”年月毎”と”商品毎”で販売数量を合計する方法を説明します。”販売数量”の列に合計が表示されているのが分かります。データが多い(2020年4月〜2021年〜3月)ので、最初の10行だけ出力しています。, 次に、「groupby」を使った統計量の算出方法について説明します。まずは、平均の算出方法です。, 「groupby」と「mean」を組み合わせると、データの平均を算出します。販売数量の列に、それぞれの商品の平均販売数が表示されているのが分かります。, 「groupby」と「describe」を組み合わせると、主要な統計量(count・mean・std・min・25%・50%・75%・max)を一括して算出します。, Pandasの「groupby」は、データ内容を把握する上でとても重要なテクニックです。DataFrameのバラバラのデータを「グループ化」し、任意の関数を実行することでデータ内容を効率的に把握することができます。, ぜひ「groupby」の使い方をマスターして、データ分析にチャレンジしてください。最後まで読んでいただき、ありがとうございます。, 【Python】upper・lowerで大文字と小文字を変換|Pandasデータフレーム, 大学病院で教育に関わる仕事をしています。教職員一人ひとりに合った教育を提案できる仕組みをつくるため、人工知能(AI)のプログラミングが可能なPythonをはじめました。文系・ノンプログラマー向けにPythonの基本を分かりやすく解説します。, 次回のコメントで使用するためブラウザーに自分の名前、メールアドレス、サイトを保存する。. サンプル用のデータを適当に作る。 余談だが、本題に入る前に Pandas の二次元データ構造 DataFrame について軽く触れる。余談だが Pandas は列志向のデータ構造なので、データの作成は縦にカラムごとに行う。列ごとの処理は得意で速いが、行ごとの処理はイテレータ等を使って Python の世界で行うので遅くなる。 DataFrame には index と呼ばれる特殊なリストがある。上の例では、'city', 'food', 'price' のように各列を表す index と 0, 1, 2, 3, ...のように各行を表す index がある。また、各 index の要素を labe… By following users and tags, you can catch up information on technical fields that you are interested in as a whole, By "stocking" the articles you like, you can search right away.