ダイナミックレポートの使用

ダイナミックレポートの使用

ダイナミックレポートはどこから始めるべきでしょうか?なぜ3種類のレポートセットがあり、どれを使用すべきなのでしょうか?「粒度」という概念を分解して理解すると役立ちます。

粒度とは何か?

一般的に、粒度とはデータ分析用語であり、基本的にデータを見る視点がどれだけ細かいか、あるいは大まかかを指します。ビジネス文脈では、ある製品の販売状況を見ている場合を考えてみてください。年間単位で販売数を見て前年比を確認することもできますが、さらに掘り下げて月単位、あるいは日単位で販売数を見ることも可能です。

In the context of this site, it means how closely we can analyze and filter NPB stats. There are three ‘layers’ of granularity you can choose from – Season, Game, and Plate Appearance (PA).
このサイトにおいては、NPBの統計データをどの程度細かく分析・フィルタリングできるかを意味します。選択可能な粒度は3つあります:シーズン、試合、打席(PA)です。

シーズン粒度

シーズン粒度レポートではデータを年・シーズン別に分析できるため、選手の年間パフォーマンスを素早く把握できます。ビジネス文脈で例えるなら「年度別売上高」レベルに相当します。これは入手データから最も離れた分析ですが、それでも多くの知見を得られます。選手属性別にデータを分析できます。例えば左打者全体の成績、捕手同士の比較、30歳未満選手の状況、さらには出身校別の選手成績なども確認可能です。

ここでできることの簡単な例をご紹介します。これはシーズン・シリーズ精度ーマルチ球団・選手成績からのものです。
左下を見ると、データの抽出(フィルタリング)方法がわかります。対象は2010年代の公式戦において、規定以上左打者全員です。その後、OPSと打点(ホームラン数でサイズ調整)でグラフ化し、最高のシーズンを送った選手を可視化しています。

外野手・筒香選手の2016年ベイスターズでのシーズン成績は、2010年代の左打者の中で最も高いOPSを記録した。一方、クレイグ・ブラゼルの2010年シーズンは最多打点を記録している。


ただし、シーズン粒度のレポートでは、特定の月における選手の成績や特定のチームとの対戦成績を確認することはできません。オールスター戦後や、月ごとの成績や、日ごとの成績を確認したい場合は、試合粒度のレポートを参照する必要があります。

試合粒度

試合粒度レポートは、データを試合固有の文脈ごとに分解して分析できることを意味します。これにより、データの可視化やフィルタリングに膨大な可能性が広がります。特定の月、曜日、対戦球団、球場ごとの全員のパフォーマンスを確認できるほか、特定の選手指標が達成された試合のみ(例:「本塁打が記録された試合のみ」)を抽出することも可能です。

以下は各試合精度ーマルチ球団・選手成績からのものです。今回は少しユニークな分析を行います。シーズン粒度でも適用可能なフィルターに加え、特定の試合データが必要な要素も追加しています。

以下のグラフは、2010年代のオールスター戦後の右投手を、防御率・自責点でプロットし、投球回数をサイズで表示したものです。なお上部に、オールスター戦後に最低60投球回を投球した投手のみを表示するチャート固有のフィルターを適用している点にもご留意ください。

巨人軍の菅野投手の2017年シーズンは、2010年代で最少の自責点と防御率を記録した。

打席粒度

データにさらに迫るため、試合内部に入り、特定の試合内状況でフィルタリングできます。打撃球団はチャンスがいる状況で最も素晴らしい投手は誰か?フルカウントでよく打つ打者は誰か?これらの疑問にここで答えられます。

以下では、打席精度ーマルチ球団・選手成績からのものです。
2016年から2024年までのシーズンを対象に、チャンスがある場合で最も多くの本塁打を打ち、最高のOPSを記録した選手を調査しています。

ヤクルトの村上選手は、2022年の三冠王シーズンにおいて、チャンスがある場合で最高のOPSと最多本塁打を記録した。

では、なぜ一部のレポートを使うのか?

答えは、何をしようとしているかによって異なります。基本的なシーズンの分析を行うだけなら、シーズン粒度のレポートが最も迅速かつ簡単に利用できます。何百選手同士を比較する場合、バックグラウンドでの数値処理が少なくて済むからです。
ただし、他にも理由があります。特に過去のシーズンを分析する場合に、この点がより重要になります。

以下は、引退した鳥谷敬選手に関する3段階の選手成績レポートです。

シーズン粒度
試合粒度
打席粒度

レポートの違いは、特定のデータポイントの利用可能性にある
まずはシーズン粒度と打席粒度の比較から始めよう。

最も明らかな点は、鳥谷選手が2004年シーズンから2021年までプレーしているにもかかわらず、打席粒度のレポートには2016年以降のデータしか表示されないことです。
打席レベルでは2016年以前のデータは参照できません。2016年以降のデータのみが利用可能です。

さらに、打席粒度固有の統計(例:得点圏、鳥谷選手に対する投手の成績など)がある一方で、シーズン粒度では存在する統計(得点、打点など)が欠けている点にもお気づきでしょう。
残念ながら、NPBのサイトが試合経過情報を提供する方式では、一部の統計データを確実に特定することができません。
しかし、当然のことながら、このレポートでは2016年以前のデータは表示されず、統計データが利用できない場合は単純に表示されないということで、使い方は簡単です。


次に、シーズン粒度と試合粒度を比較してみましょう。

これらのレポートは一見すると互いに非常に似ており、両方に同じ統計データ(得点、打点など)がすべて含まれていることがわかります。
ただし、すべての年にすべての利用可能な統計情報が存在するわけではありません

両レポートの「得点」欄に注目してください。シーズン粒度では毎年その情報が記載されており、鳥谷選手の通算得点は1,004となります。これは正しい数値であり、鳥谷選手の公式戦通算得点は1,004です。
ただし、試合粒度のレポートで2016年以前の得点データは入手できません。残念ながらNPBは2016年以前の情報を容易に入手可能にしていません。とはいえ、当該情報を保有している年次があるため、レポート上はこの列が表示されたままとなっています。

この欠落データの別の例は少し見つけにくい。
死球「DB」列を見てください。鳥谷選手に関しては2004年を除き、毎年同じデータがある。
2005年以前については、一部のデータが入手できません。

なぜ2005年か?それは新たに結成された楽天ゴールデンイーグルスと合併したオリックス・近鉄バファローズが初めてプレーしたシーズンであり、NPBは明らかにこの機会を利用して、それ以降より多くの統計データを提供し始めたためです。

つまり、2016年以前、特に2005年以前のシーズンを試合粒度で確認する際は注意が必要です。試合粒度レポートでは確かにその情報を閲覧できますが、場合によっては情報が不完全で、合計値や割合が誤解を招く可能性があります。
利用可能なテーブルの一部を確認し、年次データを展開して空白がないか確認することで、すべてのデータが存在するか検証してください。


以上です!何か不明な点がございましたら、お気軽にお問い合わせください。喜んでお手伝いいたします!