一般化線形モデル(GLM)のポアソン分布は、カウントデータ(発生回数や件数)を分析する際に使用される統計手法です。通常の線形回帰では負の値や小数点を予測する可能性がありますが、ポアソン回帰では0以上の整数値のみを予測対象とします。これは顧客の購買回数、問い合わせ件数、事故発生件数など、カウントデータの特性に適した分析手法となります。
ポアソン分布の特徴として、平均値と分散が等しいという性質があります。例えば、1日あたりの問い合わせ件数が平均2件の場合、その分散も2となることが期待されます。ただし、実際のデータではこの仮定が成り立たないことも多く(過分散)、その場合は負の二項分布などの代替モデルの使用を検討する必要があります。
GLMのポアソン分布は、対数リンク関数を使用して説明変数と目的変数の関係をモデル化します。これにより、予測値が必ず正の値となり、カウントデータの性質と整合性のある予測が可能となります。また、複数の説明変数の影響を同時に評価でき、それぞれの変数がどの程度目的変数に影響を与えているかを定量的に把握することができます。
GLMのポアソン分布は、イベントの発生回数や件数を分析する際に特に有用です。例えば、コールセンターでの問い合わせ件数の予測と要因分析では、オペレーターの経験年数や顧客の属性、時間帯などがどのように問い合わせ回数に影響するかを分析できます。また、eコマースサイトでの購買回数分析では、会員ステータスやキャンペーンの効果、顧客属性などが購買頻度にどう影響するかを評価できます。医療分野では、患者の入院回数や特定の症状の発生頻度などの分析に活用できます。
参考となるデータ例:
コールセンター業界での使い方
小売業界での使い方
マーケティング担当者での使い方
品質管理担当者での使い方
今回は「コールセンターの問合せデータ」を使用します。データはこちらからダウンロードが可能となっています。
このデータは各問い合わせ案件が1行を構成し、列には「オペレーター経験年数」「待ち時間_分」「緊急度」「対応満足度」といったデータがあります。
GLM - ポアソン分布を作るためには、以下のようなデータの構造が必要となります。
コールセンターの問合せデータから「アナリティクス・ビュー」を開きます。
タイプに「一般化線形モデル」を選び、「GLM - ポアソン分布」を選択します。
目的変数には「解決までの問合せ回数」の列を割り当てます。
予測変数には、「受付時間帯」から「コールバック要求数」の列を選択して割り当てます。
最後に、「実行」ボタンをクリックして実行結果を確認します。
GLM - ポアソン分布では、解決までの問合せ回数を予測するために各変数の影響度を解釈するために以下のタブがあります。
「多重共線性」タブをクリックすると、予測変数間の相関が強すぎる(VIF > 10)組み合わせがないかを確認できます。VIFが10以上の変数がある場合、モデルの信頼性に影響を与える(傾きが不安定になる)可能性があるため、変数の選択を見直す必要があります。
今回の結果は、VIFが10以上のものはないため、予測変数同士に相関が強すぎる変数の組み合わせがないため、モデルが不安定であることはないことがわかります。
「変数重要度」タブをクリックすると、目的変数を予測する上でどの変数が重要なのかを確認することができます。
この結果から、解決までの問い合わせ回数の予測に最も重要な変数はオペレーター経験年数であり、次いで曜日、緊急度の順となっていることがわかります。
「影響度」タブでは、各予測変数が製造時間に与える影響の方向と強さを確認することができます。
例えば、オペレーター経験年数が上がると、解決までの問い合わせ回数も減ることが確認出来ます。
また、曜日が月曜日の場合は、他に比べて解決までの問い合わせ回数が多いことがわかります。
「係数」タブでは、各予測変数の係数とその統計的有意性を確認することができます。
この結果から、各変数の効果の大きさを数値で確認できます。また、P値が0.05未満の変数は、統計的に有意な影響を持っていると判断できます。
例えば、曜日がベースレベルである木曜日から月曜日になると、発生率比が1.414のため解決までの問い合わせ回数が1.414倍になる傾向があると解釈が出来ます。P値も0.0001未満のため、統計的に有意な関係があると判断が出来ます。
オペレーターの経験年数の発生率比0.897は、経験年数が1年増えるごとに問い合わせ回数が約10.3%(1 - 0.897 = 0.103)減少することを意味します。P値も0.0001未満のため、統計的に有意な関係があると判断が出来ます。
「サマリ」タブをクリックすると、モデル全体の予測精度を確認することができます。
逸脱度の減少率
モデルがデータをどれだけ上手く説明できているかを示す指標です。値が大きいほど、モデルの説明力が高いことを意味します。
逸脱度減少率=Nullモデルの逸脱度−残差逸脱度Nullモデルの逸脱度×100 = 100逸脱度減少率=Nullモデルの逸脱度Nullモデルの逸脱度−残差逸脱度×100
基準値:
今回の場合は以下のように計算ができ、45.68%の減少は、予測変数を加えることでモデルの説明力が大きく向上したことを示しています。
((730.455374754066 - 396.731317175746) / 730.455374754066) * 100 = 45.68%
GLM - ポアソン分布は、コールセンターの問い合わせ回数のような離散的なカウントデータの分析に適した手法です。今回の分析では、オペレーター経験年数や曜日、緊急度などが問い合わせ回数に有意な影響を与えていることが明らかになりました。これらの知見は、オペレーターの配置最適化や、曜日別の対応体制の調整など、具体的な業務改善施策の立案に活用できます。