Exploratory Hour #6 - 結合先にあるデータのみにフィルタする

このトピックは2019/7/16のExploratory Hourで放送されたものです。

例えば、2つのデータフレームがあり、メインのデータフレームは1行1注文の注文詳細のデータがあります。

そして、もう一つのデータフレームは優良顧客のデータで、1行に一人の顧客のデータとなっています。

もちろんその優良顧客データには、注文の詳細はなく、顧客のIDや名前などの顧客情報しかありません。

そして、優良顧客はどういった商品を購入しているのか知りたい時に、優良顧客以外のデータを除いてデータを見たい時があります。

そんな時に使えるのが、セミ結合(Semi Join)です。

セミ結合では、結合先に存在するデータのみを残すことができるます。

そのため、メインのデータフレームの注文データで、優良顧客の人のみのデータを残すことができます。これにより、優良顧客の人たちがどういった商品を購入しているのかを分析していくことができます。

使用方法は下記の動画をご覧ください。

ビデオ

ノート