今回はYouTubeのトレンディングデータを使用していきます。
このデータには、動画のタイトルやトレンドになった日の列があります。
サマリ・ビューから動画タイトルの一意の数を確認してみると、このデータの行数とは合っていないことがわかります。
つまり、同じ動画が複数回トレンドに載っている(重複している)ことになります。
まずは、重複しているデータがどういうデータなのか確認していきます。
動画タイトルの列ヘッダメニューから「フィルタ」を選び、「重複する行のみを残す」を選択します。
「重複する行のみを残す」のダイアログが表示され、列には動画タイトルが選択されているので、このまま実行します。
すると、重複している動画のみを残すことができました。
重複している動画を確認してみると、異なる日にトレンドに載っている動画と、同じ日にトレンドに載っている動画があるようです。
サマリ・ビューから動画タイトルの列を確認してみると、一意の数が5,469個とかなりの数の動画が重複していることになります。
重複しているデータの特徴が確認できたら、ステップを削除または無効化します。
それでは、重複した動画を取り除いていきましょう。
動画タイトルの列ヘッダメニューから「フィルタ」を選び、「重複する行を除く」を選択します。
「重複する行を除く」のダイアログが表示され、「評価の対象となる列」のデフォルトには「全ての列」が選ばれています。この場合、全ての列で値が重複している行があった場合取り除くことができます。
今回のように特定の列のみで重複している行を除きたい場合は、「評価の対象となる列」に「指定した列」を選択します。列には列ヘッダメニューから指定した「動画タイトル」の列が割り当てられているため、この状態で実行します。
これにより、重複している動画を取り除くことができました。
サマリ・ビューから動画タイトルの列を確認しみると、一意の数と行数が同じ13,085行(個)であることがわかります。
ところで、動画タイトルの重複をそのまま取り除いてよかったのでしょうか?
先程重複している動画を確認した際に、異なる日にトレンドに載っている動画と、同じ日にトレンドに載っている動画がありました。
異なる日にトレンドに載ることはあり得るが、同じ日にトレンドに複数回載ることはあり得ないのではないでしょうか?
何より、動画タイトルとトレンドになった日が重複している行を確認してみると視聴回数や高評価数なども完全に一致していることがわかります。
先程の動画タイトルだけで一意な行のみを残すでは、動画のタイトルが重複している行のうち最初の行のみを残してくれます。
そうではなく、今回は動画タイトルとトレンドになった日の2つの値が重複している行のみを取り除きたいです。
その場合、一意な行を残すの列に動画タイトルとトレンドに載った日の2つの列を選ぶことで、タイトル名とトレンドになった日が同じ行(動画)を取り除くことができます。
「重複する行を除く」のステップの中にある「トークン」をクリックします。
列にトレンドに載った日を追加して実行します。
これで、動画タイトルとトレンドに載った日が重複している行のみを取り除くことができました。
サマリ・ビューから動画タイトルの列の一意の数を確認してみると、いくつかの動画は異なる日にトレンドに載っていることがわかります。
重複したデータを確認するために行う、これだけを残すの重複している行を実行して確認してみると、確かに同じタイトル名でトレンドに載った日が同じデータは取り除かれています。