大好きなペットがYoutuberになったら

第8回 EDA Salon - YouTube

意見等は個人的な見解であり、何か特定のものを非難したりするものではありません。

目的

日本でYouTubeのペットチャンネルを開設したら人気者になれるかを可視化する。

動機

もし自分が参入するならば、、、

データ

EDA Salon 第8回(2020年1月)のデータ「YouTubeのトレンディングデータ」

やってみた

変数に当たりをつける

トレンドデータというくらいなので、「早くトレンドになれば、人気者になれる!」と単純に考えました。

まずはデータを見てみます。

いろんなチャンネル・動画があるんだなぁという感想でした。

各チャンネルにどのような特徴があるのか見るために、「channel_title(チャンネル名)」「title(タイトル)」「publish_time(投稿日時)」「trending_date(トレンドになった日)」でグループ化しました。

前回、チャートばかり見ていて色々と抜けていたので、まずはデータを見ようと思いました。

しかし、重複するデータがたくさんあることに気が付きました。

下は、ピボットテーブルです(データをグループ化した方が見やすいかと思います)。

Loading...

なので重複するデータ(行)を削除して、トレンドの傾向(トレンドの一意の数)をバーチャートで可視化してみます。

Loading...

なぜトレンドになった日がこんなに偏っているのかよくわかりません。

そして「publish_time」がUTCだったので、「trending_date」もUTCか確認もしてみたかったので調べてみることにしました。

Kaggleを見たのですがよくわかりませんでした。

そもそもトレンドとはなんなのかもよくわからなかったのでYouTubeのヘルプで調べてみました。

分かったような、分からないような。。。

これからは色々と想像を織り交ぜて進めていきます。

「trending_date」もUTCでの日付とします。

そこで、各国のトレンド数を見てみます。

トレンドになる頻度を考慮しようと思い、完全に同じ行は削除して、同じ動画でもトレンドになった日が違う行は残しています。

Loading...

アメリカのトレンド数が多いですね。

次に、日本とアメリカのトレンドに占めるカテゴリーの割合を見てみます。

Loading...

これは、トレンドへのなりやすさと考えられます。

「Entertainment」「People&Blogs」が多いですね。

これらが多いのは、「視聴者がYouTubeに求めているものは“娯楽”である」ということかなぁ、と思いました。

それだけ投稿動画数も多く競争が激しいのか、そもそも視聴数が多くてトレンドになりやすいのか。。。

ペット市場は低いような気がしてきました。

トレンドになる早さ(投稿日とトレンドになった日から算出)がコメント数、高評価、低評価、視聴数とどのような相関になっているか可視化しました。

Loading...

どのカテゴリーでも相関がなさそうです。

最初の仮説(「早くトレンドになれば、人気者になれる!」)は間違っていたような気がしてきました。

日本のデータについて、カテゴリーごとの視聴数を箱ヒゲ図で可視化します。

Loading...

トレンドになるのが早い(当日もしくは翌日)かどうかで色分けしています。

「Comedy」「Travel&Events」の中央値が高いですね。

ですが、これを見ると早くトレンドにならなくても視聴数が稼げる様な気がします。

視聴数は人気者(収益化)のためには非常に重要な変数です。

この視聴数をどの様に考えるかですが、トレンドになった時の視聴数であるとすると、将来的な視聴数への影響については一概に言えません(トレンドが視聴数だけで決まっているわけではないので)。

ですが、このデータを参考に、ある程度の視聴数があれば「人気者」と定義し、視聴数の多いペット動画を見てみたいと思います。

Loading...

「すごい伸びている動画がある!」と思ったのですが、、、これらを削除すると。

Loading...

「目指せ!10万!」でいきます。

ちなみに視聴数は「Music」のタグが多く、「Science&Technology」で最大値を確認しています。

カテゴリーごとに、視聴数の中央値のトレンドも参考に。

Loading...

具体的に変数を決めていく

それでは、視聴数「10万以上」を目的変数として、ランダム・フォレストで変数重要度を確認して変数を選択していきたいと思います。

ランダム・シードは初期値(1)でボルータを活用しています。

「trending_date」は変数作成時の計算に利用しているので変数から除いています。

Loading...

うーん、、、これらをロジスティック回帰にかけてみます。

Loading...

ものすごく寂しい結果になったので、データを見てみます。

Loading...

「ペットがそんなに嫌われているの?」と思ったのですが、関係ない動画も紛れ込んでいました。

これらを削除して可視化していきます。

可視化してみる

視聴数10万以上のペット動画(行数70で少な過ぎました。。。)についてタグで可視化してみましたが、「トミック」と「柴犬」しかなかったので、10万縛りをやめて可視化します。。。

「tags」をコンマで分割し、[none]には「title」を入れて空欄で分割して、最初のタグを行数の多い順にワードクラウドで可視化しました。

Loading...

「猫」が多いですね。

「シャンシャン」「柴犬」「シベリアンハスキー」「秋田犬」などなど。

視聴数で見ても、これらが多かったです。

次は、チャンネル名を一意の数で数え上げたものです。

Loading...

知ってるチャンネルもありました。

トレンドに上がっている「Pets&Animals」のタイトルをみてみると、タイトルに「動物達の変わった仕草」「〜した後・・・」と気になるようなタイトルを書いているものが多かったです。

結局?

「早くトレンドになる=視聴数も増える」とはならないみたいです。

「目指せ!10万!」としたのですが、うまくインサイトが得られませんでした。

でも、タイトルには「可愛い仕草や変わった仕草」「〜してみたら・・・」的な内容で投稿すべきかと思います。

結局、自分の好きなペット(猫や犬が多い)の日常、特に他と差別化できそうな内容がいいのかなぁという、なんとも曖昧な感じになりました。

なので、ペットの日常をのんびり投稿していくのもいいかと思います。

撮影も編集も大変だけど、楽しく続けられればいいかなぁ。

今回の問題点

今回の問題点

①データに対する知識不足

トレンドが2017年から導入したのかとか、ググってみましたが色々とわからないことが多く、データをどう処理していいかわからなくて難しかったです。

②視聴数の影響

分析時点の視聴数がわかれば(スクレイピングや新たな変数作成等)、そこから参入に関する深掘りが出来そうです。

他にもいい方法知っている方は教えてください。

次はその辺も勉強して挑戦してみたいと思います。

③サムネイルの影響

今回のデータで反映されないのが「サムネイル」です。

YouTubeで探索的”動画”分析(EDA)をしていると、サムネイルでつい見てしまうことがあるかと思います。

なんか見たくなってしまう工夫。

皆さんの経験からも、「サムネイル」はかなり重要な要素でないでしょうか。

⑤その他いろいろ

サムネイルとも被りますが、投稿頻度、タイトル、どこからアクセスしているか、視聴者の属性(年齢、性別、職業等)、動画クオリティ等、閲覧数に影響する項目は他にもあるかと思います。

今回の分析には取り込むことができませんでした。

感想

自分が求めていたインサイトを得るのは難しく、なかなかうまくいきませんでした。

他にも「日本とアメリカの両方で人気者になるにはどうすればいいかなぁ」と考えていましたが、難しかったです。。。

文章が長くなってしまったので、もっとコンパクトにまとめます。

他の方の投稿を参考に勉強させていただいて、次回以降の課題にしたいと思います。

ついでに

日本有数のYouTuberである「Hikakin」さんや「ラファエル」さんはどうなのかと。。。

データにフィルタをかけてみると、、、

Loading...

非常に少ないですね。

トレンドになっていないのにたくさん動画を投稿し、どの動画も視聴数がものすごく多い。。。

トレンドの条件に当てはまっていないのか、トレンドにする必要がないのか、理由はよくわかりません。

ありがとうございました

ここはおかしいとか、ここはどうなっているのかとか、こうしたら見やすいとか、このチャートの方がいいとか、意見等あればなんなりと!

長い投稿を最後まで見ていただき、ありがとうございました。