探索的データ分析をオンラインでみんなと一緒にやりながら学ぶ場、EDA Salonに参加しませんか?!
毎月一回、探索するためのデータを出題しますので、参加者にはそのデータを探索的に分析して自分にとっておもしろいと思うような、気づきやインサイトをみんなと共有していただきます。
そして、様々なデータの可視化や分析の手法を試したり、自分の公表結果に対する周りの人からのフィードバックをもらったり、また他の人の分析結果やそこに行き着くまでのプロセスを見たりすることで、探索的データ分析を学び、そのスキルを向上させていこうとするものです。
英語ではEDA(Exploratory Data Analysis)と呼ばれることの多い、探索的データ分析とは、データラングリング(データの加工)したり、データを可視化したり、アナリティクス(統計、機械学習)を使ってデータを分析したりすることで、データの中にあるパターンやトレンドを見つけ、役に立つ情報を得ていく手法をまとめたものです。
データを使う仕事であれば、EDAは特に最初の段階では欠かせないステップですし、さらにデータを使ってよりよい意思決定を行っていくためのデータ分析とは、すなわちEDAだと言っても過言ではありません。
しかし、このデータサイエンスの中でももっとも重要なスキルであるEDAを学ぶ機会というのは実際には驚くほどありません。
学校では多くの場合、データサイエンスの統計や機械学習の理論や技術的な部分を学ぶことに重点がおかれ、企業では多くの場合、日々の忙しい作業に追われ、データを使っていたとしても、定型的なレポートやダッシュボードといった最終的な成果物を作るための作業に追われているのが現実です。
EDAとは学習でありません。EDAとはスキルです。そしてこのスキルをつけるベストな方法は、実際に世の中にあるデータを手にして、様々な手法を自由に試し、間違いを繰り返す機会をたくさん持つことです。やりながら身につけていくことだと思います。
そこで、世界中にある実際のデータを使って、自分の手を動かしながらEDAをやり、様々な手法を試して間違えたりしながら、みんなで一緒に継続的に学んでいく場として、EDA Salonという取り組みを始めることとなりました。
毎月私達Exploratoryのスタッフが世界中から実際のデータを探してきて、選びます。参加者はそのデータをラングリングしたり、可視化したり、分析したりして自分にとっておもしろいと思う気づきやインサイトを探し出します。
そして、その結果を「EDASalon」というタグをつけてノートとして公開します。
さらに、Twitterをやっている人は、「#EDASalon」というハッシュタグをつけてつぶやいてみてください。
同じデータに対して他の人が行っている分析手法を見ることで学んだり、Exploratoryのスタッフも含め他の参加者からのコメントをもとに自分の分析を改善していったりすることができます。
EDAは一つの正しいやり方があるというわけではなく、様々な新しい手法が絶えず出てきているので、特にこの手法を使わなくては行けないというルールはありません。データを可視化するだけでもいいですし、機械学習のアルゴリズムにかけてみるだけでも構いません。
最終的に自分にとっておもしろいと思えるきづきが得られるかどうかが重要です
データに興味のある人はだれでも気軽に参加してみてください!
こちらに参加にあたっての詳細があるので、ご参照ください。
毎月ここに新しいデータが加わっていきます。詳細のリンクをクリックして、データのダウンロード先、どういうデータなのか、どういった質問に答えていくことにできるか、などといった情報を確認してください。
回 | 月 | タイトル | 参加 | まとめ & 発表 |
---|---|---|---|---|
第1回 | 7月 | 世界の大学のランキングデータ | 詳細 | リンク |
第2回 | 8月 | 世界の家畜生産量のデータ | 詳細 | リンク |
第3回 | 9月 | 自転車レンタルのデータ | 詳細 | リンク |
第4回 | 10月 | ユニコーン企業のデータ | 詳細 | リンク |
第5回 | 11月 | Airbnbの東京の宿泊施設データ | 詳細 | リンク |
第6回 | 12月 | 日本政府統計データ(e-Stat) | 詳細 |
こちらのリンクから「EDASalon」というタグ付きでexploratory.ioの方にパブリッシュされたノートやチャートが見れます。
また、こちらのリンクより、「#EDASalon」というハッシュタグつきでTwitterに共有されたものが見れます。