探索的データ分析を学ぶ場、EDA Salon始めます!

探索的データ分析をオンラインでみんなと一緒にやりながら学ぶ場、EDA Salonに参加しませんか?!

毎月一回、探索するためのデータを出題しますので、参加者にはそのデータを探索的に分析して自分にとっておもしろいと思うような、気づきやインサイトをみんなと共有していただきます。

そして、様々なデータの可視化や分析の手法を試したり、自分の公表結果に対する周りの人からのフィードバックをもらったり、また他の人の分析結果やそこに行き着くまでのプロセスを見たりすることで、探索的データ分析を学び、そのスキルを向上させていこうとするものです。

EDAって何?

英語ではEDA(Exploratory Data Analysis)と呼ばれることの多い、探索的データ分析とは、データラングリング(データの加工)したり、データを可視化したり、アナリティクス(統計、機械学習)を使ってデータを分析したりすることで、データの中にあるパターンやトレンドを見つけ、役に立つ情報を得ていく手法をまとめたものです。

なぜ、EDA Salon?

データを使う仕事であれば、EDAは特に最初の段階では欠かせないステップですし、さらにデータを使ってよりよい意思決定を行っていくためのデータ分析とは、すなわちEDAだと言っても過言ではありません。

しかし、このデータサイエンスの中でももっとも重要なスキルであるEDAを学ぶ機会というのは実際には驚くほどありません。

学校では多くの場合、データサイエンスの統計や機械学習の理論や技術的な部分を学ぶことに重点がおかれ、企業では多くの場合、日々の忙しい作業に追われ、データを使っていたとしても、定型的なレポートやダッシュボードといった最終的な成果物を作るための作業に追われているのが現実です。

EDAとは学習でありません。EDAとはスキルです。そしてこのスキルをつけるベストな方法は、実際に世の中にあるデータを手にして、様々な手法を自由に試し、間違いを繰り返す機会をたくさん持つことです。やりながら身につけていくことだと思います。

そこで、世界中にある実際のデータを使って、自分の手を動かしながらEDAをやり、様々な手法を試して間違えたりしながら、みんなで一緒に継続的に学んでいく場として、EDA Salonという取り組みを始めることとなりました。

EDA Salonのビジョン

  • 学び、スキルの向上には、様々なことを自由に試して、恐れることなしに間違うことができる環境が必要である。
  • 最近どこかで学んだことでも実際に自分の手を使って試してみるまでは自分のスキルとはならないので、どんどん試すことが出きる環境が必要。
  • EDA Salonはみんなで、様々なことを自由に試して、間違いながら学んで行く場である。

EDA Salonで何するの?

毎月私達Exploratoryのスタッフが世界中から実際のデータを探してきて、選びます。参加者はそのデータをラングリングしたり、可視化したり、分析したりして自分にとっておもしろいと思う気づきやインサイトを探し出します。

そして、その結果を「EDASalon」というタグをつけてノートとして公開します。

さらに、Twitterをやっている人は、「#EDASalon」というハッシュタグをつけてつぶやいてみてください。

同じデータに対して他の人が行っている分析手法を見ることで学んだり、Exploratoryのスタッフも含め他の参加者からのコメントをもとに自分の分析を改善していったりすることができます。

EDAは一つの正しいやり方があるというわけではなく、様々な新しい手法が絶えず出てきているので、特にこの手法を使わなくては行けないというルールはありません。データを可視化するだけでもいいですし、機械学習のアルゴリズムにかけてみるだけでも構いません。

最終的に自分にとっておもしろいと思えるきづきが得られるかどうかが重要です

データに興味のある人はだれでも気軽に参加してみてください!

どうやって参加すればよいか?

こちらに参加にあたっての詳細があるので、ご参照ください。

お題とデータ

毎月ここに新しいデータが加わっていきます。詳細のリンクをクリックして、データのダウンロード先、どういうデータなのか、どういった質問に答えていくことにできるか、などといった情報を確認してください。

タイトル 参加 まとめ & 発表
第1回 7月 世界の大学のランキングデータ 詳細 リンク
第2回 8月 世界の家畜生産量のデータ 詳細 リンク
第3回 9月 自転車レンタルのデータ 詳細 リンク
第4回 10月 ユニコーン企業のデータ 詳細 リンク
第5回 11月 Airbnbの東京の宿泊施設データ 詳細 リンク
第6回 12月 日本政府統計データ(e-Stat) 詳細

過去に共有されたノート

こちらのリンクから「EDASalon」というタグ付きでexploratory.ioの方にパブリッシュされたノートやチャートが見れます。

また、こちらのリンクより、「#EDASalon」というハッシュタグつきでTwitterに共有されたものが見れます。

参加するにあたっての心構え

  • 「理論的な正しさは重要であるが、それよりも重要なのは実用性、いかに「使えるか」である。」ということで、「正しい」やり方を求めることが目的になってしまわないようにしましょう。さらにそれを人に強制するのはやめましょう。
  • 「間違いこそが学びの機会である。間違いは成長である。」ということで、間違うことを恐れず、どんどんと知らないことでも試していって、そこから少しずつ理解を重ねることで、段階的に成長していきましょう。
  • EDA Salonは他人の分析結果を批判して自己満足にひたる場所ではありません。間違いを指摘する場合は、それを改善するための提案もしてあげましょう。
  • 多くの人はデータ分析はじめたばかりなので、そういった初心者のマインドを理解し、お互いに対して親切に、思いやりを持って接しましょう。
  • 別のデータを持ってきて、いっしょに使うのはどんどんやってください。その場合は、そういったデータのデータソースを記すことができれば、信頼性が生まれますし、さらに他の人のためにもなるのでぜひやってみて下さい!
  • 他の人の分析手法を真似てみたりすることはオッケーです。全ての学びは最初は真似から始まるので、恐れずに真似をしてください。しかし、その場合は、その人の名前や引用先をノートに加えることで、その人に感謝の気持ちを伝えることができれば素晴らしいですね!