学生がデータサイエンスを諦めてしまう3つの理由

こんにちは、Exploratoryでカスタマーサクセスを担当している白戸です。

私は今はデータサイエンスを民主化するために、セミナーやトレーニングなどの講師として教える立場にありますが、4年前は学生としてデータサイエンスを習う立場にいました。

私は学生時代は社会情報学部として、統計やプログラミングを授業でかじったこともありますが、基本的には文系の環境で育ってきたのでデータサイエンスは全くわからない状況でした。

学生時代はアプリ分析ツールを開発・提供する企業でインターンをしていたのですが、どういったアプリが成功し、成長していくのかを分析する必要がありました。そこで、データサイエンスの講義を大学で受けたのですが、正直なところ「文系の私にはついていけない」ことだらけでした。

そうした経験を振り返り、「学生がデータサイエンスを辞めてしまう理由」を3つにまとめてみました。

データサイエンスの民主化を大学から始めるためには、こうした点を解決していくことが重要になるかと思います。

1. プログラミングが前提となっている

下記はとある大学のデータサイエンス入門コースの対象者の説明です。

機械学習、AIなどを含むデータサイエンスを専門と「しない」学生、数理・情報に関する経験が乏しい学生を歓迎する。 文理を問わないが文系向け数学科目、数学I(1変数微積)、数学II(ベクトル,行列の基礎)程度の数学知識は前提とする。 プログラミング経験は不要であるが、与えられたRのプログラムをノートパソコン上で動作させることができる程度のコンピュータ経験が必要。

これではまるで、空手入門の教室が生徒を募集していて、空手の経験がなくてもよいが、ストリートファイトの経験を前提とする、と言われているようですね。

残念ながら、多くの大学で教えられているデータサイエンスや統計の授業ではプログラミング言語であるPythonやRを使うことが前提となっています。一部の大学では、ExcelやBIツール(Tableauなど)を使用して教えられているようですが、それでも統計や機械学習のモデルまで踏み込んだ授業となるとプログラミングに入っていく場合が多いようです。

大学でのデータサイエンス教育の必修化がうたわれていますが、プログラミングにあまり触れてこなかった文系の学生にはハードルが高いというのが正直なところです。(私もその一人でした。)

2. 理論先行で、数式の理解が美学となっている

下記はロジスティック回帰について紹介された際の最初の説明です。

一般化線形モデルにおいて、非線形関数fがロジスティックシグモイド関数 σ(u)=1/(1+exp(-u))は、ロジスティック回帰モデルと呼ばれる。 σは2クラス分類問題のクラス1所属確率を表すことができるので、分類問題の回帰モデルによく使われる。 クラス1への所属確率である被説明変数yをy=σ(a1f1(x) +a2f2(x) +...+amfm(x)+a0)= σ(ta f(x))とモデル化する。 なお、t(a0, a1,a2,...,am)をa、t(1,f1(x),f2(x),...,fm(x))をf(x)とベクトル表記した。 σ-1(y)=log(y/(1-y))はロジット関数と呼ばれる。ロジット変換すると線形モデルになる。

正直、私であれば最初の「非線形関数f」となるものが出てきた時点で、諦めます。

ただ残念ながら、統計やデータサイエンスの講義では、数式や理論の説明ばかりで、さらには分析手法を実装するプログラムを書かされるようなケースも少なくありません。

これでは、特に文系の学生にとって歓迎されているように感じませんよね。

理論ももちろん大事ではありますが、それ以上に学ぶ分析手法が現実世界のどういった問題をどのように解決できるのかを理解し、それを体験することなしにはただの机上の空論となってしまいます。

3. 現実的なデータを使わないので、実感がわかない

恐ろしいことに、大学の授業では今でも「あやめのデータ(iris)」という花の大きさに関するデータが平気で使われたりしています。

K-Meansクラスタリングの例題として、花弁やガクの長さ、大きさであやめの分類を行う。

よっぽど植物に興味がない限り、あやめの花の分類といわれてもピンときませんよね。

これはRやPythonにプリセットで用意されているデータなので、そのまま授業でも利用されているのではないかと思いますが、これほどデータサイエンスを学ぶモチベーションを失ってしまうデータはありません。

またこれよりも大きな問題として、大抵の授業ではすでに綺麗になっているデータを使った講義となるのですが、実世界ではそんなにきれいなデータはありません。そこで汚いデータと遭遇した時にデータラングリング(加工・整形)を行い、分析のためにデータを整えていくことになります。こうしたトピックに触れることなしに授業が終わってしまうと、結局のところ現実世界では通用しない知識を詰め込んだだけということになってしまいます。

分析手法だけを学ぶのでは無く、データラングリングも学べるように汚いデータを加工・整形するスキルを身につけるようにする必要がありますね。

現在は、e-Statsなどの政府が提供しているオープンデータや、企業や個人からもオープンデータがたくさん公開されています。これらを活用しない手はないというくらいデータは溢れていますので、授業に合わせた形で現実世界のデータをどんどんと使っていくべきではないかと思います。

まとめ

今回は、学生がデータサイエンスを学ぶのを諦めてしまう3つの理由について紹介しました。

学生が学ぶ際に、プログラミング、理論(数式)先行の問題によりデータサイエンスの敷居が高く感じてしまい、最終的には活用イメージの湧かないデータを扱ってしまうことで、意欲のある学生の学びたい気持ちを路頭に迷わせてしまうことに繋がりかねません。

学生がデータサイエンスを学ぶためにはできる限り障壁を取り除き、データサイエンスがどのように活用できるのかにフォーカスすることで、データサイエンスの面白さに気づくきっかけになってほしいと考えています。


「学校からはじまるデータサイエンスの民主化」セミナー(無料)

Exploratoryを使って、文系理系問わず幅広くデータサイエンスの教育を始められている先生方をお招きし、現場での取り組みや課題などといったお話をしていただく予定です。 これからデータサイエンス教育プログラムを作っていこうとされている方、また、すでに始められている方にとっても、他の学校の現場での経験から多くのヒントが得られるのではないかと思っております。

ご興味ある方はぜひご参加ください!

申し込む