Photo by rawpixel on Unsplash

そもそも機械学習って何?

ある業界に長くいると、ついつい世の中では当たり前でないことを、当たり前だと思いみ、それを前提で話をはじめてしまったりするものです。こういうことを指摘されるたびに自分がバブルの世界で生きているのだと実感し、ちょっと恥ずかしい思いになってしまいます。

で、私のいるデータサイエンスの世界でも、こういうことはしょっちゅうあります。最近でも、とあるグループにあるアルゴリズムを使った分析手法を説明していたさいに、そもそも機械学習って何なの?という質問を受けることがありました。

私達が行っているデータサイエンス・ブートキャンプというトレーニングでは、機械学習101として基本的な部分から教えたりするのですが、今回はちょうど「機械学習って何?」という記事が最近MITのTechnology Reviewというメディアに出ていて、前提知識のない人でもわかりやすいのではないかなというくらい簡潔にまとめられていたのでここで紹介したいと思います。


What is Machine Learning? - Link

私達がよく耳にするAIの進化とAIを使ったアプリケーションは大抵の場合、機械学習という一つのアルゴリズムのタイプの事を言っています。

機械学習のアルゴリズムは統計的な手法を使って大量のデータからパターンを発見します。データは数字や言葉、イメージ、クリック、など様々なものからなります。デジタルとして扱うことができるものであれば、それは機械学習のアルゴリズムに食わせることのできるデータなのです。

機械学習は私達が普段使う多くのサービスで使われています。それはNetflix、Youtube、Spotifyのようなサービスの中にあるレコメンデーションであったり、GoogleやBaiduのような検索エンジンであったり、FacebookやTwitterのようなソーシャルメディアのフィードであったり、SiriやAlexaのようなボイス・アシスタントであったりと、例を上げればきりがありません。

こうした全てのケースにおいて、それぞれのプラットフォームはあなたに関するデータを可能な限り大量に集めています。例えば、どういったジャンルのものを見ているのか、どのリンクをクリックしているのか、どういったアップデートやつぶやきに反応しているのかといった具合です。そして機械学習を使うことでそういったデータからあなたが次に何をするのかを予測しようとするのです。ボイス・アシスタントの場合は、どの単語があなたが話す言葉と一番マッチしているのかを予測します。

この機械学習のプロセスは実はとても基本的なものです。パターンを見つけて、そのパターンを適用するというものです。しかし、それが世界を現在動かしているのです。そうした流れは、今日ではDeep Learning(深層学習)の父として知られるGeoffrey Hintonによる1986年の発明が大きく寄与しています。

Deep Learning(深層学習)は機械学習にステロイドを加えたようなものです。ディープ・ニューラル・ネットワークとよばれるテクニックを使ってマシン(機械)がたとえ小さなパターンであっても見つけることができるようになりました。ディープ(深い)と言われるのは、それが何層にも及ぶシンプルな計算処理をするノードを持ち、それらを一緒に働かせることでデータを処理し、最終的に予測というかたちの結果を出すからです。

ニューラル・ネットワークは人間の脳の動きにヒントを得ています。それぞれのノードはニューロンのようなもので、そのネットワークは脳そのもののようなものです。こうした比較に気を良くしない研究者の人は、つべこべ文句をいうのを止めてください。よいアナロジーなのですから。Hintonはこのブレイクスルーな研究成果をニューラル・ネットの人気が無かった時に発表しています。当時、だれもそういったアルゴリズムにどのように学習させればいいのかわかっていなかったので、良い成果が出ていませんでした。このニューラル・ネットという手法に再びスポットライトが当たるようになるまでには実に30年近くかかりました。

最後にもう1つ。機械学習は3つのタイプがあります。教師あり学習、教師なし学習、そして強化学習です。最もよく使われているのが教師あり学習ですが、マシンにどういったパターンを見つけるべきかを教えるためにデータにラベルが付けられています。

警察犬を想像してみてください。トレーニングの時に、見つけ出すべきもの、例えば麻薬などの匂いを先に嗅がせて覚えさせることで、実際の世界でその匂いを持ったものを探させるというのと一緒です。

あなたがNetflixの番組を見るたびに、裏ではこのラベル付けが行われているのです。あなたはアルゴリズムにそれと同じような番組を見つけてこいと言っているわけです。

教師なし学習ではデータにラベルが付いていません。マシンは見つけることのできるパターンであれば何でも見つけてきます。これは犬に様々なものの匂いを嗅がせて、同じような匂いのする物たちをいくつかのグループに分けたりするようなものです。適用可能なアプリケーションが限られているので、教師あり学習に比べて人気はありませんが、サイバーセキュリティの分野では大きく活躍しています。

最後に、強化学習です。これは機械学習でも最新の開拓分野です。強化学習のアルゴリズムはトライアル・アンド・エラーを繰り返しながら、はっきりと定義されたゴールを達成しようとします。様々なことをたくさん試し、ゴールに導くために役立つかどうかで褒賞や罰が与えられます。

これは、犬に新しいトリックを教える時に報奨としての餌を与えるかどうかというのに似ています。この強化学習が、囲碁のチャンピオンを破ったGoogleのAlphaGoで使われているのです。


以上、要訳終わり。

みなさんも、「AIって何」とか質問を受けたり、まわりにこれからAIとか機械学習を学んでみたいという人がいたら、この記事を紹介してみてください!