2019.03.08

データサイエンティストが選ぶAI本【初級編②】

グラフ所属のデータサイエンティストによる、おすすめAI関連書籍を紹介してもらうこちらのシリーズ。

第二弾は、インターン生として開発を行っている松熊氏に、機械学習を始めたい人にむけて基礎理解を深める本を推薦してもらいました。

こんにちは、グラフ開発部インターン生の松熊です。

今回私が紹介するのは、こちらの本、『やさしく学ぶ機械学習を理解するための数学のきほん~アヤノ&ミオと一緒に学ぶ機械学習の理論と数学、実装まで~』です。

機械学習は、大まかにいうと「教師あり学習」と「教師なし学習」に分けられますが、この本では実利用されることの多い「教師あり学習」（＊１）の原理について説明しています。

＊１「教師あり学習」とは......
人間があらかじめ付与した正解のラベルがついているデータを用いて学習し、データセットに対する応答値の予測を行うモデルを構築することです。

この本のすばらしいところは、なんと言ってもかみ砕いた解説です！

本著の構成と参考になった点

大まかな構成は以下の通り。

まずは、教師あり学習の原理について、「回帰」と「分類」（＊２）に分けて説明しています。
次に、作ったモデルを評価する統計学的指標と精度の向上のためのテクニックについて解説します。
最後に、以前の章で学習した回帰・分析とその評価をpythonで実装します。

＊２「回帰」と「分類」とは......
「回帰」は、連続するデータの予測です。売上予測などに用いられます。
「分類」は、データを事前に設定したカテゴリーに分けることです。

最も参考になったのは、最初の回帰と分類の原理についてです。

回帰の原理については、以下のような説明です。

① あるモデルを定義して、モデルの中のあるパラメータを最適化することでモデル全体を改善することを考えます。

② このパラメータを最適化するために、まずは初期状態で適当な数値を入れてから、データの値とモデルが算出した値の誤差の和を最小にすることを考えます。これは最小二乗法で実現できます。

③ 誤差の和を効率よく最小にするために、誤差の和を最適化すべきパラメータの目的関数としてとらえ、目的関数の微分をもとにパラメータ更新の向きと程度を決定します。

この３段階の原理の本筋を繰り返しながら、原理の理解に不可欠な詳細の数式について紹介しています。

また、単純なケースを使って3段階の原理の本筋を伝えてから、より精度の高いモデルの定義、パラメータ更新のより効率的なテクニック、より複雑なケースについても扱っていきます。

機械学習は、どの学習手法にも複数のステージがありますが、もしみなさんが機械学習の原理を学び始めると、大きく2つの困難に遭遇するかもしれません。

１つ目は、原理の各ステージに現れる数学やコンピューターサイエンスが理解できないこと。２つ目は、複数のステージのつながりが理解できないことです。特に、機械学習の専門的な書物を読もうとすると、局所にとらわれて、本を読み終えても結局何を学んだのかよくわからないことがあります。

本書は「このステージはどのような目的で行っているか」、「前後のステージはどのように関係しているか」を何度も振り返ります。

よって、もし仮に数学に自信があったとしても、機械学習の本質的な理解への道の第一歩として本書を読んでみるとよいのではないでしょうか。

IMG_2915 (3).JPG