機械学習の概要

解決したい課題や問題に対して、データを用いてコンピュータを学習させ、その学習結果を生かして問題解決や課題解決を行う仕組み全体を「機械学習」といいます。
AI(人工知能)やディープラーニング、機械学習の関係性はよく間違われますが、以下のような違いがあります。
・AIは「人間の知的なふるまい・決定の一部をソフトウェアを用いて人工的に再現したもの」
・ディープラーニングは機械学習のアルゴリズムの一つ。「十分な量のデータがあれば、(人間の力を必要とせずに)機械が自動的にデータの特徴を抽出するディープニューラルネットワーク(DNN)を用いた学習アルゴリズ」のことです。
そのため包括関係としては、
ディープラーニング ⊂ 機械学習 ⊂ AI 
となります。

機械学習の種類

機械学習には大きく分けて以下の3種類の手法があります。
・教師あり学習
・教師なし学習
・強化学習

教師あり学習

教師あり学習はあらかじめ答のあるデータを用意し、コンピュータに学ばせることで機械学習のモデルを学習させていく手法です。
特徴を表すデータを特徴量または説明変数といい、答えとなるデータを目的変数といいます。

教師あり学習の身近な例

迷惑メールシステム
送信者のメールアドレスやメールのタイトルなどの特徴量を元に、「迷惑メール」か、迷惑メールじゃない」かという目的変数をもつデータを学習し、新しく送られてくるメールが迷惑メールか否かを判断するシステム。
売り上げの予測モデル
お弁当などの売り上げ(目的変数)を予測したい場合に、天気、曜日、メニュー、気温などの特徴量との関係を学習させ売り上げとの関係を学習させます。その学習させたモデルを使って将来のお弁当の売り上げを予測します。

教師なし学習

教師あり学習では答となる目的変数を与えてコンピュータに学習をさせましたが、教師なし学習では特徴量を与えることで特徴量どうしの関連性などを見つけ出す手法です。
明確な答えや予測値を求める教師あり学習よりも解釈が難しく、分析したいものそのものへの理解が求めらることもあります。

教師なし学習の身近な例

画像の分類

画像に写っているのが人なのか、犬なのか、ネズミなのかなどを判断するアルゴリズムは教師なし学習のクラスタリングという手法を用いて行われていることがあります。(例:TOSHIBAの画像分類AI)敢えて「教師なし学習ではないかもしれない」ニュアンスを込めて文章を書きましたが、Googleの画像内に誰が写っているかの判断は教師あり学習で行われているためです。

画像内に何が写っているかの判断をするアルゴリズムを作る際に、「これは犬の写真」「これはネズミの写真」という風にあらかじめ答となる目的変数を与える教師あり学習での手法も存在します。「画像認識ならば教師なし学習」と決めてかからずに、最適な方法を吟味する必要があります。

 

強化学習

強化学習はある環境の中での行動で、得られる報酬を最大化するような行動を学習していく手法です。例としては将棋や囲碁のAIです。

将棋や囲碁のルールがある環境の中で、勝ちに近づく(報酬を最大化する)手を打つモデルの作成は日夜研究されています。

 

機械学習が得意なこと・苦手なこと

機械学習の技術が日進月歩しているので、今日はあまり得意ではないとされていること来年にはかなり精度の高いモデルが作れるようになるかもしれません。ここでは2021年現在得意だとされていること、苦手だとされていることを紹介していきます。

【得意】データが数字で表せるもの

機械学習は目的変数や特徴量が数値で表せるものを得意としています。株価の予測や、商品の最適な価格設定などは、ゴールが数値となるため機械学習でモデルを学習させやすい分野です。

【得意】単一のタスクをこなすアルゴリズムをつくること

十分な量のデータで学習させることで、単一のタスクを(ある程度)正確にこなすアルゴリズムを作ることは、現在の機械学習技術では得意であるとされています。しかし複数のタスクをこなすアルゴリズムを作ることはまだ難しいとされています。

【得意】次元が大量にあるデータ(ハイディメンション・データ)の理解

ハイディメンジョン・データとは名前の通り、驚くほど次元が多いデータのことをいいます。機械学習では膨大な次元のデータでも取り込んで処理をすることが可能です。しかしゴールとなる変数が数字でないと、機械学習でもうまく扱うことができない可能性が高いです。

【不得意】データをたくさん集められない分野

例えば「犬の犬種を見分ける機械学習モデル」を作りたいとき、ビーグル犬の写真を2~3枚コンピューターに学習させても、ビーグル犬とジャック・ラッセルを判断することは難しいでしょう。人間は2~3枚ビーグル犬の写真をみれば、ジャック・ラッセルとの違いをなんとなく理解できます。データをたくさん集められない分野に関しては、満足のできるレベルのモデル作成は非常に難しいとされています。

【不得意】評価基準があいまいなもの

「AIはクリエイティブが苦手」と言われますが、AI・機械学習では「クリエイティブのような人によって評価が変わるようなものや、数値で表現できない情緒的なもの」の作成や評価は非常に難しいとされています。

ポエムを作る機械学習モデルも、画像を作成する機械学習モデルも作ることは可能です。しかし、その作品が「たまたまバズる可能性」はあっても、「90%以上の精度でバズる」ということは難しいです。それは作品を受け取る側感情を完全に予測することは(少なくとも現在は)難しいためです。

まとめ

近年、AI・機械学習はとても注目されていて今後も成長し続ける分野であることは間違いないでしょう。しかし、現状では「AI・機械学習」という言葉が独り歩きしていて、何が得意なのか何が不得意なのかがあまり理解されていません。「AIはなんかすごいらしいから何でも解決してくれそう」という認識も独り歩きしていているように感じます。

特に現状の機械学習技術で何ができるのかを明確にしたうえで、顧客満足の高いモデルの作成をすることが機械学習開発に携わる上で大切なことだと思っています。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です