「ゼロから作るDeep Learning」を読み終えて、その間に機械学習について色々調べたりしていたので少し自分なりに調べたことを雑多ではありますがまとめておきます。Deep Learningについてはちょいちょい実践してみながら、またブログの記事にまとめられたらと思います。
まだ調べておきたいと思っている検定や評価については調べきれていないのと、実際に各項目がどのように有利・不利かなどの細かいところは調べきれていないです。またアルゴリズムの選択には、scikit-learn のチートシートが便利なようです。
http://scikit-learn.org/stable/tutorial/machine_learning_map/
機械学習の学習の種類
教師あり学習
- 既知のラベルまたは値と紐付いた入力データと望まれる結果の出力データのセットになった訓練データを元に学習を行う
教師なし学習
- ラベルなしの入力データのみで学習を行う
半教師あり学習
- 入力データと出力データのセットと、入力データのみが混在した状態で学習を行う
強化学習
- 「行動の選択肢」と「報酬」についてのみの情報が与えられた状態で報酬を最大化するように行動を最適化していく
- 教師ありと違い各行動の1つずつではなく、連続した行動に対しての報酬の結果から最適化を行う
機械学習でできること
分類
- 教師あり学習
- 離散的なカテゴリに未知のデータを分ける
- 「ゼロから作る〜」でメインにしているのがこれでしょうか
回帰
- 教師あり学習
- 未知のデータに対する連続的な値を予測する
クラスタリング
- 教師なし学習
- 既知の分類ではないグルーピングを見つけ出させる
次元削減
- 教師なし学習
- 高次元の情報を元のデータの特徴を損なわないように低次元のデータに変換する
- 教師あり学習用の訓練用データの元に使うこともある
その他
頻出パターンマイニング
- 教師なし学習
- データの中から一定以上の頻度で現れるパターンの発見・抽出を行う
強化学習
- 割愛
異常検知
- 教師なし学習
- 正常なパターンとは異なる値の発見・抽出を行う
推薦
- 教師なし学習
- ユーザーの行動などからユーザーの好む関連する商品等を提示する
機械学習のアルゴリズムについて
分類
線形分離可能のみ適用可
- パーセプトロン
- ロジステック回帰
線形分離不可能のみ適用可
- 決定木
- ランダムフォレスト
- 勾配ブースティング決定木(GBDT)
線形分離可能、不可能両方に適用可
- サポートベクタマシン(SVM)
- ニューラルネットワーク
- k-NN
回帰
クラスタリング
次元削減
- 主成分分析(PCA)
- t-SNE
- 正準相関分析
- 因子分析
- 多次元尺度構成法