音声データの特徴量の抽出を試行錯誤するよりも、
ディープラーニング使っちゃえばいいじゃねって
考え始めたので、ぼちぼちディープラーニングの勉強を始めました。
とりあえず、この本を読み始めました。
手を動かさないとモチベーションを保てないので、
ディープラーニングのフレームワークも触ってみることにしました。
ディープラーニングの効率的な勾配法や誤差逆伝播をスクラッチで実装するのは、
つらいのでなんらかのフレームワークを使うことになると思います。
どのフレームワークがどういう特性があるのかわかっていないので、
とりあえず日本発なので日本語情報が充実してそうなChainerを選択。
公式のサポート環境はLinuxのみですが、
GPUを使わなければWindowsでも動きました。
Pythonは、インストールしていたPython(x,y)を使用しましたが、
ライブラリ追加なしで公式のインストール手順通りでそのまま使えました。
$ pip install chainer
動作確認のためとりあえず、公式にあるMNISTのサンプルを実行。
問題なく動きました。
MNISTのデータの中身を確認したかったので、
データ形式を調べていたら、下記のページでわかりやすく解説してくれていました。