読者です 読者をやめる 読者になる 読者になる

TadaoYamaokaの日記

山岡忠夫 Home で公開しているプログラムの開発ネタを中心に書いていきます。

fastText

TF-IDFのword2vecによる改良

先日doc2vecで気象庁のFAQの質問文を使って、類似質問文の検索を行ったが、質問文が短い場合うまくいかなかった。 質問文が短い場合は、TF-IDFのような古典的手法の方が有効であった。しかし、TF-IDFには以下のような欠点がある。 語順が失われる 高次元 単…

fastTextでwikipediaを学習する

先日の日記でfastTextでWikipediaの要約を学習させたが、期待した結果にはならなかったので、全記事を使って学習し直した。 Wikipediaの学習済みモデルは、 fastTextの学習済みモデルを公開しました - Qiita こちらの方が配布されていますが、MeCabの辞書の…

Windows(Bash on Windows)でfastTextを使う

word2vecより高速で学習できて精度がよいというfastTextを試してみました。 環境 Windows Home 64bit Bash on Windows 学習用データの準備 確認用にコンパクトなデータセットとして、Wikipediaの全ページの要約のデータを使用した。Index of /jawiki/latest/…