TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

Whisperでリアルタイムに文字起こしするアプリ その2

以前に、Whisperでリアルタイムに文字起こしするアプリを公開したが、記事にアクセスが多く需要があるようなので、ONNXに変換する処理とアプリのソースコードを公開した。
ONNXへの変換処理は、メールで記事を読んでもわからんので、ソースを公開して欲しいという要望をいただいていた。

ONNXに変換する処理

github.com
to_onnx.pyを実行すると、encoder.onnxとdecoder.onnxが出力される。
ソース中にサンプル音声のファイルパスがハードコードされているので、修正が必要である。

リアルタイムに文字起こしするアプリ

github.com
ソースはC#で実装しているので、Unityに組み込んでリアルタイム音声認識することもできると思う。

音声の無音期間を実装が簡単なため音声の音圧が低い区間で検出しているが、no_speechトークンと、timestampトークンを使って処理する方がよい。
実装しようとしていたが、時間がとれずにペンディング中である。

まとめ

Whisperでリアルタイムに文字起こしするアプリの記事アクセスが多く需要がありそうなため、ソースを公開した。
音声の無音期間の検出がいい加減なので、どなたかフォークして実装してもらえないかと期待している。