TadaoYamaokaの開発日記

個人開発しているスマホアプリや将棋AIの開発ネタを中心に書いていきます。

Whisper

Whisperでリアルタイムに文字起こしするアプリ その2

以前に、Whisperでリアルタイムに文字起こしするアプリを公開したが、記事にアクセスが多く需要があるようなので、ONNXに変換する処理とアプリのソースコードを公開した。 ONNXへの変換処理は、メールで記事を読んでもわからんので、ソースを公開して欲しい…

Whisperモデルの軽量化

ONNXにしたWhisperのモデルの推論を速くするために、以下の方法を試した。 OpenVINOで推論 FP16化 INT8量子化 Whisperのモデルはbaseを使用している。 OpenVINOで推論 OpenVINOは、intelのCPUに最適化した推論エンジンである。 ONNX Runtimeの代わりに、Open…

WhisperのモデルをONNXにする その2

前回、WhisperのモデルをONNXにする方法について記述した。Whisperのモデルは、単体では音声認識はできず、音声をメルスペクトログラムにする前処理と、トークンをデコードして文字列にする後処理が必要になる。 今回は、前処理と後処理をC#で実装する方法に…

WhisperのモデルをONNXにする

WhisperのモデルをONNXに変換する方法について記述する。 Whisperのモデル WhisperのモデルはPyTorchを使ってPythonで実装されている。 そのため、実行にはPyTorchをインストールしたPython環境が必要になる。 環境構築なしでスタンドアロンで利用できると用…

PCで再生中の音声をWhisperでリアルタイムに文字起こしする

PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは…

WindowsにWhisperをインストールする

先日、OpenAIが公開したオープンソースの音声認識ソフトウェアであるWhisperをWindowsにインストールする方法について記載する。 Anaconda(Miniconda)のインストール Anacondaもしくは、Minicondaをダウンロードして、インストールする。 必要に応じて仮想環…