Vosk 音声認識ツールキット

Voskはオフラインで動作するオープンソースの音声認識ツールキットです。20以上の言語と方言（英語、インド英語、ドイツ語、フランス語、スペイン語、ポルトガル語、中国語、ロシア語、トルコ語、ベトナム語、イタリア語、オランダ語、カタルーニャ語、アラビア語、ギリシャ語、ペルシャ語、フィリピン語、ウクライナ語、カザフ語、スウェーデン語、日本語、エスペラント語、ヒンディー語、チェコ語、ポーランド語）の音声認識を可能にします。さらに多くの言語が追加予定です。

Voskのモデルは小型（50MB）ながら、大語彙連続音声認識、ストリーミングAPIによるゼロレイテンシ応答、再構成可能な語彙、話者識別などの機能を提供します。

Python、Java、Node.JS、C#、C++、Rust、Goなど、様々なプログラミング言語向けに音声認識バインディングが実装されています。

Voskはチャットボット、スマートホーム機器、仮想アシスタント向けの音声認識ソリューションとして利用可能です。また、映画の字幕作成や講義・インタビューの文字起こしにも使用できます。

VoskはRaspberry PiやAndroidスマートフォンといった小型デバイスから大規模クラスターまでスケーラブルに動作します。

ドキュメント

インストール手順、サンプルコード、ドキュメントについてはVosk公式サイトをご覧ください。