Vosk Speech Recognition Toolkit

Vosk ist ein Open-Source-Spracherkennungstoolkit für den Offline-Betrieb. Es ermöglicht Spracherkennung für über 20 Sprachen und Dialekte - Englisch, Indisches Englisch, Deutsch, Französisch, Spanisch, Portugiesisch, Chinesisch, Russisch, Türkisch, Vietnamesisch, Italienisch, Niederländisch, Katalanisch, Arabisch, Griechisch, Persisch, Filipino, Ukrainisch, Kasachisch, Schwedisch, Japanisch, Esperanto, Hindi, Tschechisch, Polnisch. Weitere Sprachen folgen.

Die Vosk-Modelle sind kompakt (50 MB), bieten jedoch kontinuierliche Transkription mit großem Wortschatz, verzögerungsfreie Reaktion durch Streaming-API, anpassbaren Wortschatz und Sprecheridentifikation.

Spracherkennungs-Bindings sind für verschiedene Programmiersprachen verfügbar, darunter Python, Java, Node.JS, C#, C++, Rust, Go und weitere.

Vosk ermöglicht Spracherkennung für Chatbots, Smart-Home-Geräte und virtuelle Assistenten. Es kann auch Untertitel für Filme erstellen sowie Transkriptionen für Vorlesungen und Interviews.

Vosk ist skalierbar - von kleinen Geräten wie Raspberry Pi oder Android-Smartphones bis hin zu großen Serverclustern.

Dokumentation

Installationsanleitungen, Beispiele und Dokumentation finden Sie auf der Vosk-Website.