Wie ich aber sagte, Pocketsphinx ist dafür auch nicht nötig. Das kümmert sich ja um die Spracherkennung, nicht um die Stimmerkennung.

Ich erwähnte aber das die Rohdaten vor gefiltert sein können oder? Guckst du hier:

Also können die Rohdaten von der Soundkarte (eventuell auch vor gefiltert mit marsyas) auch direkt ans NN gehen
Marsyas sollte in der Lage sein da die entsprechenden Werte zum Vergleichen raus zu holen.

Schau doch mal hier -> Marsyas