Stimmen unterscheiden

**hirnfrei** · 05.07.2016, 00:03

Gehe ich eigentlich recht in der Annahme, dass bei einer Aufnahme die Werte die Frequenz in Hz darstellen?

HaWe · 05.07.2016, 23:51

sollte nur eine Erklärung zur Funktion eines NNs sein, wie man Sprach- und Stimmenerkennung zusammen mit einer FFT damit bearbeiten kann, es war nicht auf dein Marsyas und auch nicht auf deine Pocketsphinx zugeschnitten, mit denen arbeite ich ja nicht.

Wie wav Daten gesampelt sind, musst du dir wohl noch mal anlesen - das kann ich dir hier nicht in der Kürze eines Posts erklären...
- Ich glaube, da hast du was grundsätzlich komplett missverstanden: es ist Sampling wie mit einem ADC, das sind natürlich NICHT irgendwelche Frequenzwerte!

**hirnfrei** · 06.07.2016, 07:59

Ich erwähnte ja schon, dass ich mich bislang nie für Audiodaten interessiert habe. Wenn ich da schon den vollen Plan hätte müsste ich ja nicht fragen.

HaWe · 06.07.2016, 09:30

ei, du misst - ganz einfach ausgedrückt - dasselbe, was auch beim Lautsprecher rauskommt:
ganz primitive (aber schnelle) analoge Spannungs-Änderungen, jeweilige Level gemessen in Volt (verstärkter Micro-Eingang), aber eben blitzschnell gemessen und gespeichert, nichts anderes ist Audio-Sampling.

**hirnfrei** · 06.07.2016, 14:12

Wir haben mal in der Schule ein primitives Mikro gebaut. Das war schon ganz lustig

.

**botty** · 08.07.2016, 12:18

Hallo hirnfrei,
Du ich hab mal eine Frage wegen pocketsphinx an Dich.
Hab das installiert und mir das deutsche Voxforge Sprachmodell herunter geladen. Läuft grundsätzlich auch.
Worüber ich mich aber wundere ist, dass ich mit pocketsphinx_batch brauchbare Ergebnisse bekomme, wenn ich aber pocketsphinx_continuous mit der selben Sprachdatei benutze quasi nur Unbrauchbares heraus kommt.
Könntest Du mal schildern, wie Du es benutzt und welche Ergebnisse Du bekommst? - Ähm, vielleicht müßten wir dafür einen neuen Thread machen?

Gruß botty

**hirnfrei** · 08.07.2016, 12:37

Ein neuer Thread wäre sicher für andere Interessenten besser. Ich denke das dürften noch mehr interessant finden.

Zu deinem Problem kann ich allerdings wenig sagen, da ich PocketSphinx bisher ausschliesslich als C++ Lib in meinem eigenen Programm mit meinen selbst aufgezeichneten Daten verwende. Da sind die Ergebnisse bisher aber ausreichend. Ich nehme zwar an, dass mit bearbeiteten Daten sich da noch besser arbeiten lassen wird, aber soweit bin ich noch nicht.

Worte wie Hallo, Auto, Flugzeug usw. erkennt er sehr gut. Aus Frosch wird aber meistens Porsche. Auch Sätze wie "Wie geht es dir" erkennt er recht gut. Ich nehme aber mal an, in der Hauptsache muss die deutsche Datenbank da etwas besser gepflegt werden. Egal wo ich bisher gelesen habe heisst es immer das es auf deutsch ganz ok ist aber man Englisch benutzen soll. Da wird es sich in meinen Augen zu einfach gemacht

. Aber da die Datenbank für die Sprache ja selbst angelegt und erweitert werden kann würde ich sagen, dem Missstand kann Abhilfe geschaffen werden.