Stimmen unterscheiden

**hirnfrei** · 06.07.2016, 14:12

Wir haben mal in der Schule ein primitives Mikro gebaut. Das war schon ganz lustig

**botty** · 08.07.2016, 12:18

Hallo hirnfrei,
Du ich hab mal eine Frage wegen pocketsphinx an Dich.
Hab das installiert und mir das deutsche Voxforge Sprachmodell herunter geladen. Läuft grundsätzlich auch.
Worüber ich mich aber wundere ist, dass ich mit pocketsphinx_batch brauchbare Ergebnisse bekomme, wenn ich aber pocketsphinx_continuous mit der selben Sprachdatei benutze quasi nur Unbrauchbares heraus kommt.
Könntest Du mal schildern, wie Du es benutzt und welche Ergebnisse Du bekommst? - Ähm, vielleicht müßten wir dafür einen neuen Thread machen?

Gruß botty

**hirnfrei** · 08.07.2016, 12:37

Ein neuer Thread wäre sicher für andere Interessenten besser. Ich denke das dürften noch mehr interessant finden.

Zu deinem Problem kann ich allerdings wenig sagen, da ich PocketSphinx bisher ausschliesslich als C++ Lib in meinem eigenen Programm mit meinen selbst aufgezeichneten Daten verwende. Da sind die Ergebnisse bisher aber ausreichend. Ich nehme zwar an, dass mit bearbeiteten Daten sich da noch besser arbeiten lassen wird, aber soweit bin ich noch nicht.

Worte wie Hallo, Auto, Flugzeug usw. erkennt er sehr gut. Aus Frosch wird aber meistens Porsche. Auch Sätze wie "Wie geht es dir" erkennt er recht gut. Ich nehme aber mal an, in der Hauptsache muss die deutsche Datenbank da etwas besser gepflegt werden. Egal wo ich bisher gelesen habe heisst es immer das es auf deutsch ganz ok ist aber man Englisch benutzen soll. Da wird es sich in meinen Augen zu einfach gemacht

. Aber da die Datenbank für die Sprache ja selbst angelegt und erweitert werden kann würde ich sagen, dem Missstand kann Abhilfe geschaffen werden.

**botty** · 08.07.2016, 16:57

Okay, da fährst Du aufgrund deines Anwendungsfalls einen anderen Ansatz.
Ich hatte die Idee einen ATV im MORSE Simulator über Stimme zu steuern, das halt auf meinem Lappi und da die Sounds des Sprachmodels welches ich verwende aus Aufnahmen besteht, die auf ähnlicher Hardware aufgenommen wurden, bot es sich an diese Daten zu verwenden und nicht erst ein eigenes Sprachmodell zu entwickeln.
Wobei es noch bessere Daten für eine Alternative gibt aber da wag ich mich im Moment nicht dran.

Hab überings das Problem lokalisiert. Das pocketsphinx_continuous Prog initialisiert sich in der Lautstärke beim ersten Durchlauf anders als das Batch-Prog. Das läßt sich im feat.param File anpassen, bzw. muß man den allerersten Frame halt zweimal durchlaufen lassen, dann verbessert sich dier Erkennungsrate erheblich. (Der Parameter nennt sich "-cmninit 40,3,-1").
Frag mich bitte nicht nach der genauen Bedeutung - ich weiß nur das es jetzt erheblich besser ist

Gruß botty

**hirnfrei** · 08.07.2016, 19:44

Also definitiv kann man in den Einstellungen noch ganz viel raus holen. Ich habe auch schon Videos gesehen, da funktioniert das Erkennen fast genau so gut wie bei Google. Also der quatscht sein Gerät mit einem elend langen Text zu und während dem Reden schon kommen die gesprochenen Wörter. Aber das war glaub ich spanisch oder so. Aber da will ich es hin bringen.

Ich: Bot komm mal mit.

Bot: Okay. (Und dackelt mir dann brav hinterher)

Oder, im Falle das ich die KI dann mal im Auto einsetze:

Bot: Ich habe nicht mehr viel Treibstoff.

Ich: Wie lange hält der noch?

Bot: So zwischen 20 und 50 Km.

Würde ich es in Englisch machen wäre das auch echt schon eine Kleinigkeit. Die englische Grammatik ist deutlich einfacher und die Erkennung eben aus dem Stehgreif schon um einiges besser. Aber wie gesagt, ich will das auf Deutsch. Wenn alles gut läuft (aber bis dahin ist es noch ein gutes Stück), dann darf die KI auch eine eigene Persönlichkeit entwickeln. Also nicht nur Stumpf einen Befehl hören und reagieren sondern auch lernen. Da arbeite ich schon länger an einem Programm, was versteht was ich ihm sage. Es also den geschriebenen Satz nimmt, analysiert und daraus erkennt um was es geht. Mein Ansatz ist da schon halbwegs brauchbar würde ich sagen. Allerdings nicht selbst lernend. Alle Wörter müssen da mit Parametern in einer Datenbank zu finden sein. Aber daraus kann das Programm dann die Bedeutung von Sätzen erkennen. Inklusive Konjugieren und auch wenn Wörter nicht richtig geschrieben oder abgekürzt werden kann das Programm in vielen Fällen erkennen um was es sich handelt.Das wird nie perfektes Deutsch werden, zumindest kann ich mir das nicht vorstellen. Aber was solls! Das wird eben der DiaBot-Dialekt. Soll mal einer meckern oder es besser machen

.