Stimmen unterscheiden

**hirnfrei** · 04.07.2016, 17:28

Ja das mit dem Speicher. Ich gehe eh nicht davon aus, dass mein Projekt letzten Endes auf einem einzelnen Gerät realisiert werden kann. Ich habe auch keine Lust einen kompletten PC dann zu verbauen ^^. Da wird sich noch zeigen müssen wie die Hardware zu da eingesetzt werden muss. Gibt ja auch noch leistungsstärkere Geräte wie der Raspi.

Was das selber Bauen angeht. Klar ist der Spass am selber Bauen da, aber ich will das grosse Ganze selber bauen. Ziel ist letzten Endes, eine KI dich mich versteht, die sieht und hört und die nach Möglichkeit auch selber lernen kann. Das Alles unter einen Hut zu bringen ist schon letzten Endes so viel Bastelarbeit, dass es schon fast zur Lebensaufgabe werden würde, wenn man da jedes Rad neu erfinden müsste. Zudem du es ja schon ansprichst, am Ende ist das Rad dann nicht so schnell und effizient wie die die es schon gibt.

Was ich aber wirklich cool finde ist die Tatsache das man die Gewichte einfach nur speichern muss. Dann kann ich ja theoretisch das NN auf einem Desktop trainieren, dort auf den grossen Platten wirklich viele Vergleichsounds haben und dann die Werte einfach in die Software auf dem Raspi einspielen. Das klingt echt verdammt gut!

HaWe · 04.07.2016, 18:24

ntl kannst du das Netz extern trainieren - aber dann muss das Netz auf dem Pi trotzdem 1:1 samt aller Neuronen und der exakten Architektur dem Trainings-Netz entsprechen. Was die Größe und das RAM angeht hast du also nicht viel gespart, eventuell aber ein wenig Trainingszeit auf dem schnelleren Trainings-PC.
Im Ausführungsmodus muss dann aber auf dem Pi ebenfalls alles an Daten in derselben Weise wie beim Training zur Verfügung stehen, also hier überhaupt kein Vorteil (abgesehen von der Personen-wav-Vergleichsdatenbank auf SD oder USB)...
- und all das geht sowieso nur bei einer selbst geschriebenen Spracherkennung, nicht zusammen mit der PocketSphinx.

**hirnfrei** · 04.07.2016, 19:06

Warum sollte das mit PocketSphinx nicht funktionieren?

Davon aber ab, zur Stimmerkennung ist das gesprochene ja meines Wissens nach eh weniger wichtig. Also können die Rohdaten von der Soundkarte (eventuell auch vor gefiltert mit marsyas) auch direkt ans NN gehen.

Was die Datenmenge angeht, so wird da auch wegen der Gesichtserkennung früher oder später eine externe SSD zum Einsatz kommen müssen. Ich denke, auf Dauer ist das nichts für MicroSD Karten.

HaWe · 04.07.2016, 19:29

warum das nicht mit Pocketsphinx geht?
Ja Himmel, wo hat denn Pocketsphinx nochmal deine Wortdatenbank mit deinen zuzuordnenden Sprechern?

Und wie soll die Spracherkennung von Pocketsphinx mit der FFT und dem NN zusammenarbeiten?

Auch können niemals die Rohdaten direkt ans Netz gehen, das hatte ich doch geschrieben

**hirnfrei** · 04.07.2016, 20:21

Wie ich aber sagte, Pocketsphinx ist dafür auch nicht nötig. Das kümmert sich ja um die Spracherkennung, nicht um die Stimmerkennung.

Ich erwähnte aber das die Rohdaten vor gefiltert sein können oder? Guckst du hier:

Also können die Rohdaten von der Soundkarte (eventuell auch vor gefiltert mit marsyas) auch direkt ans NN gehen

Marsyas sollte in der Lage sein da die entsprechenden Werte zum Vergleichen raus zu holen.

Schau doch mal hier -> Marsyas

**hirnfrei** · 05.07.2016, 00:03

Gehe ich eigentlich recht in der Annahme, dass bei einer Aufnahme die Werte die Frequenz in Hz darstellen?

HaWe · 05.07.2016, 23:51

sollte nur eine Erklärung zur Funktion eines NNs sein, wie man Sprach- und Stimmenerkennung zusammen mit einer FFT damit bearbeiten kann, es war nicht auf dein Marsyas und auch nicht auf deine Pocketsphinx zugeschnitten, mit denen arbeite ich ja nicht.

Wie wav Daten gesampelt sind, musst du dir wohl noch mal anlesen - das kann ich dir hier nicht in der Kürze eines Posts erklären...
- Ich glaube, da hast du was grundsätzlich komplett missverstanden: es ist Sampling wie mit einem ADC, das sind natürlich NICHT irgendwelche Frequenzwerte!