Stimmen unterscheiden

HaWe · 04.07.2016, 17:12

nein, der Due hat ja nur 1 Prozessor, nur 84 MHz, kein pre-emptives Multitasking und nur 92 MB RAM - da nimmt man besser einen der 4 Raspi cores für diesen Zweck, mit Training und Erkennung in einem high-prio pthread task, ggf mit einer schnellen USB-HD für schnellen Dateizugriff.

Wenn du mehr als 6 Personen erkennen willst, heißt das zunächst: Das Netz von vornherein darauf skalieren, sonst musst du mit dem Training hinterher wieder bei Null beginnen.
Und erkennen kann ein NN immer nur das, was auch an Daten (wenigstens grob, aber dann mit entsprechender Fehlerrate) trainiert wurde.
Unbekannte Daten => Ergebnis=Müll.

Ich finde auch: wenn fertige Lösungen ausreichen und die Anwendung das Ziel ist, muss man das Rad nicht neu erfinden. Anders sieht es aus, wenn man Spaß am Selber-Erfinden hat, auch bei schlechteren - aber vlt flexibleren - Resultaten.

- - - Aktualisiert - - -

ps,
scheiße, schon wieder beim Schreiben automatisch von Forum ausgeloggt! was ist das für ein Mist?! alles weg !!
Kann man nicht die LogIn-Dauer länger einstellen?!?

jetzt nur in aller Kürze:
für ein 100x40x10 Netz brauchst du je Verknüpfung nur alle Verbindungsgewichte speichern, also 100x40 plus 40x10 double-Werte, das ist das Gedächtnis, was nicht besonders viel ist, das kannst du beim Neustart leicht wieder in die Einzel-Neuronen laden.
Unterschätze aber auch das RAM nicht:
pro Verknüfung über 16 Bytes samt temporärer Hilfsvariablen, das sind hier mindestens 600kB (doch mehr, als ein Due besitzt, auch wenn man nur floats statt double verwendet),
und bei einem größeren 1000x500x100 Netz wird mit geschätzen 1-2GB auch schon so langsam das RAM des Pi gesprengt (nur für das Netz, plus Programmcode und wave-Puffer oben drauf).
4000x2000x100 - das wären dann schon mindestens 12GB Variablen im RAM, grob überschlagen... :-/

**hirnfrei** · 04.07.2016, 17:28

Ja das mit dem Speicher. Ich gehe eh nicht davon aus, dass mein Projekt letzten Endes auf einem einzelnen Gerät realisiert werden kann. Ich habe auch keine Lust einen kompletten PC dann zu verbauen ^^. Da wird sich noch zeigen müssen wie die Hardware zu da eingesetzt werden muss. Gibt ja auch noch leistungsstärkere Geräte wie der Raspi.

Was das selber Bauen angeht. Klar ist der Spass am selber Bauen da, aber ich will das grosse Ganze selber bauen. Ziel ist letzten Endes, eine KI dich mich versteht, die sieht und hört und die nach Möglichkeit auch selber lernen kann. Das Alles unter einen Hut zu bringen ist schon letzten Endes so viel Bastelarbeit, dass es schon fast zur Lebensaufgabe werden würde, wenn man da jedes Rad neu erfinden müsste. Zudem du es ja schon ansprichst, am Ende ist das Rad dann nicht so schnell und effizient wie die die es schon gibt.

Was ich aber wirklich cool finde ist die Tatsache das man die Gewichte einfach nur speichern muss. Dann kann ich ja theoretisch das NN auf einem Desktop trainieren, dort auf den grossen Platten wirklich viele Vergleichsounds haben und dann die Werte einfach in die Software auf dem Raspi einspielen. Das klingt echt verdammt gut!

HaWe · 04.07.2016, 18:24

ntl kannst du das Netz extern trainieren - aber dann muss das Netz auf dem Pi trotzdem 1:1 samt aller Neuronen und der exakten Architektur dem Trainings-Netz entsprechen. Was die Größe und das RAM angeht hast du also nicht viel gespart, eventuell aber ein wenig Trainingszeit auf dem schnelleren Trainings-PC.
Im Ausführungsmodus muss dann aber auf dem Pi ebenfalls alles an Daten in derselben Weise wie beim Training zur Verfügung stehen, also hier überhaupt kein Vorteil (abgesehen von der Personen-wav-Vergleichsdatenbank auf SD oder USB)...
- und all das geht sowieso nur bei einer selbst geschriebenen Spracherkennung, nicht zusammen mit der PocketSphinx.

**hirnfrei** · 04.07.2016, 19:06

Warum sollte das mit PocketSphinx nicht funktionieren?

Davon aber ab, zur Stimmerkennung ist das gesprochene ja meines Wissens nach eh weniger wichtig. Also können die Rohdaten von der Soundkarte (eventuell auch vor gefiltert mit marsyas) auch direkt ans NN gehen.

Was die Datenmenge angeht, so wird da auch wegen der Gesichtserkennung früher oder später eine externe SSD zum Einsatz kommen müssen. Ich denke, auf Dauer ist das nichts für MicroSD Karten.

HaWe · 04.07.2016, 19:29

warum das nicht mit Pocketsphinx geht?
Ja Himmel, wo hat denn Pocketsphinx nochmal deine Wortdatenbank mit deinen zuzuordnenden Sprechern?

Und wie soll die Spracherkennung von Pocketsphinx mit der FFT und dem NN zusammenarbeiten?

Auch können niemals die Rohdaten direkt ans Netz gehen, das hatte ich doch geschrieben

**hirnfrei** · 04.07.2016, 20:21

Wie ich aber sagte, Pocketsphinx ist dafür auch nicht nötig. Das kümmert sich ja um die Spracherkennung, nicht um die Stimmerkennung.

Ich erwähnte aber das die Rohdaten vor gefiltert sein können oder? Guckst du hier:

Also können die Rohdaten von der Soundkarte (eventuell auch vor gefiltert mit marsyas) auch direkt ans NN gehen

Marsyas sollte in der Lage sein da die entsprechenden Werte zum Vergleichen raus zu holen.

Schau doch mal hier -> Marsyas

**hirnfrei** · 05.07.2016, 00:03

Gehe ich eigentlich recht in der Annahme, dass bei einer Aufnahme die Werte die Frequenz in Hz darstellen?

HaWe · 05.07.2016, 23:51

sollte nur eine Erklärung zur Funktion eines NNs sein, wie man Sprach- und Stimmenerkennung zusammen mit einer FFT damit bearbeiten kann, es war nicht auf dein Marsyas und auch nicht auf deine Pocketsphinx zugeschnitten, mit denen arbeite ich ja nicht.

Wie wav Daten gesampelt sind, musst du dir wohl noch mal anlesen - das kann ich dir hier nicht in der Kürze eines Posts erklären...
- Ich glaube, da hast du was grundsätzlich komplett missverstanden: es ist Sampling wie mit einem ADC, das sind natürlich NICHT irgendwelche Frequenzwerte!

**hirnfrei** · 06.07.2016, 07:59

Ich erwähnte ja schon, dass ich mich bislang nie für Audiodaten interessiert habe. Wenn ich da schon den vollen Plan hätte müsste ich ja nicht fragen.

HaWe · 06.07.2016, 09:30

ei, du misst - ganz einfach ausgedrückt - dasselbe, was auch beim Lautsprecher rauskommt:
ganz primitive (aber schnelle) analoge Spannungs-Änderungen, jeweilige Level gemessen in Volt (verstärkter Micro-Eingang), aber eben blitzschnell gemessen und gespeichert, nichts anderes ist Audio-Sampling.