Die Spracherkennung (vergleich von Audio-Signalen) läuft meist über eine FFT (Fast Fourier Transformation), Stichwort: audio cross correlation
http://dsp.stackexchange.com/questio...es-are-similar

Grundsätzlich kann man versuchen
a) den Micro-Sound in Real time zu verarbeiten (wschl.schwierig)
b) der einfachste Weg (und der einzige, den ich mir für tinyalsa vorstellen kann), wäre aber:

Code:
0. überprüfen, ob du beliebige wav files überhaupt mit tinyalsa abspielen kannst , 
   ansonsten anderes Programm 
1. Code zum Aufnehmen eines .wav Files schreiben (entweder auch tinyalsa oder anderes Programm),  
   und die Qualität vom Ergebnis testen (abspielen), ggf Aufnahmeparameter anpassen   
2. a) erzeugte wav-File Daten in einen FFT-kompatiblen array passender Größe konvertieren,
      dann einer FFT unterwerfen (Array aus komplexen Zahlen, also 2D Array), 
   b) dann die Transformierte weiter verarbeiten (s. mein Post oben) um Rauschen / Störfrequenzen etc. zu elimieren
   c) debug: zur Kontrolle die FFT auf das veränderte Ergebnis anwenden,
      und dann das Ergebnis wieder als wav abspeichern und abhören
   d) goto 2.b)...
3. Anlage einer wav-Datenbank mit verschiedenen definierten Sound/Sprach-Records als Vergleichsbasis
die Parts mit dem Play- und dem Record-Programm wären also das erste, was du schreiben und testen musst.