Erst mal in Teilaufgaben zerlegen.
Den Mund könnte man mit einer Sprach zu Text Software ansteuern.
Man erstellt für verschiedene Phoneme unterschiedliche Ansteuermuster für die LEDmatrix.

Um Emotionen des Gegenüber zu erkennen, kann man ein Mikrofon mit starker Richtwirkung nehmen (um nur das Gegenüber zu erfassen) und mit einer VSA (voice stress analysis) analysieren.
Ich weis allerdings nicht wie es aktuell mit freeware VSAs für z.B. Raspberry aussieht.

Mit einer Gesichtserkennung kann der Robotkopf sich auf sein Gegenüber ausrichten.
In wie weit Mimik Erkennung schon als Freeware oder Quellcode verfügbar ist weis ich nicht.

Semantische Sprachanalyse ist etwas was ziemlich komplex ist.
Somit noch etwas jenseits der Möglichkeiten eines einzelnen.
Aber das galt für Gesichtserkennung vor ein paar Jahren auch noch.