영상이나 캠을 인식해서 하는 거라면 솔루션이 꽤 있을거 같긴한데 실시간 음성을 인식하는게 되면 좀 제약이 될거 같긴 하네요.
일단 영상 인식이 되는 쪽에선
https://pkhungurn.github.io/talking-head-anime/
이런 공개 프로젝트가 있구요.
음성 인식계통은 녹음 음성이냐 실시간이냐에 따라서 또 갈릴거 같긴 한데...
유니티 엔진 쓸줄 아시면
https://laboratoriesx86.wordpress.com/2016/05/15/unity-realtime-lipsync/
이런거나
https://unitylist.com/p/6gh/MMD-4-Mecanim-Lip-Sync-Plugin
이런거쪽 사용해서 스킨된 캐릭터에 적용하는 방법도 있겠네요.