Prima di iniziare a parlare di algoritmi di speach processing e di codice per farlo... forse sarebbe bene fossi tu a spiegarci che basi hai e quanto sai e non viceversa... perchè non basta essere intelligente, nemmeno esserlo molto, come sicuramente è il tuo caso.
La prima cosa è capire se sei in grado di programmare in C o C++ perchè se le tue conoscenze sono di VB6 o VBA direi che sei affondato in partenza..., ma anche ipotizzando tu sia esperto di C o C++ servono basi matematiche SOLIDISSIME per costruire le primitive, altrimenti devi appoggiarti a linguaggi come MathLab che hanno delle primitive per lo SpeachProcessing native, alle quali poi puoi apportare modifiche.
Cambiare la voce significa generare un battimento su alcune frequenza fondamentali, ma....
In merito poi alla semplicità della gestione Audio direi che è tutto RELATIVO, io che non sono molto intelligente, la trovo molto complessa... anche solo pensarla...
Il tutto senza poi nemmeno sapere che ti devi INTROMETTERE tra un SW di Win quindi il Driver del Microfono ed un'altro(SKYPE) in modo trasparente...
Io ho il sospetto che tu non abbia compreso pienamente la complessità di quello che hai banalizzato.