Se hai usato la funzione "audioread" per importare i suoni avrai in output
[y,Fs] = audioread(filename)
il vettore "y" con i campioni del segnale e la frequenza di campionamento "Fs"
La cosa più semplice che puoi fare per riprodurre due suoni contemporaneamente è sommare i due segnali, vale a dire i due vettori che contengono i campioni.
Se i vettori "y" hanno lunghezza diverse puoi, per esempio eliminare quelli in eccesso dal più lungo (tagliando la parte iniziale o quella finale) oppure aggiungere degli "0" al vettore più corto.
Per "sfasarli" puoi semplicemente aggiungere degli "0" all'inizio di uno dei due vettori; questo avrà l'effetto di "spostare" nel tempo l'inizio della riproduzione del segnale.
Per controllare la durata del "ritardo" puoi usare il valore delle frequenza di campionamento del segnale "Fs": per ritardarlo di "x" secondi, dovrai aggiungere "x * Fs" zeri.
Per avere possibilità di controllo più complesse sulla riproduzione dei due segnali puoi usare le funzionalità di "audioplayer"
https://it.mathworks.com/help/matlab/ref/audioplayer.html