Tradurre il codice di un algoritmo noto sarebbe abbastanza agevole, ma in questo caso devo cercare di utilizzare efficientemente il parallelismo SIMD,riducendo così il tempo della computazione, attraverso il repertorio di istruzioni AVX (quindi con operazioni quali vblendps,vpermilps,ecc). In altre parole, devo
1) caricare in 1 registro i primi 8 elementi salvati in memoria
2)ordinarli
3)rimetterli in memoria
In fase di ordinamento non devo usare cicli,procedure o quant'altro, ma semplicemente mi devo avvalere del repertorio di istruzioni AVX.
P.S. Sto lavorando su un normale assembly 8086. Per quanto riguarda AVX (Advanced Vector Extension), è un set di istruzioni SIMD in sviluppo presso i laboratori Intel. Queste istruzioni prevedono l'introduzione di vettori a 256 bit (contro quelli a 128 bit usati precedentemente) che consentono di ottenere un raddoppio dei calcoli in virgola mobile e migliorare l'organizzazione dei dati, rendendola più efficiente.