Ciao, per un progetto avrei bisogno di effettuare una quantizzazione variabile per layer di una cnn. L'obiettivo è fare inferenza con pesi e bias quantizzati a 4 bit. Il problema che ho avuto è che usando Tensorflow lite posso avere si pesi a 8 bit ma bias con 32 bit e non ho modo né di variare a seconda del layer ne di uniformare a 8 bit anche i bias. Mentre con Tensorflow model optimization (MOT) ottengo un quantizzazione virtuale con floating point nonostante imposto pesi e bias a 8 o 4 bit.
Avete modo di indicarmi degli esempi dove effettivamente si possono visualizzare pesi e bias a 8 bit ma anche a 4 bit nel formato intero e no floating point? Vi risulta un problema effettivo o sto affrontando male il problema?
Grazie mille per l'attenzione.