Allora ti consiglio:
- evita i modelli troppo “strani”, ma usa SOLO quelli ufficiali di huggingface ed aziende be conosciute (Microsoft, Facebook, OpenAI, …), di cui esista una documentazione "ragionevole"
- come hardware, potrebbe essere utile usare una scheda grafica NVIDIA con 24 GB di ram.
NON VALE LA PENA acquistare l'ultimo modello da 2000/3000 euro. Ma un modello di seconda mano di 1 o 2 anni fa che te lo porti a casa per 700/1000 euro. E' una bella cifretta MA se uno vuole la bicicletta, deve anche “pedalare” ;-)
Al momento direi una 3090.
Naturalmente SOLO Founders Edition (NVIDIA PURA). Le “customizzazioni per i gamer” le lasciamo ai “picciotti” ;-)
.
Il problema principale e' la memoria, piu' che il numero di core (anche se quello, piu' alto e' e “piu' meglio e'”)
Con abbastanza memoria nella scheda grafica, puoi utilizzare, senza diventare troppo matto, modelli di dimensioni “ragionevoli”.
Se no ci sono dei sistemi abbastanza strani (MA supportati da Huggingface e le librerie che hai elencato precedentemente) che permettono di “quatizzare” i pesi del modello fino a 8 o addirittura 4 bit (bitsandbytes).
Le follie che si sono inventati per far funzionare questi sistemi: floating point a 4 bit!
Quali sono i modelli migliori?
Facile, quelli per cui l'installazione va a buon fine al primo colpo ;-)
.
Sarebbe interessante (e potrebbe diventare anche un articoletto su questo sito O su qualche rivista) descrivere “dettagliatamente” come si addestrano questi modelli.
Il problema e' descriverlo in modo che si capisca “esattamente” perche' si fa cosi' o cola', NON stile “studentello che va di copia/incolla”.
.
SE vuoi farti una “cultura”, un libro interessante e' questo:
Foundation Models for Natural Language Processing - 2023
.
Poi, ovviamente, ci sono i tutorial di Huggingface.
Un'altro buon posto dove cercare informazioni e'
https://towardsdatascience.com/
Purtroppo e' a pagamento, ma 5$ al mese sono una cifra ragionevole e la qualita' degli articoli e' a volte decisamente elevata.
Ci sono alcuni articoli di diversi “pezzi grossi” in ambito Compute Science.
E' anche vero che uno puo' pagare per un po' di tempo, poi, quando si e' stufato, termina l'abbonamento ed amici come prima.
Nota: avevo “intravisto” una NVIDIA A10 a 1000 euro.
in teoria sarebbe una scheda perfetta per questi esperimenti, MA ci sono un sacco di MA:
1) e' una scheda per server in rack, non ho la minima idea se si puo' utilizzare su un normale PC
2) supporta i bfloat16 MA non ho idea se il fatto di avere un PC normale, con un normale processore che FORSE supporta float16, possa dare problemi o no in fase di trasferimento dei dati da e per la scheda.
Boh!
Se sai qualcosa in merito, sarei interessato ;-)