Problema curioso:
come normalizzare, cioe' trovare il nome ‘ufficiale/corretto’ di un soggetto (azienda, persona, marchio, ecc) data una stringa che potrebbe :
- contenere degli errori
- usare l'acronimo
- usare l'acronimo solo in una parte del nome
- il nome potrebbe non essere completo , cioe' possono mancare delle parole
- l'ordine delle parole puo' essere arbitrario
- puo' contenere caratteri inutili (punto, virgola, parentesi, ecc)
- puo' contenere parole non presenti nel nome originale
.
Il caso generale consiste un un nome composto da molte parole e per il quale esiste anche l'acronimo.
Ad esempio:
Cassa di Risparmio di Venezia & Provincia
(me la sono inventata in questo momento ;-) ) .
Acronimo: CRVP
Uno puo' sbagliare a digitare il nome (casa di rispmio), puo' non mettere Provincia, o scrivere “P.”, oppure scrivere “Prov. e Regione Veneto”
---
Non e' necessariamente detto che esista un elenco predefinito di nominativi.
Potrebbe essere che i nomi debbano essere collezionati a mano a mano che il marchingegno viene interrogato.
Un elenco iniziale di nomi puo' o meno essere disponibile.
---
Ho gia' fatto una lista di possibilita' , ma forse uno del mestiere (che si occupa di software contabile) ha gia' affrontato unproblema del genere.
Ogni approccio a cui ho pensato ha dei problemini abbastanza antipatici.
C'e' ne uno che mi piace, MA non e' “figo” ;-)
Ormai se non si usa un LLM, non sono contenti ;-)
---
Ovviamente nn e' interessante una risposta del tipo : usa la libreria X.
Al limite, “usa la libreria X perche' implementa questo meccanismo che si e' dimostrato funzionare bene”
;-)