Normalizzare il nome di un soggetto.

di il
3 risposte

Normalizzare il nome di un soggetto.

Problema curioso: 

come normalizzare, cioe' trovare il nome ‘ufficiale/corretto’ di un soggetto (azienda, persona, marchio, ecc) data una stringa che potrebbe :

  1. contenere degli errori
  2. usare l'acronimo
  3. usare l'acronimo solo in una parte del nome
  4. il nome potrebbe non essere completo , cioe' possono mancare delle parole
  5. l'ordine delle parole puo' essere arbitrario
  6. puo' contenere caratteri inutili (punto, virgola, parentesi, ecc) 
  7. puo' contenere parole non presenti nel nome originale

Il caso generale consiste un un nome composto da molte parole e per il quale esiste anche l'acronimo. 

Ad esempio: 

Cassa di Risparmio di Venezia & Provincia

(me la sono inventata in questo momento ;-) ) . 

Acronimo: CRVP

Uno puo' sbagliare a digitare il nome (casa di rispmio), puo' non mettere Provincia, o scrivere “P.”, oppure scrivere “Prov. e Regione Veneto” 

---

Non e' necessariamente detto che esista un elenco predefinito di nominativi. 

Potrebbe essere che i nomi debbano essere collezionati a mano a mano che il marchingegno viene interrogato. 

Un elenco iniziale di nomi puo' o meno essere disponibile.

---

Ho gia' fatto una lista di possibilita' , ma forse uno del mestiere (che si occupa di software contabile) ha gia' affrontato unproblema del genere. 

Ogni approccio a cui ho pensato ha dei problemini abbastanza antipatici. 

C'e' ne uno che mi piace, MA non e' “figo” ;-) 

Ormai se non si usa un LLM, non sono contenti ;-) 

---

Ovviamente nn e' interessante una risposta del tipo : usa la libreria X. 

Al limite, “usa la libreria X perche' implementa questo meccanismo che si e' dimostrato funzionare bene” 

;-) 

3 Risposte

  • Re: Normalizzare il nome di un soggetto.

    Mi sorge un dubbio: senza avere un elenco completo di tutte le possibili ragioni sociali, è fattibile quanto chiedi?

    E' una domanda da profano, per curiosità, perché stavo pensando a questo scenario: mettiamo che un algoritmo addestrato ti corregga “Cassa Risparmio Bologna” in “Cassa di Risparmio di Bologna”, poiché *statisticamente* questa è la forma generalmente più adottata per istituti di questo tipo, ma che tuttavia (per qualche strana coincidenza o caso particolare) la ragione sociale dell'istituto sia davvero “Cassa Risparmio Bologna”, scritto esattamente così, perché i proprietari dell'istituto sono un po' freak e hanno voluto distinguersi in questo modo…

    Come farebbe un ipotetico algoritmo a conoscere questa casistica?

    Poi magari è possibile che la mia ipotesi sia talmente remota da essere non significativa (e sono sicuro che lo sia, ma la mia era una curiosità generale sul metodo e/o sull'esistenza eventuale di uno strumento).

    Chiedo scusa per la digressione. :D

  • Re: Normalizzare il nome di un soggetto.

    Fa parte del human guided machine learning o anche dell'active machine learning: cioe' e' un umano che dice quale scelta fare, non una funzione di perdita/costo. 

    è ovvio che il marchingegno non puo' leggere nella mente.

    Mi aspetto che il macinino funzioni cosi': l'utente sottomette  la stringa, il macinino risponde con una serie di possibilità compresa la stringa originale, l'utente sceglie quella che gli sembra migliore. 

    Dopo un po (mantenendo le statistiche sulle scelte) il macinino impara quali sono le scelte migliori. 

    Ho trovato diversi dataset con MILIONI di nomi di aziende che possono essere usati per l'inixislizzazione (tutta robba open source) .

    alla fin fine, e' responsabilita' dell'umano scegliere il nome giusto.

    Nota: il tuo dubbio fa parte della lista di ‘possibili errori’. Senza avere una ‘fonte autorevole’ (qualcuno che dice: il nome e' questo è non si scappa! ) e' ovvio che la scelta della denominazione cadra' su quella usata piu' spesso. Banale statistica. 

  • Re: Normalizzare il nome di un soggetto.

    Prima di tutto bisogna definire con ‘nome giusto’ cosa tu voglia intendere

    Supponiamo di prendere in considerazione la Cassa di Risparmio di Venezia & Provincia, e supponiamo che con ‘nome giusto’ si intenda quello con il quale l'entita' e' registrata ai fini fiscali, quindi ad esempio il nome che e' stato dato ad Agenzia Entrate durante l'apertura Partita Iva

    L'unico modo per conoscere il ‘nome giusto’ consiste nell'interrogare, ammesso sia possibile, gli archivi/registri di Agenzia Entrate

    Comunque il punto focale sta nel capire cosa si intenda per ‘nome giusto’ una volta definito quello allora il ‘dove’ trovarlo e' automaticamente definito, poi che esista anche un ‘come’ trovarlo puo' essere, ma potrebbe anche non esserci un modo per interrogare in automatico l'archivio/registro  sul quale si sta cercando

    Vedi la ragione sociale data la Partita Iva, attualmente non c'e' un metodo standard per recuperarlo in automatico, anche se in realta' c'e' chi asserisce sia possibile ma sostanzialmente con metodi diciamo alternativi rispetto all'ortodossia

Devi accedere o registrarti per scrivere nel forum
3 risposte