Buongiorno a tutti,
Ho realizzato un motore di ricerca che è in grado di ricercare e correlare dati.
Per testarlo ho provato a caricare miliardi di dati di dna di diverse specie e i risultati di ricerca sono in tempo reale.
Per la ricerca ho applicato un modello simile a quello degli indici inversi di marchioro, poi ripresi da sergey brin.
L'ho inoltre arricchito di un algoritmo di correlazione dei dati che è in grado di suggerire i passi che si possono eseguire nella ricerca dopo che hai effettuato n scelte.
Nei calcoli più complessi ho raggiunto e superato agevolmente O(100).
A dirla tutta cercavo un biologo o un bio informatico che mi aiutasse nel tuning dei dati immessi. Io ho banalmente scaricato giga di dati dalle banche dati e mi sono limitato ad inserire nel db tuple lunghe 8000 caratteri (la prima volta le tuple erano di 80 caratteri, ma poi potevo ricercare pattern di lunghezza massima 80) e indicizzare in maniera brutale le permutazioni delle 4 basi ACGT che formano il dna. Attualmente riesco a ricercare e correlare sequenze di oltre 800 caratteri...
La scelta del dna è stata abbastanza casuale perché serviva una mole di dati grande e neutra, nel senso che la difficoltà. doveva essere uguale sia per il piccolo che per il colosso informatico. Tuttavia nel tempo quello che mi ha colpito è che questo è un campo in piena espansione ed evoluzione e gli scienziati stanno ancora ad arrangiarsi con sistemi poco precisi ed efficienti come ad esempio i fasta o blasta o stanno provando tecniche pionieristiche come crispr, cas o cart che sebbene funzionino nell'immediato e nel riconoscimento del pattern preciso, toppano nel riconoscere tutte le sequenze che stanno per trasformarsi nel pattern preciso (ricordo che il dna replica all'infinito ed evolve di continuo), quindi riescono a correggere una malattia nell'immediato ma non riescono ad eliminare le parti che evolveranno in malattia.
Sarebbe bello mettere su un prodotto da far poi visionare ed eventualmente vendere o trovare dei fondi per poterlo mettere in rete.
Ovviamente di quello che ho scritto ho sia dei prototipi funzionanti che i modelli matematici che ho teorizzato.
È una sfida. Qualcuno vuole accettarla?