+m+ ha scritto:
dvaosta ha scritto:
A me il problema più complesso da risolvere sembra invece la conciliazione delle fonti...
Vanno scritti riconoscitori per leggere i vari formati e scriverli in un db standard.
Altrimenti detti strumenti ETL.
Riguardo la selezione della pagina di un pdf, la vedo relativamente semplice: pdf è un linguaggio di markup con una struttura ad albero e tag (mi pare che la sintassi sia simile a latex per certi versi), per cui basta sapere i tag che delimitano le pagine e contare finché non si arriva alla pagina giusta.
PDF non è AFFATTO un linguaggio di markup (magari), è di una complessità smodata e nasce in realtà come evoluzione di postscript, in versione poi EPS e così via.
Dando per scontato che è irrealistico scriversi un proprio reader, ci si può orientare su prodotti già fatti (librerie), oppure su tentativi di automazione di sumatra, foxit o reader[/quote]
Postscript è un linguaggio di descrizione di pagina (che è leggermente diverso da un linguaggio di markup). PDF è un evoluzione che semplifica il linguaggio, ad esempio eliminando cicli e blocchi condizionali.
In particolare, se leggi l'ISO 32000, puoi vedere che pagine, immagini e via dicendo sono delimitate dai tag obj e endobj, e definite da appositi attributi. Quindi si può ben approssimare il formato pdf come un linguaggio di markup.
Riguardo al reader, so bene che esistono librerie in grado di fare una cosa del genere. Io ad esempio ho usato delle librerie php durante un tirocinio, che permettevano sia di creare pdf da 0 che di modificare file già esistenti.