Raccolta informazioni automatica: come funziona?

di il
4 risposte

Raccolta informazioni automatica: come funziona?

Buonasera Programmatori al bar,

non sapevo nemmeno quali parole digitare in google per trovare qualche informazione e perciò mi sono iscritta qui da voi, spero qualcuno abbia qualche dritta.

Ho bisogno di estrapolare informazioni dal web e dai social per poi riunirle sotto un unico tetto, tipo una rassegna stampa di un dato argomento. Ad esempio, una raccolta di tutte le conferenze che riguardano la birra. Prima di fare appello ad un informatico, vorrei prima capire di che cosa sto parlando.

Ecco le mie domande da bar:
1. esistono soluzioni che permettono una raccolta automatica di informazioni specifiche o bisogna per forza procedere all'antica, cioè spulciare e copiare e incollare manualmente le notizie?
2. dove posso trovare qualche informazione "for dummies" a riguardo?
3. come funzionano secondo voi i siti che raggruppano decine di fonti e che permettono la selezione di articoli?

grazie

4 Risposte

  • Re: Raccolta informazioni automatica: come funziona?

    Si chiama "web scraping"

    Ad esempio: https://scrapy.org

    Ma puoi trovare molto altro
  • Re: Raccolta informazioni automatica: come funziona?

    Perfetto, grazie mille. Adesso almeno so da dove iniziare.

    Riguardo alla domanda 3., credi che questi siti usino lo stesso metodo?
  • Re: Raccolta informazioni automatica: come funziona?

    Quasi sicuramente.

    Per certi siti (Facebook, Twitter, ecc), esistono API specifiche: cioe' l'azienda mette a disposizione, a pagamento, un'accesso diretto.
    Se forniscono accessi gratuti, generalmente questi sono molto limitati (quantita' di dati scaricabili).

    Comunque devi tenere in considerazione il seguente problema:

    tutti i siti che forniscono informazioni prevedono un controllo sul numero di volte che un certo IP (o range di IP) accede al loro sito.
    Se tale numero supera certi limiti (sono decisioni interne), il corrispondente IP viene BANNATO, cioe' bloccato.

    Le aziende, che usano questa tecnica, fanno dei contratti con l'azienda a cui sono interessati, in modo da evitare questo problema.

    Quindi, se tu vuoi fare qualcosa del genere, ATTENTO a non esagerare:

    spannometricamente non dovresti fare piu' di una connessione al minuto.
  • Re: Raccolta informazioni automatica: come funziona?

    Chiarissimo.

    Quindi, per riassumere, i maggiori ostacoli da tenere in considerazione sono:
    1. copyright delle informazioni contenute nel sito
    2. condizioni dei termini di servizio
    3. blocco del numero massimo di visualizzazioni da un IP
    4. oltre alla laboriosità del metodo in sé perché, mi sembra di capire, molto probabilmente le informazioni non sono inserite allo stesso modo.
    Ti vengono in mente altre questioni da tenere in considerazione?

    Se volessi assumere un informatico per gestire la raccolta di informazioni, che tipo di specializzazioni dovrei richiedere? Inoltre, un professionista del settore dovrebbe essere tenuto a conoscere le norme legali?

    Grazie, mi hai aperto un mondo.
Devi accedere o registrarti per scrivere nel forum
4 risposte