E' un argomento talmente specifico che non so neanche se esistono libri solo su quello. E' più probabile che trovi qualche paragrafo o qualche capitolo su un libro più generico.
Di base uno spider è formato da un parser che riconosce certi elementi in una pagina web (i link ed eventualmente altri elementi di interesse) e da una coda contenente i link raccolti. In pratica esegue una ricerca sul grafo formato dalle pagine web e dai link ma, a differenza della classica ricerca in ampiezza, solitamente reinserisce nella coda anche la pagina appena visitata (in modo da tornarci periodicamente). Poi di norma si aggiunge un modulo che legge eventuali file robot.txt per vedere quali pagine non deve visitare, ed eventualmente si può sostituire la coda con una coda a priorità, in modo da modificare lo scheduling delle visite secondo certi parametri (tipo la frequenza di aggiornamento delle varie pagine).
Secondo me ti conviene cercare delle guide online.