#!/usr/bin/env ruby # luscious_crawler.rb # This program is under GPLv3 # Author: Red-Eyes (Nicolas Pelucchi) require 'uri' require 'net/http' require 'fileutils' class Crawler_of_luscious def initialize(url) @uri = URI.parse(url) # E' uri della pagina @title = "" @number_pages = "" @current_page = 1 end def connect_to_page(uri) begin Net::HTTP.get_response(@uri).body rescue puts "Fallimento nel connettersi alla pagina. Riprovo ..." retry end end # Il metodo scan fa il match su quanto gli ho passato ma mi restituira' solamente quello all'interno # delle parentesi tonde piu' interne ([^<]+), se avessi scritto solamente [^<]+ mi avrebbe restituito # tutta la stringa. def get_title(page) title = page.scan(/