14 novembre 2006

MARS: multivariate adaptive regression splines

Tra le varie tecniche di analisi dati sviluppatesi ultimamente nell'ambito del data mining, in relazione al tanto noto problema di modellazione statistica con un numero elevato di variabili esplicative, segnalo i modelli MARS. A differenza di altre tecniche statistiche, inoltre, penso ci sia meno materiale in giro (in particolare in italiano). In questo mio articolo, comunque, non intendo affrontare l'argomento nello specifico, ma segnalare solo alcuni link dal quale trarre le giuste informazioni. La logica alla base del modello si sviluppa, anche in questo caso, nel mitico dipartimento di statistica della Stanford University. Ovviamente penso che la consultazione di tale sito sia d'obbligo per chi vuole essere aggiornato sugli sviluppi scientifici del data mining: si provi, tra i tanti, a dare un'occhiatina alla pagina di Jerome H. Friedman...Il rischio di "partire" con altre discussioni off topic è davvero elevato se si dovessere prendere spunto da tutto quello che ha scritto Friedman...Comunque, ritornando ai modelli MARS, ci sono tanti articoli liberamente scaricabili a questo indirizzo. Potete notare che il materiale deriva dal sito della Salford System, società americana che produce software per sviluppo di analisi di data mining. Non a caso, la società collabora con i big della Stanford University (...non ho ben capito che legame ci sia tra l'università e l'azienda, comunque nel sito dell'università non sono pochi i link che rimandano alla Salford System...). In Italia non vi sono sedi di tale società, ma il software è ad esempio distribuito dalla TStat. Comunque, tornando ai modelli MARS, penso che per la comprensione a fondo dell'argomento sia anche qui necessaria una buona preparazione di matematica, infatti come lo stesso Friedman dice : ...the procedure is implemented by constructing a set of (globally defined) basis functions that span the space of qth order approximations... (in particolare, con tale frase ci si riferisce alle funzioni spline, e a tal proposito un seggerimento lo trovate qui). Infine, voglio riportare una frase molto significativa di Friedman, sottolineando che sulla curse of dimensionality (maledizione della dimensionalità) potete trovare un bel paragrafo nel libro di Azzalini-Scarpa: Analisi dei dati e data mining. Penso che sia un ottimo libro in lingua italiana sul data mining, ma il livello è sicuramente introduttivo. Dimenticavo :-), ecco la frase di cui parlavo:...the direct extension of piecewise parametric modeling to higher dimensions (n > 2) is straightforward in principle but difficult in practice. These difficulties are related to the so called “curse-of-dimensionality,” a phrase coined by Bellman (1961) to express the fact that exponentially increasing numbers of (data) points are needed to densely populate Euclidean spaces of increasing dimension. In the case of spline approximations the subregions are usually constructed as tensor products of K + 1 intervals (defined by K knots) over the n variables. The corresponding global basis is the tensor product over the K + q + 1 basis functions associated with each variable (6). This gives rise to (K + q + 1)^n coefficients to be estimated from the data. Even with a very coarse grid (small K), a very large data sample is required... . Per quanto riguarda la possibilità di implementare un tale modello con strumenti open source, per fortuna che c'è R. Nell' mda Package è disponibile la funzione mars, tuttavia lo stesso autore sottolinea che si tratta di una procedura ancora in fase di test (...svantaggi dell'essere gratis????.... :-)

Nessun commento: