Several contributions to the recent literature have shown that supervised learning is greatly enhanced when only the most relevant features are selected for building the discrimination rule. Unfortunately, outliers and wrongly labelled units may undermine the determination of relevant predictors, and almost no dedicated methodologies have been developed to face this issue. In the present paper, we in- troduce a new robust variable selection approach, that embeds a classifier within a greedy-forward procedure. An experiment on synthetic data is provided, to under- line the benefits of the proposed method in comparison with non-robust solutions.

Recenti risultati in letteratura hanno dimostrato che l’apprendimento su- pervisionato migliora notevolmente quando si scelgono le variabili pi`u rilevanti per la costruzione della regola discriminante. La presenza di valori anomali e di unit`a erroneamente classificate nel learning set pu`o severamente minare la deter- minazione dei predittori rilevanti e sfortunatamente quasi nessuna metodologia af- fronta questo problema. Il presente contributo propone un nuovo approccio robusto, che incorpora un classificatore all’interno di un metodo incrementale di selezione delle variabili. Risultati simulativi mostrano i vantaggi del nuovo metodo, in com- parazione con soluzioni non robuste.

Cappozzo, A., Greselin, F., Murphy, B., Variable selection for robust model-based learning from contaminated data = Selezione di variabili nella stima robusta di modelli per dati contaminati, Comunicazione, in Book of Short Papers SIS 2020, (Pisa, 21-25 June 2020), Pearson, Pisa 2020: 1117-1122 [https://hdl.handle.net/10807/306436]

Variable selection for robust model-based learning from contaminated data = Selezione di variabili nella stima robusta di modelli per dati contaminati

Cappozzo, Andrea;
2020

Abstract

Several contributions to the recent literature have shown that supervised learning is greatly enhanced when only the most relevant features are selected for building the discrimination rule. Unfortunately, outliers and wrongly labelled units may undermine the determination of relevant predictors, and almost no dedicated methodologies have been developed to face this issue. In the present paper, we in- troduce a new robust variable selection approach, that embeds a classifier within a greedy-forward procedure. An experiment on synthetic data is provided, to under- line the benefits of the proposed method in comparison with non-robust solutions.
2020
Inglese
Book of Short Papers SIS 2020
50th Scientific Meeting of the Italian Statistical Society
Pisa
Comunicazione
21-giu-2020
25-giu-2020
Pearson
Cappozzo, A., Greselin, F., Murphy, B., Variable selection for robust model-based learning from contaminated data = Selezione di variabili nella stima robusta di modelli per dati contaminati, Comunicazione, in Book of Short Papers SIS 2020, (Pisa, 21-25 June 2020), Pearson, Pisa 2020: 1117-1122 [https://hdl.handle.net/10807/306436]
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10807/306436
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact