Foarte interesant! Datele sunt publice?
As incerca cateva lucruri:
- separarea coloanei Regim Inaltime in 2 sau 3 coloane
- - subsol (boolean)
- - mansarda (boolean)
- - numar etaje (int)
Presupun ca toate cladirile au P(arter). O corelatie ar putea apare intre numarul de etaje si risc, corelatie ascunsa de eticheta acum
- E posibil ca expertul sa fie corelat puternic cu sectorul. E posibil ca acelasi expert sa analizeze mai multe cladiri dintr-un sector, caz in care expertiza nu mai influenteaza puternic riscul. Zona devine un factor mai important (probabil pentru ca zona + anul constructiei definesc in general in mare masura tipul constructiei). Faptul ca Sector apare in Naive Bayes (care-l trateaza ca variabila independenta) dar nu in Decision Trees (care are o maniera greedy de selectare a predictorilor), ma face sa cred ca Sector a puterninc corelat cu alta variabila. In plus, asta ar anonimiza rezultatele analizei (si reduce riscul de litigatie
)
Ca sa raman in zona "safe", atasez si eu nota ta finala: "Acest mesaj reprezinta opinii personale ale autorului, si trebuie tratat ca atare si nu are alte implicatii."
b o g d a n c r i v a t
[sql server|data mining]