Welcome to Sign in | Help

Re: Intrarea romanilor in UE- studii de risc seismic (partea I)

  •  01-11-2007, 9:07 AM

    Re: Intrarea romanilor in UE- studii de risc seismic (partea I)

    Cred ca depinde de algoritmul folosit. Pentru Naive Bayes, de exemplu, e perfect adevarat. De altfel, de aici vine parca si "Naive" -- de la presupunerea ca variabilele sunt independente. Arborii de decizie, pe de alta parte, nu cred ca sunt asa de sensibili la variabile corelate. Dupa primul split, dupa unul din predictori, in fiecare din noduri, variabilele corelate isi pierd importanta si al doilea split nu le va lua in considerare.

    Acum, cand folosesti un algoritm care nu e atat de intuitiv ca arborii de decizie sau Naive Bayes, probabil ca cel mai bun lucru e sa elimini unele variabilele puternic corelate cu cele pe care le pastrezi. Aici, o solutie solida, dar mai putin intuitiva ar fi Principal Component Analysis, care iti transforma spatiul de variabile intr-un sub-spatiu cu mai putine dimensiuni, (aproape) independent. Variabilele generate de PCA nu sunt foarte intuitive (reprezinta proiectii ale mai multor variabile din setul originar pe niste axe).

    O solutie simpla, rapida si intuitiva este Naive Bayes peste toate variabilele, marcandu-le pe toate atat Input cat si Predict (in terminologia SQL Server, asta ar fi "Predict", diferit de "Predict Only"). Dependency Net-ul construit pentru Naive Bayes arata foarte clar corelatii intre variabile.

    Pe baza cunostintelor despre date se poate selecta un set aproape independent de variabile.


    b o g d a n c r i v a t
    [sql server|data mining]
    Filed under: ,
View Complete Thread
Powered by Community Server (Commercial Edition), by Telligent Systems