Welcome to Sign in | Help

Re: Extragere de cunostinte

  •  11-28-2006, 9:34 AM

    Re: Extragere de cunostinte

    Buna ziua

    Odata ce arborele de decizie este construit, convertirea acestuia la un set de reguli de decizie este, in general, o operatie foarte simpla (depinde de infrastructura oferita de platforma de data mining pe care o folositi). De aceea inclin sa cred ca 2 ar fi o arie mai interesanta decat 1. Desigur, ar trebui sa confirmati cu indrumatorul dumneavoastra stiintific.

    Daca aceasta este situatia, atunci va trebui sa va referiti la Knowledge Extraction sau Data mining. Definirea exacta a acestor domenii (cat si a diferentelor intre ele) este o problema mai delicata, dar teoria referitoare la arborii de decizie este aceeasi, indiferent de domeniul in care e incadrata.

    Arborii de decizie sunt arbori de predicate "crescuti" pe baza unor date de intrare si permit invatarea de reguli (conjunctii de predicate) ce conduc la cateva concluzii reciproc exclusive.

    Exemplu de arbore de decizie: http://www.sqlserverdatamining.com/VisioTree/ . Iata problema si cum a fost construit acest arbore: Un numar de persoane ua raspuns, prin intermediul unui chestionar, la urmatoarele intrebari: cate bai au in locuinta, cate dormitoare, ce varsta au, daca inchiriaza locuinta sunt proprietari. Pe baza acestor date, arborele pe care il vedeti a fost construit cu scopul de a detecta reguli care separa pe chiriasi de proprietari.

    In timpul antrenarii (construirii) arborelui, pe baza unor calcule, se determina ca cea mai buna separare intre chiriasi si proprietari este descrisa de faptul ca cei care inchiriaza au de obicei o singura baie in locuinta, iar proprietarii au 2 sau mai multe bai. Cu asta am obtinut primul nivel ar arborelui (prima partitionare sau primul split). Procesul continua la fiecare nod de pe acest nivel, pentru persoanele din setul initial care satifac conditia acelui nod.

    Procesul se incheiem in general, fie atunci cand un nod din arbore are prea putine persoane sau nu exista un criteriu care sa separe intre chiriasi si proprietari in acel nod.

    In final, fiecare nod este un predicat si reprezinta (impreuna cu toata calea de la parinte pana la el) un predicat compus, o regula ce conduce la o anume distributie a chiriasilor si proprietarilor.

    O "frunza" in acest arbore va fi descrisa, deci, de o regula (obtinuta prin citirea arborelui de la radacina pana la frunza) de genul:

    Daca "are 1 baie" si "varsta < 28" atunci "este chirias" cu o probabilitate de 92% (ceea ce inseamna ca, in nodul descris the regula compusa de mai sus, 92% din populatie inchiriaza).

    Acum, foarta multa cercetare in arborii de decizie trateaza in special de algoritmul de determinare a conditiei (predicatului optim) pentru un split.

    Alte probleme interesante: tratarea variabilelor numerice in arborii de decizie ( determinarea punctului optim de partitionare a unui interval continuu, cum ar fi, in exemplu de mai sus, varsta) sau arbori de decizie care prezic valori numerice (arborele poate contine cate o distributie normala in fiecare frunza, vezi algoritmul CART, sau cate o formula de regresie liniara in fiecare frunza, vezi algoritmul Microsoft_Decision_Trees)

    Daca supozitia mea initiala e corecta si instructorul dumneavoastra doreste un referat de tip 2, Knowledge Extraction pentru arbori de decizie), probabil ca va trebui sa treceti in revista aceste probleme si diverse solutii

    Sper sa va fiu de folos

    bogdan crivat [sql server data mining]

     

     


    b o g d a n c r i v a t
    [sql server|data mining]
    Filed under: ,
View Complete Thread
Powered by Community Server (Commercial Edition), by Telligent Systems