Welcome to Sign in | Help
in Search

Extragere de cunostinte

Last post 11-20-2007, 10:01 PM by bogdan. 8 replies.
Sort Posts: Previous Next
  •  11-27-2006, 4:02 PM 1069

    Extragere de cunostinte

    Am de facut un referat cu titlul "Operatiuni de extragere de cunostinte cu arbori de decizie".

    1. Credeti ca operatiunile de extragere de cunostinte cu arbori de decizie (AD) pot fi identificate cu extragerea regulilor dintr-un AD, adica transformarea AD intr-un set de reguli de decizie?

    2. Sau trebuie sa ma refer la "Knowledge Extraction"? Si atunci ce ar insemna asta, concret, pentru AD?

    3. Altii indentifica extragerea de cunostinte cu "Knowledge Discovery in Data" care este pentru unii tot una cu "Data Mining", pentru altii un domeniu mai larg care include "Data Mining". In acest caz ce operatii ar executa AD aici?

    Astept sfaturile voastre!

    Cu multumiri,

    Laviniu

    Filed under: ,
  •  11-27-2006, 6:01 PM 1082 in reply to 1069

    Re: Extragere de cunostinte

    Ambele sensuri ale problemei de extragere cunostinte pot face parte din referatul dvs. Sigur, nr. 2 te duce cu gandul la DMX (atentie in tutorialul, de care s-a tot vorbit pe zona de dm, are explicata modalitatea de creare a unei instructiuni DMX , prin intrument grafic).

    Cred ca ponderea cea mai mare este spre limbaju DMX; ramane sa intrebati mai exact pe cel care are nevoie de referat.


    Gheorghe Ciubuc,SQL Server Influencer, MCP(SQL 2000), MCTS (SQL Server 2005) , OCA(Oracle 9i), Sybase(Brainbench)
  •  11-28-2006, 9:34 AM 1088 in reply to 1069

    Re: Extragere de cunostinte

    Buna ziua

    Odata ce arborele de decizie este construit, convertirea acestuia la un set de reguli de decizie este, in general, o operatie foarte simpla (depinde de infrastructura oferita de platforma de data mining pe care o folositi). De aceea inclin sa cred ca 2 ar fi o arie mai interesanta decat 1. Desigur, ar trebui sa confirmati cu indrumatorul dumneavoastra stiintific.

    Daca aceasta este situatia, atunci va trebui sa va referiti la Knowledge Extraction sau Data mining. Definirea exacta a acestor domenii (cat si a diferentelor intre ele) este o problema mai delicata, dar teoria referitoare la arborii de decizie este aceeasi, indiferent de domeniul in care e incadrata.

    Arborii de decizie sunt arbori de predicate "crescuti" pe baza unor date de intrare si permit invatarea de reguli (conjunctii de predicate) ce conduc la cateva concluzii reciproc exclusive.

    Exemplu de arbore de decizie: http://www.sqlserverdatamining.com/VisioTree/ . Iata problema si cum a fost construit acest arbore: Un numar de persoane ua raspuns, prin intermediul unui chestionar, la urmatoarele intrebari: cate bai au in locuinta, cate dormitoare, ce varsta au, daca inchiriaza locuinta sunt proprietari. Pe baza acestor date, arborele pe care il vedeti a fost construit cu scopul de a detecta reguli care separa pe chiriasi de proprietari.

    In timpul antrenarii (construirii) arborelui, pe baza unor calcule, se determina ca cea mai buna separare intre chiriasi si proprietari este descrisa de faptul ca cei care inchiriaza au de obicei o singura baie in locuinta, iar proprietarii au 2 sau mai multe bai. Cu asta am obtinut primul nivel ar arborelui (prima partitionare sau primul split). Procesul continua la fiecare nod de pe acest nivel, pentru persoanele din setul initial care satifac conditia acelui nod.

    Procesul se incheiem in general, fie atunci cand un nod din arbore are prea putine persoane sau nu exista un criteriu care sa separe intre chiriasi si proprietari in acel nod.

    In final, fiecare nod este un predicat si reprezinta (impreuna cu toata calea de la parinte pana la el) un predicat compus, o regula ce conduce la o anume distributie a chiriasilor si proprietarilor.

    O "frunza" in acest arbore va fi descrisa, deci, de o regula (obtinuta prin citirea arborelui de la radacina pana la frunza) de genul:

    Daca "are 1 baie" si "varsta < 28" atunci "este chirias" cu o probabilitate de 92% (ceea ce inseamna ca, in nodul descris the regula compusa de mai sus, 92% din populatie inchiriaza).

    Acum, foarta multa cercetare in arborii de decizie trateaza in special de algoritmul de determinare a conditiei (predicatului optim) pentru un split.

    Alte probleme interesante: tratarea variabilelor numerice in arborii de decizie ( determinarea punctului optim de partitionare a unui interval continuu, cum ar fi, in exemplu de mai sus, varsta) sau arbori de decizie care prezic valori numerice (arborele poate contine cate o distributie normala in fiecare frunza, vezi algoritmul CART, sau cate o formula de regresie liniara in fiecare frunza, vezi algoritmul Microsoft_Decision_Trees)

    Daca supozitia mea initiala e corecta si instructorul dumneavoastra doreste un referat de tip 2, Knowledge Extraction pentru arbori de decizie), probabil ca va trebui sa treceti in revista aceste probleme si diverse solutii

    Sper sa va fiu de folos

    bogdan crivat [sql server data mining]

     

     


    b o g d a n c r i v a t
    [sql server|data mining]
    Filed under: ,
  •  11-29-2006, 4:21 PM 1112 in reply to 1069

    Re: Extragere de cunostinte

    Interesanta problema. 

     
    Referitor la punctul 3: DM este de fapt doar un pas dintr-un demers de Knowledge Discovery; este precedat de selectarea, curatarea si preprocesarea datelor si urmat de extragerea cunostintelor aflate. Este insa un abuz de limbaj (practicat de unii autori) in care DM este vazut ca sinonim pentru KDD; poate acelasi tip de abuz prin care KDD = Business Intelligence - dar KDD se aplica si in astronomie sau genetica sau domeniu social sau medicina sau...

    Extragerea de cunostinte poate sa se refere la construirea unui model (sau a unui set de legi cu caracter local = patternuri) sau la construirea unui predictor (clasificator, estimator de probabilitate conditionata sau estimator de functie). De multe ori ca rezultat al unui demers de KDD obtii o "cutie neagra" (e.g. retele neurale) pentru care optional poti face un "reverse engineering" (dar nu e obligatoriu si multi se multumesc cu "cutia"). Deci as zice ca extragerea regulilor are un sens mai restrans decat extragere de cunostinte - ele reprezinta cel mai simplu si intuitiv mod de reprezentare de cunostinte. Este si motivul pentru care AD sunt preferati in KDD - regulile se obtin mai simplu decat in alte moduri.

    Parerea mea la punctul 1: extragere de cunostinte in AD = extragere de reguli in AD.  Dar pentru altceva decat AD, am relatie de incluziune.

     
    Lucian 

  •  11-29-2006, 6:46 PM 1115 in reply to 1112

    Re: Extragere de cunostinte

    Tocmai ca la DM ai  selectarea, "curatarea si preprocesarea datelor si urmat de extragerea cunostintelor aflate" - metodologia CRISP-DM tocmai asta spune (http://www.crisp-dm.org/)

    la DM  prin DMX chiar extragi cunostinte, sau ca sa ma exprim altfel chiar ai de descoperit cunostinte in datele primare.

    Asa ca eu as pune egalitate intre cei 2 termeni englezesti de pe aici.


    Gheorghe Ciubuc,SQL Server Influencer, MCP(SQL 2000), MCTS (SQL Server 2005) , OCA(Oracle 9i), Sybase(Brainbench)
  •  11-30-2006, 7:34 AM 1131 in reply to 1115

    Re: Extragere de cunostinte

    OLAP si Reporting pot fi folosite pentru KDD, de exemplu pentru extragerea si prezentarea unor KPIs (Key Performance Indicators) care depind de domeniu, ceea ce inseamna pana la urma Knowledge Discovery. Metode statistice clasice (de exemplu, simpla calculare a unei histograme) pot fi de asemenea folosite pentru descoperirea de informatie despre date. In opinia mea, Data mining cu siguranta nu e nici OLAP nici reporting, si nici propriu zis statistica (desi diversi algoritmi folosesc mai multa sau mai putina teorie statistica). De aceea, cred ca egalitate e putin cam mult.

    Pe de alta parte, ca sa sporesc confuzia: daca un cercetator in astronomie foloseste unelte de Business Intelligence (Analysis Services 2005) , atat OLAP cat si Data mining, pentru ca extrage informatii despre diverse tipuri de obiecte din spatiu, asta este extragere de cunostinte, nu?

     


    b o g d a n c r i v a t
    [sql server|data mining]
  •  11-20-2007, 9:29 PM 3408 in reply to 1069

    Re: Extragere de cunostinte

    Salut!

    As vrea sa te rog sa-mi trimiti referatul pe care l-ai facut caci am nevoie de informatie pt realizarea proiectul de licenta pe tema:" Sistem de extragere  de cunostinte din texte".

    Iti multumesc anticipat!

    Inga 

    Filed under:
  •  11-20-2007, 9:43 PM 3409 in reply to 1088

    Re: Extragere de cunostinte

    Salut!

    As vrea sa va rog foarte mult daca puteti sa-mi oferiti mai multa informatie(situri, carti ce as putea consulta) despre Extragerea cunostintelor, am nevoie de ea pt proiectul de licenta pe tema:" Sistem de extragere de cunostinte din texte". In ce consta ea, Cum se realizeaza ea, si ce sistem as putea realiza? Asi f fi oarte recunoscatoare pt sugestiile dvs.

    Merci anticipat! 

    Inga 


     

  •  11-20-2007, 10:01 PM 3411 in reply to 3409

    Re: Extragere de cunostinte

    Exista foarte multa cercetare in domeniu si destul de multe produse care fac analiza textului cu scopul de a extrage informatii

    Documentul de aici: http://www.sqlserverdatamining.com/dmcommunity/_tutorials/688.aspx prezinta, pas cu pas, solutia de text mining din SQL Server 2005

    Sper sa ajute

     


    b o g d a n c r i v a t
    [sql server|data mining]
    Filed under:
View as RSS news feed in XML
Powered by Community Server (Commercial Edition), by Telligent Systems