L-am gasit pe Bogdan Crivat, un roman de-al nostru de la sediul-mama din Redmond, “luptand” din greu pe taramul data mining, pe site-ul specializat despre care va vorbi in cele ce urmeaza si pe MSDN. Mi-am zis, ce-ar fi sa ne unim si sa convorbim pe acest site ?, distantele ne despart insa preocuparile sunt aceleasi – SQL. In plus , pentru romanii de afara activitatea pe acest site, dar nu numai pe acesta (www.itboard.ro sau www.ronua.ro ) poate deveni o chestiune de suflet pentru ca uneste, aduna, imprieteneste oameni din aceeasi profesie.
A acceptat sa ni se alature si, mai mult, sa ne raspunda la cateva intrebari:
Gheorghe Ciubuc : Spuneti-ne pe scurt cate ceva despre activitatea dvs. in data mining.
Bogdan Crivat : Lucrez la Microsoft Corporation din 1999, iar din 2002 sunt Software Design Engineer in echipa SQL Server Analysis Services, si ma ocup in special cu partea de Data Mining.
In SQL Server 2005 m-am ocupat in special de aspectul de platforma all produsului nostru (scalabilitate, performanta si programabilitate) dar si de unii dintre algoritmii de Data Mining inclusi in server. Responsabilitatile mele principale tin de design si implementare, dar includ si consultanta tehnica pentru clienti sau crearea de articole sau sample-uri.
G.C:Ce stiti despre specialistii data mining din Romania? Dar despre apetenta companiilor romanesti de a folosi aceste tehnici pentru imbunatatirea procesului de management si dezvoltare? In afara cum merg lucrurile?
B.C.:Din pacate, nu stiu prea multe despre specialistii in data mining din tara. Sunt convins ca sunt multi, dar produsul nostru este relativ recent (a fost lansat cu SQL Server 2000) iar pozitia mea este mai degraba tehnica, asa ca nu am avut ocazia sa iau legatura cu utilizatorii nostril din Romania.
Stiu, de pilda, ca Ciprian Jichici, Microsoft Regional Director pentru Romania, este un promotor activ al acestui domeniu. De asemenea, stiu ca in cadrul Universitatii Transilvania din Brasov exista un grup de specialisti in Data Mining. Am avut placerea sa cunosc o parte dintre ei in aceasta vara.
Foarte multe companii, cu diverse domenii de activitate, vad in Data Mining potentialul de a fructifica informatia din bazele de date. Pe masura ce bazele de date devin mai mari, creste complexitatea si dificultatea extragerii informatiei. O parte din se poate extrage cu tehnologii clasice (OLAP sau Reporting), dar aceasta informatie raspunde de obicei, la intrebari cantitative (“ce” si “cat”). Data Mining complementeaza OLAP si Reporting oferind raspunsuri calitative (“cum” si “de ce”).
Doua studii de caz pentru tehnologia SQL Server Data Mining mi se par relevante.
ABSi (ABS Interactive) este un subsidiary al celei mai mari companii media din Filipine, ABS CBN. Printre altele, ABSi ofera spre clientilor sai, spre vanzare, tonuri de apel pentru telefoane mobile. Folosind SQL Server 2005 Data Mining pentru sistemul de recomdari, ABSi si-a dublat performanta campaniilor de marketing. Mai multe detalii despre aceasta implementare pot fi gasite aici: http://download.microsoft.com/documents/customerevidence/7841_ABSi_SQLServer2005CaseStudyFinal.doc
O aplicatie si mai spectaculoasa este studiul de caz pentru compania Clalit din Israel. Clalit Health Services ofera servicii de ingrijire medicala pentru 3,7 milioane de pacienti in Israel. Cum prevenirea problemelor de sanatate este mai ieftina decat tratarea acestora, Clalit a dorit sa gaseasca o solutie pentru identificarea acelor pacienti cu o probabilitate mare de deteriorare a sanatatii in viitorul apropiat. Cu o baza de date de 1,5 Tera-bytes, Clalit foloseste SQL Server Data Mining pentru a genera scoruri predictive pentru pacienti. Aceste scoruri permit medicilor Clalit sa-si avertizeze din timp pacientii si sa realizeze interventii medicale cu scopul de a preveni sau ameliora eventualele probleme. Aceasta solutie imbunatateste calitatea vietii pacientilor si reduce costurile pentru Clalit prin prevenirea si evitarea crizelor de sanatate.
Detalii despre implementarea Clalit pot fi gasite aici:
http://download.microsoft.com/documents/customerevidence/21382_Clalit_-_SQL_Server_2005_final.doc
Exemplele ar putea continua cu alte companii din diverse domenii. Problema in sine e aproape intotdeauna aceeasi: datele se aduna in Data Warehouse si e din ce in ce mai dificil sa valorifici aceste date fara Data Mining.
GC:Ce trebuie sa faca un aspirant la pozitia de dezvoltator de proiecte data mining, de unde sa apuce firul ? Indicati-ne va rog cele mai bune resurse in domeniu.
B.C.:Echipa noastra are un site web, www.sqlserverdatamining.com , care contine foarte multa documentatie impreuna cu niste aplicatii web folosing Data Mining (sectiunea Live Samples a site-ului). Pe acest site exista un articol despre carti recomandate de membrii echipei. Majoritatea trateaza Data mining in general, nu numai din perspectiva Microsoft.
Primul pas ar fi instalarea SQL Server 2005. Daca e deja instalat in reteaua locala, luati legatura cu administratorul bazei de date si asigurati-va ca si Analysis Services este instalat si accesibil. Daca nu este instalat, la sqlserverdatamining.com veti gasi un link catre versiunea de evaluare. Aceasta versiune este gratuita, ofera intreaga functionalitate si poate fi folosita timp de 180 de zile.
Odata ce SQL Server Analysis Services e instalat, sunt mai multe optiuni:
- Instalati addin-urile de Data Mining pentru Office 2007. Pasii sunt descrisi de dumneavoastra la http://sqlserver.ro/forums/thread/883.aspx , in articolul despre Data Mining in Office 2007. Addin-urile sunt un exemplu pentru multe tipuri de probleme ce pot fi rezolvate cu Data mining si nu necesita nici un fel de experienta in dezvoltarea de software.
- Sectiunea Tutorials a site-ului www.sqlserverdatamining.com contine instructiuni pas cu pas pentru utilizarea produsului. Data Mining Tutorial are fi primul pas, poate urmat de Text Mining
- Cele 2 articole despre “plug-in algorithms” sunt ceva mai avansate, pentru acei dezvoltatori/matematicieni care doresc sa implementeze propriul lor algoritm de Data mining (sau un algoritm existent, dar neinclus in SQL Server)
-Cei interesati de analiza datelor pot, in continuare, sa aplice pasii prezentati in articole la propriile date
-Cei interesati de dezvoltarea aplicatiilor care folosesc data mining, pot sa inceapa sa experimenteze cu API-urile expuse de SQL Server 2005. MSDN contine un articol, “SQL Server Data Mining Programmability”, la adresa http://msdn2.microsoft.com/en-us/library/ms345148.aspx . Acest articol prezinta cam tot ce inseamna dezvoltare pentru platform noastra
-Orice problema sau intrebare poate fi trimisa pe forumul de Data Mining de pe SQLServer.ro (http://sqlserver.ro/forums/18/ShowForum.aspx ), pentru un raspuns in romana, sau pe cel MSDN, pentru un raspuns in engleza (http://forums.microsoft.com/MSDN/ShowForum.aspx?ForumID=81&SiteID=1 )
G.C.:Spuneti-ne va rog cateva tendinte in implementarea tehnicilor data mining in produsele Microsft.
Cu SQL Server Data Mining, Microsoft incearca sa ofere mai mult decat un pachet analitic. Produsul nostru este o platforma pentru aplicatii inteligente, care invata din mers, pe baza datelor actualizate, ofera valoare utilizatorilor si foarte multa flexibilitate impreuna cu un model de programare familiar dezvoltatorilor.
Algoritmii inclusi in produs sunt optimizati pentru performanta si scalabilitate si, in opinia noastra, suficienti pentru cele mai frecvente probleme de Data Mining. Cele doua studii de caz mentionate anterior, Clalit si ABS CBN, arata gama larga de domenii care pot beneficia din utilizarea aceastei tehnologii.
Alte tehnici specifice de Data mining, pentru anumite aplicatii verticale, pot fi implementate ca “plug-in algorithms”. Algoritmul folosit este abstractizat de platforma, experienta dezvoltatorului este mereu aceeasi. Limbajul folosit pentru operatii de Data Mining (DMX), integrarea cu celelalte component de Business Intelligence (OLAP, Reporting Services, Integration Services) functioneaza la fel atat pentru algoritmii din cutie cat si pentru cei dezvoltati ca “plug-in”.
In opinia noastra, linia de demarcatie intre baze de date si business intelligence se estompeaza rapid, iar noi incercam sa oferim dezvoltatorilor si administratorilor de baze de date un mediu familiar, in care trecerea de la un domeniu la altul sa fie aproape imperceptibila.
G.C.:In tara cand sunt sanse sa ne vedem, cum stati cu dorul de casa?
B.C.:Dorul de casa, familie, prieteni e mare, asa ca am incercat sa vin in Romania cel putin o data pe an. Sper sa reusesc si in viitor"
G.C.:Va multumim si va asteptam la una din intalnirile Romanian SQL Server User Group.
B.C.:Va multumesc si eu, si astept intrebarile dumneavoastra pe sqlserver.ro
Gheorghe Ciubuc,SQL Server Influencer, MCP(SQL 2000), MCTS (SQL Server 2005) , OCA(Oracle 9i), Sybase(Brainbench)