UNIVERZITA MATEJA BELA V BANSKEJ BYSTRICI EKONOMICKÁ FAKULTA

Size: px

Start display at page:

Download "UNIVERZITA MATEJA BELA V BANSKEJ BYSTRICI EKONOMICKÁ FAKULTA"

Deborah Hancock
5 years ago
Views:

1 UNIVERZITA MATEJA BELA V BANSKEJ BYSTRICI EKONOMICKÁ FAKULTA VOĽNE DOSTUPNÉ NÁSTROJE PRE DATA MINING BAKALÁRSKA PRÁCA ac eca da1-e9ad842ecb Michaela Krkošová

2 UNIVERZITA MATEJA BELA V BANSKEJ BYSTRICI EKONOMICKÁ FAKULTA VOĽNE DOSTUPNÉ NÁSTROJE PRE DATA MINING Bakalárska práca ac eca da1-e9ad842ecb99 Študijný program: Financie, bankovníctvo a investovanie Študijný odbor : financie, bankovníctvo a investovanie Pracovisko (katedra/ústav): Katedra financií a účtovníctva Vedúci bakalárskej práce: Doc. RNDr. Juraj Pančík Stupeň kvalifikácie: bakalár (v skratke Bc. ) Dátum odovzdania práce: 3. jún 2011 Dátum obhajoby:... V Banskej Bystrici 2011 Michaela Krkošová

3 ČESTNÉ VYHLÁSENIE Prehlasujem, že som bakalársku prácu Voľne dostupné nástroje pre data mining vypracovala samostatne, pod odborným vedením Doc. RNDr. Juraja Pančíka, CSc. a s použitím uvedenej literatúry. V Banskej Bystrici, dňa 30. mája 2011 Michaela Krkošová

4 POĎAKOVANIE Ďakujem doc. RNDr. Jurajovi Pančíkovi, CSc. za pomoc, odborné vedenie, rady a pripomienky pri vypracovaní mojej bakalárskej práce.

5 ABSTRAKT KRKOŠOVÁ, Michaela : Voľne dostupné nástroje pre data mining [Bakalárska práca]. Univerzita Mateja Bela, Ekonomická fakulta, Katedra financií a účtovníctva. Vedúci bakalárskej práce: Doc. RNDr. Juraj Pančík, PhD., stupeň odbornej kvalifikácie: bakalár. Banská Bystrica 2011, 45 strán Predkladaná bakalárska práca sa snaží vymedziť pojem data mining a popísať jeho využitie vo verejnom sektore a verejných financiách. Tiež sa snaží poukázať na možnosti a význam voľne dostupných softvérových nástrojov pre riešenie úloh dataminingu a pre hĺbkovú analýzu údajov. Bakalárska práca má teoreticko-empirický charakter a je rozdelená na tri časti. Prvá kapitola má 5 podkapitol. Hlavnou úlohou prvej kapitoly je oboznámiť čitateľa so základnými pojmi súvisiacimi s data miningom, jeho históriou, metodikou, využitím a technikami. Druhá kapitola má 2 podkapitoly, v ktorých sa na rôznych príkladoch snaží priblížiť možnosti využitia techník data miningu vo verejnom sektore a verejných financiách. V praktickej časti zloženej z 2 podkapitol je naším cieľom na skúšobnom datasete prakticky poukázať na rôzne možnosti využitia voľne dostupného nástroja RapidMiner a vyhodnotiť získané výstupy. KĽÚČOVÉ SLOVÁ Data mining. Dataset. Hĺbková analýza dát. CRISP-DM. Verejný sektor. RapidMiner

6 ABSTRACT KRKOŠOVÁ, Michaela : Free tools for data mining [Bachelor thesis]. Matej Bel University, Faculty of Economics, Department of Finance and Accounting. Consultant: Doc. RNDr. Juraj Pančík, PhD., degree: bachelor. Banská Bystrica 2011, 45 pages The presented bachelor s thesis tries to define the concept of data mining and describe its use in the public sector and public finances. It also tries to highlight the potential and importance of freely available software tools for solving data mining tasks and data mining. Bachelor s thesis has theoretical and empirical character and it is divided into three parts. The first chapter has 5 sections. The main task of the first chapter is to inform the reader with the basic concepts related to data mining, its history, methodology, usage and techniques. The second chapter has 2 sections, where it tries to bring near the possibility of using data mining techniques in the public sector and public finances on various examples. In the practical part, which has 2 sections, our goal is to show different possibilities of using freely available tool RapidMiner and evaluate obtained outputs on test dataset. KEY WORDS Data mining. Dataset. An in-depth data analysis. CRISP-DM. Public Sector. RapidMiner

7 OBSAH Úvod Teoretické vymedzenie pojmu data mining História s súčasnosť data miningu Metodika hĺbkovej analýzy dát Porozumenie problematike (Business Understanding) Pochopenie dát (Data Understanding) Príprava dát (Data Preparation) Modelovanie (Modeling) Vyhodnotenie výsledkov (Evaluation) Využitie výsledkov a ich nasadenie (Deployment) Využitie data miningu v praxi Úlohy data miningu Popis (description) Klasifikácia (classification) Odhad (estimation) Predpoveď (prediction) Zhlukovanie (clustering) Združovanie (Association) Techniky data miningu Rozhodovacie stromy Regresia Neurónové siete Metóda najbližšieho suseda Bayesovské klasifikovanie (Naive Bayes) Analýza využitia data miningu vo verejnom sektore a vo verejných financiách Verejný sektor a verejné financie... 24

8 2.2 Možnosti využitia data miningu vo verejnom sektore a verjných financiách Verejné financie - detekcia (odhaľovanie) podvodov Zdravotníctvo - lekárske diagnostikovanie Školstvo zvyšovanie úrovne vysokých škôl Bezpečnosť odhaľovanie teroristických aktivít Voľne dostupný nástroj pre data mining RapidMiner Prostredie RapidMinera a jeho možnosti Tvorba data mainingového projektu metodológiou CRISP-DM v programe RapidMiner Porozumenie problematike Pochopenie dát Príprava dát Modelovanie Vyhodnotenie výsledkov Využitie výsledkov a ich nasadenie Záver Bibliografia Zoznam príloh... 46

9 ÚVOD V dnešnej dobe plnej moderných technológií je podstatné efektívne využívanie dostupných zdrojov nielen v súkromnej, ale aj vo verejnej sfére. Spoločnosti vlastnia mnoho rokov budované databázy, ktoré majú pre ne obrovský potenciál, ktorý doteraz nebol plne využitý. Až vyspelá hĺbková analýza dát- data mining priniesla možnosť ako pomôcť spoločnostiam z týchto databáz vyťažiť relevantné informácie, vďaka ktorým môžu získať na trhu náskok pred konkurenciou. Aj vo verejnej sfére a verejných financiách môže byť táto technika plnohodnotne využitá, keďže môže zvýšiť efektívnosť alokácie voľných zdrojov. Cieľom tejto bakalárskej práce je vymedziť pojem data mining a popísať jeho využitie vo verejnom sektore a verejných financiách, rovnako ako poukázať na možnosti a význam voľne dostupných softvérových nástrojov pre riešenie úloh data miningu a pre hĺbkovú analýzu dát. K dosiahnutiu tohto cieľa budeme postupovať prostredníctvom čiastkových cieľov. Najskôr si ozrejmíme pojem data mining a možnosti využitia techník data miningu vo verejných financiách, neskôr analyzujeme možnosti voľne dostupného nástroja RapidMiner a v nakoniec pomocou tohto nástroja analyzujeme vybraný dataset a vyhodnotíme získané údaje. V prvej časti práce sa budeme venovať už spomínanému teoretickému vymedzeniu data miningu. Najskôr poukážeme na históriu a súčasné trendy data miningu (kapitola 1.1). Tiež si vysvetlíme metodiku CRISP-DM a jej fázy (kapitola 1.2), pozrieme sa ako sa data mining dá aplikovať do praktického využitia (kapitola 1.3), aké plní úlohy (kapitola 1.4) a aké techniky sú na plnenie týchto úloh využívané (kapitola 1.5). V druhej kapitole bude čitateľovi objasnené využitia data miningu vo verejnom sektore a verejných financiách. Najskôr však bude poukázané na rozdiel medzi týmito dvoma pojmami (kapitola 2.1). Až potom bude možné poukázať na možnosti využitia data mingu v jednotlivých sférach verejného sektora a verejných financií (kapitola 2.2). Posledná, tretia kapitola je venovaná ukážke praktického využitia techník data miningu na skúšobnom datasete prostredníctvom voľne dostupného nástroja RapidMiner. Najskôr je potrebné sa s týmto nástrojom zoznámiť (kapitola 3.1). Až neskôr sa môže pristúpiť k tvorba data mainingového projektu metodológiou CRISP-DM v programe RapidMiner (kapitola 3.2). 9

10 1 TEORETICKÉ VYMEDZENIE POJMU DATA MINING Dnešná doba je charakteristická vysokým stupňom informatizácie vo všetkých oblastiach života. Takmer na všetky procesy sa využívajú informačné systémy. S tým je spojený aj vznik a uskladňovanie veľkého množstva dát. S postupným zvyšovaním tohto objemu vzrástli aj nároky na vznik databáz, ktoré by uľahčovali orientáciu a prácu s týmito dátami. Vznikli nové oblasti, ktoré sa zamerali na prácu s databázami a analýzu získaných dát. Jednou z nich je aj hĺbková analýza dát- data mining (ďalej len DM). DM je charakterizovaný (GÁLA, a iní, 2009) ako proces extrakcie relevantných, vopred neznámych alebo nedefinovaných informácií z veľmi rozsiahlych databáz. Podľa autorov je dôležité, že pri DM sa jedná len o analýzy odvodzované z obsahu dát, ktoré nie sú špecifikované užívateľom alebo implementátorom. DM slúži manažérom na objavovanie nových skutočností, vďaka čomu môžu zamerať svoju pozornosť na podstatné faktory podnikania, môžu testovať hypotézy, odhaľovať skryté korelácie (závislosti) medzi ekonomickými premennými a iné. Z uvedeného je zrejmé, že na zistenie potrebných faktov potrebujeme hlavne vhodné dáta. Pokiaľ užívateľ dokáže využiť DM a porozumieť jeho výstupom, môže získať veľkú výhodu oproti konkurencií. Cieľom DM je dáta automaticky alebo poloautomaticky analyzovať a nachádzať v nich podstatné informácie o vzájomných závislostiach medzi vývojom hodnôt určitých ukazovateľov alebo o štruktúrach chovania (napr. nákupné preferencie zákazníkov). Tieto je potom možné použiť napr. ako podklad na zmenu marketingovej stratégie (napr. pre stanovenie skupín výrobkov pre krížový predaj- cross-selling). (NOVOTNÝ, a iní, 2005 s. 205) Tento pohľad uvádza, že pokiaľ v množstve získaných dát dokáže užívateľ pomocou DM nájsť informácie, môže ich využiť v prospech podniku. 1.1 História s súčasnosť data miningu DM je pomerne mladou disciplínou, no jeho rýchly rozvoj je podmienený vývojom iných techník. Rozvoj týchto techník ide ruka v ruke s rýchlym napredovaním informačných technológií celkovo. Techniky DM sú výsledkom dlhého výskumného a vývojového procesu. Tento vývoj začal už vtedy, keď boli podnikové dáta po prvý raz uložené v počítačoch. Ďalší vývoj sa rozmohol so zlepšením prístupu k dátam a nedávno, vďaka technológiám, ktoré umožňujú užívateľom prechádzať svoje dáta v reálnom čase. DM je pripravený pre použitie v podnikateľskej sfére, pretože je podporovaný tromi technológiami, ktoré sú už dostatočne 10

11 zrelé a rozvinuté. Sú to masívny zber dát, výkonné viacprocesorové počítače a DM algoritmy. Obrázok 1: Technológie stojace za vznikom DM Zdroj: (THEARLINK, 2010) Počty komerčných databáz rastú závratným tempom. Už v roku 1996 podľa prieskumu spoločnosti META Group bolo zistené, že veľkosť dátových skladov 19% respondentov už v tej dobe presahovala 50 GB, zatiaľ čo ďalších 59% respondentov očakávalo, že túto kapacitu prekročí v druhom štvrťroku daného roka. V niektorých sektoroch, ako je maloobchod, môžu tieto čísla byť oveľa väčšie. Ďalšou z podmienok bolo zlepšeniu výpočtového procesu. V dnešnej dobe vďaka počítačom s viacerými procesormi je možné vykonávať DM procesy nákladovoefektívnym spôsobom bez extrémne vysokých počiatočných investícií. Algoritmy dolovania dát predstavujú techniky, ktoré existujú už viacero rokov. Avšak len nedávno sa potvrdilo, že tieto algoritmy sú ako nástroje dostatočne spoľahlivé, zrelé a zrozumiteľné, aby natrvalo prekonali staršie štatistické metódy. Pri získavaní informácií z dát musí každý nasledujúci krok nadväzovať na krok predchádzajúci. Iba takýto postup zabezpečí, že vytvorený model bude konzistentný a výstup z neho relevantný. Nie je možné kroky ľubovoľne preskakovať alebo meniť ich poradie, treba striktne dodržiavať daný postup. V tabuľke 1 sú uvedené štyri kroky, ktoré sú z užívateľského pohľadu revolučné, pretože umožnili rýchle a presné odpovede na položené otázky. 11

12 Tabuľka 1: Vývojové kroky DM Vývojový krok Odpoveď na otázku Technológie Charakteristika Zber dát (60. roky 20. storočia) "Aké boli moje celkové tržby za posledných 5 rokov?" Počítače, pásky, disky Retrospektívny pohľad, statické poskytovanie údajov Prístup k dátam (80. roky 20. storočia) Aký bol jednotkový predaj na Slovensku vlani v júni? Relačné databázy, Structured Query Language (SQL) Retrospektívny pohľad, dynamické poskytovanie údajov na úrovni zápisu dát Dátové skladiská a podpora rozhodovania (90. roky 20. storočia) Aký bol jednotkový predaj na Slovensku vlani v júni? Detailné porovnanie s Prahou. OLAP databázy (Online analytic processing), dátové skladiská Retrospektívny pohľad, dynamické poskytovanie údajov na viacerých úrovniach Data mining (súčasnosť) Čo sa stane s jednotkovým predajom v Prahe budúci rok? Prečo? Masívny zber dát, výkonné viacprocesorové počítače, pokročilé algoritmy Prospektívny pohľad, predvídanie poskytovaných údajov Zdroj: Vlastné spracovanie podľa (THEARLINK, 2010) V dnešnej dobe môžu techniky DM preniesť výhody automatizácie na existujúce softvérové a hardvérové platformy. Ak sú DM nástroje zavedené na vysokovýkonnom systéme s paralelným spracovaním, môžu zanalyzovať masívne databázy behom niekoľkých minút. Rýchlejšie spracovanie znamená, že používatelia môžu automaticky experimentovať s viacerými modelmi a teda pochopiť aj zložité dáta. Vysoká rýchlosť je pre používateľov praktická, pretože vďaka nej môžu analyzovať obrovské množstvo dát. Väčšie databázy zas prinášajú lepšie predpovede (THEARLINK, 2010). 1.2 Metodika hĺbkovej analýzy dát Viacerí autori sa zhodujú na tom, že v DM sa vyskytujú dva druhy metodík, ktoré popisujú tento proces (napr. (BERKA, 2003), (CRISP, 2011)). Jedná sa za prvé o metodiky 12

založené na technologickom pohľade, kde sa väčšinou postupuje podľa nasledujúcich krokov: selekcia dát, predspracovanie dát, transformácia dát, dolovanie dát a interpretácia dát.

13 založené na technologickom pohľade, kde sa väčšinou postupuje podľa nasledujúcich krokov: selekcia dát, predspracovanie dát, transformácia dát, dolovanie dát a interpretácia dát. Druhá sada metodík je založená na manažérskom pohľade. V týchto metodikách sa obvykle postupuje po krokoch: porozumenie problematike (business understanding), pochopenie dát (data understanding), príprava dát (data preparation), modelovanie (modeling), vyhodnotenie výsledkov (evaluation), využitie výsledkov (deployment). Tento postup je prevzatý z metodiky CRISP-DM. CRISP-DM v preklade znamená CRoss Industry Standard Process for Data Mining. Metodológia CRISP-DM vznikla ako projekt financovaný Európskou komisiou a nie je teda majetkom žiadnej z komerčných spoločností. Súčasný procesný model pre DM poskytuje prehľad o životnom cykle projektu DM, ako zobrazuje obrázok 2. Sú tu zobrazené zodpovedajúce fázy projektu, ich úlohy a vzťahy medzi týmito úlohami (CRISP, 2011). V nasledujúcej časti mojej práce sa budem pridržiavať tejto metodiky. Obrázok 2: Fázy CRISP-DM procesného modelu a vzťahy medzi nimi Zdroj: (CRISP, 2011) Metodika CRISP-DM má nesporne mnoho výhod. Najvýznamnejšími sú však nezávislosť na riešenej úlohe, nezávislosť na DM software, projekcia obecných krokov do konkrétnych akcií, dostatočné overenie časom a tradícia, ale hlavne dostupnosť (SHEARER, 2000). 13

14 1.2.1 Porozumenie problematike (Business Understanding) Prvým krokom v procesu je definícia problému alebo príležitosti, na ktorú sa máme zamerať. Úspešná DM iniciatíva je vždy zahájená dobre definovaným projektom. Aby sme si overili, že bude vytvorená určitá nová hodnota, malo by byť v tejto fáze zahrnuté aj vyhodnotenie status quo 1 v danej oblasti. ( (NOVOTNÝ, a iní, 2005 s. 207) Táto počiatočná fáza sa zameriava na pochopenie cieľov projektu a požiadaviek z obchodného hľadiska. Následne sú tieto poznatky prevedené na definovanie DM problému a vytvorenie predbežného plánu dosiahnutia cieľov. V skratke by sme prvú fázu mohli zhrnúť do nasledujúcich piatich činností: - Pochopiť potreby podnikových procesov - Pochopiť problém - Naplánovať, ako vyriešiť problém pomocou dostupných zdrojov - Stanoviť si zámery a ciele, ktoré chceme dosiahnuť - Určiť miery, pomocou ktorých bude výsledný model hodnotený Pochopenie dát (Data Understanding) Fáza pochopenia dát začína počiatočným zozbieraním dát. Následne pokračuje činnosťami s cieľom oboznámiť sa s údajmi, identifikovať problémy s kvalitou údajov, ktoré neboli zrejmé na prvý pohľad alebo objaviť zaujímavé podskupiny k formovaniu hypotéz pre skryté informácie. (CRISP, 2011) Fáza pochopenia dát zahŕňa teda štyri kroky: - Zozbieranie počiatočných dát- analytik získava potrebné dáta, vrátane ich načítania a integrácie v prípade potreby - Popis dát- analytik získava údaje o vlastnostiach získaných dát, skúma problematiku formátu dát, množstva dát, počtu záznamov a iné - Skúmanie dát- táto časť rieši otázky DM, ktoré môžu byť riešené pomocou dopytovania, vizualizácie a vykazovania - Overovanie kvality dát- v tomto bode analytik skúma kvalitu dát, ich hodnovernosť a úplnosť, to znamená chýbajúce atribúty a prázdne polia, alebo či sú všetky zastúpené hodnoty možné 1 lat. súčasný stav 14

15 1.2.3 Príprava dát (Data Preparation) Časovo najnáročnejšou časťou (NOVOTNÝ, a iní, 2005) každého projektu DM je proces prípravy dát, nakoľko podľa týchto autorov vyžaduje až 80% z celkového času. DM vyžaduje, aby dáta, ktoré budeme analyzovať boli pripravené v jednoduchej a prehľadnej tabuľke (každý záznam, ktorý bude modelovaný, obsahuje mnoho stĺpcov).vďaka tejto metóde je možné vytvoriť až stovky resp. tisíce premenných, ktoré budú vstupovať do modelovania. Autori tiež upozorňujú, že táto projektová fáza je najkritickejšia, pretože platí pravidlo, že výsledné modely sú také dobré, aké dobré boli dáta použité na ich tvorbu. Autori taktiež poznamenávajú, že významné zlepšenie výsledkov môže byť dosiahnuté zlepšením metodológie prípravy dát. Aby bola databáza užitočná na DM účely, musí podstúpiť predspracovanie v podobe čistenia a transformácie dát. V DM sa často využívajú dáta, ktoré nikto nepoužíval mnoho rokov, takže v databáze môžu byť hodnoty, ktoré už stratili platnosť, sú irelevantné alebo chýbajú. Prvoradým cieľom je minimalizovať GIGO (garbage in, garbage out), tz. minimalizovať smeti, ktoré sa dostanú do nášho modelu a vďaka tomu minimalizovať množstvo odpadkov, ktoré z nášho modelu vychádzajú. (LAROSE, 2005 s. 28) Výber dát Výber dát, ktoré budú použité pre nasledovnú analýzu je založený na niekoľkých kritériách, vrátane významu dát pre DM ciele, rovnako ako kvalita a technické obmedzenia, ako napríklad limity objemu dát alebo typu dát. Napríklad adresa jednotlivca môže byť použitá na určenie regiónu, odkiaľ je dotyčná osoba, avšak údaj o ulici môže byť odstránený aby sa znížil objem dát, ktoré musia byť vyhodnotené. (SHEARER, 2000) Čistenie dát Bramer (BRAMER, 2007) sa domnieva, že aj keď majú dáta dodržanú štandardnú formu, nezaručuje to, že sú bez chýb. V reálnych datasetoch existuje viac príčin pre zadanie chybných hodnôt. Môžu to byť napríklad chyby merania, subjektívne úsudky a nesprávna funkcia alebo nesprávne použitie automatických záznamových zariadení. Niektoré zo závažných nedostatkov, ktoré by mali byť odstránené počas fázy čistenia dát sú nesúlad medzi hodnotami zaznamenanými u rôznych atribútov, ktoré však majú rovnaký význam, ďalej duplicita dát, chýbajúce údaje alebo existencia neprípustných hodnôt. 15

16 Transformácia dát V priebehu fázy transformácie dát prebehnú ďalšie konverzie dát na zaistenie homogenity a integrácie s ohľadom na rôzne dátové zdroje. Je prirodzené, že rôzne premenné sa navzájom výrazne líšia. Zoberme si napríklad výšku dospelého človeka v metroch. U väčšiny jedincov bude táto hodnota v rozmedzí od 1,5 do 2,1 metra. Avšak premenná váha dospelého človeka v kilogramoch môže nadobúdať hodnoty od 40 do 150. U niektorých algoritmov DM môžu takéto výrazné rozdiely v rozsahu viesť k tomu, že premenné s vyšším rozsahom budú mať neprimeraný vplyv na výsledky. Analytici by teda mali normalizovať ich numerické premenné, čím by vlastne štandardizovali rozsah účinku každej z premenných na celkový výsledok. Na normalizáciu existuje niekoľko rôznych techník, pričom prevládajúcimi sú normované normálne rozdelenie (z-score standardization) a min-max normalizácia Modelovanie (Modeling) Ďalšia z nevyhnutných fáz pri tvorbe DM modelu je modelovanie. V tejto fáze je možné vybrať a použiť široké spektrum modelovacích techník pre rovnaký problém. Je však potrebné upozorniť, že niektoré techniky majú špecifické požiadavky na to, v akej podobe budú vstupné dáta. Metodológia CRISP-DM uvádza, že prvý krok v modelovaní by mal predstavovať výber techniky modelovania, ktorá by mala byť použitá. Mnoho modelovacích techník má špeciálne požiadavky ohľadom dát (napr. nesmú sa vyskytnúť žiadne chýbajúce hodnoty, všetky atribúty musia mať rovnaký formát rozdelenia, klasifikačný atribút musí byť zadaný symbolicky a iné), ktoré musia byť dodržané. Pokiaľ sme si techniku modelovania vybrali, môžeme prejsť na ďalší krok, ktorým je vygenerovanie návrhu testovania. To v praxi znamená, že pred tým, ako vytvoríme konečný model, musíme vygenerovať postup na otestovanie kvality a platnosti modelu. Napríklad pri klasifikácií je zvyčajne meradlom kvality DM modelu chybovosť dát. Preto sa obvykle dátová sada delí na dve podskupiny- sadu trénovaciu a sadu testovaciu. Model sa vytvára na dátovej sade trénovacej a jeho kvalita sa určuje na dátovej sade testovacej. Ďalším krokom je samotné vytvorenie modelu. Po otestovaní modelu môžeme pristúpiť k aplikácií modelovacieho nástroja na pripravené dáta a k vytvoreniu jedného alebo viacerých modelov. Výstupom sú taktiež použité nastavenia parametrov pri danej technike modelovania, spolu s odôvodnením ich výberu. Treba si však uvedomiť, že výsledkom sú modely vytvorené modelovacím nástrojom a nie reporty (hlásenia) (CRISP, 2011). 16

17 Posledným krokom vo fáze modelovania je ohodnotenie modelu. Ohodnotenie modelu spočíva v interpretovaní výsledkov modelovania v kontexte kritérií úspechu DM (stanovených v rámci prvej fázy) a navrhnutého testovania (vyššie). Typicky ide o použitie štatistických vyhodnotení a iných dostupných mechanizmov pre danú úlohu DM. Výsledné ohodnotenie modelov sumarizuje výsledky tejto úlohy a obsahuje rebríček vygenerovaných modelov usporiadaných podľa ich kvality. Výsledkom môže byť aj zmena nastavených parametrov a následná nová iterácia (opakovanie krokov) tejto úlohy. (PARALIČ, 2003 s. 8) Vyhodnotenie výsledkov (Evaluation) Pokiaľ sme úspešne prešli celo fázou modelovania, môžeme vyhodnotiť dosiahnuté výsledky. Predošlé hodnotiace kroky na hodnotenie používali faktory ako presnosť a obecná platnosť modelu. Avšak tento krok hodnotí úroveň, s akou model dosahuje obchodné ciele a snaží sa určiť, či je prítomný nejaký dôvod, pre ktorý by mal byť tento model nedostatočný. Vytvorený model je tiež možné ohodnotiť tak, že ho implementujeme na reálnu situáciu a sledujeme, aká je úroveň jeho kvality. Ak sa domnievame, že je model schopný uspokojiť obchodné potreby, nasleduje ďalší krok- dôkladné preskúmanie celej DM úlohy. Tu sa určuje, či nebola prehliadnutá nejaká dôležitá úloha alebo faktor. V tomto preskúmaní sa taktiež môžeme uistiť o vyhovujúcej kvalite (o správnom zostavení modelu, o použití atribútov dostupných aj pre budúce analýzy). S ohľadom na výsledky hodnotenia a preskúmania procesu je potrebné určiť, ako chceme pokračovať ďalej. Musíme sa rozhodnúť, či tento projekt ukončíme a prejdeme na fázu využitia (nasadenia) získaných výsledkov. Môžeme sa však rozhodnúť, že prevedieme ďalšie opakovanie niektorých DM fáz alebo dokonca začneme s novým DM projektom. (CRISP, 2011) Využitie výsledkov a ich nasadenie (Deployment) Tvorba modelu nie je záverečnou fázou a ukončením projektu. Znalosti, ktoré boli získané musia byť usporiadané a prezentované tak, aby ich používateľ mohol využiť v praxi ako živý model v rámci organizácie pri rozhodovacom procese. V závislosti na požiadavkách, môže byť v tejto fáze vytvorená jednoduchá správa (report) alebo celý návod na opakovanie DM procesu v rámci podniku, keďže užívateľom týchto výsledkov, ktoré sú nasadené do prostredia podniku, je často manažér a nie DM analytik. Preto je dôležité aby užívateľ dopredu pochopil, aké kroky musia byť prijaté, aby vytvorené 17

18 modely boli skutočne využité. Kľúčovými krokmi v tejto fáze sú plánu nasadenia, plán monitorovania a údržby, vytvorenie záverečnej správy a posúdenie celého projektu (SHEARER, 2000). Prvou úlohou je vypracovať plán nasadenia výsledkov DM do praxe. Výstupom je tu plán nasadenia popisujúci nevyhnutné kroky a ich uskutočnenie. Plán monitorovania a údržby pomáha vyhnúť sa zbytočne dlhým obdobiam nesprávneho používania výsledkov DM. Keďže účelom je monitorovanie zavedenia výsledkov DM do praxe, projekt potrebuje podrobný plán na monitorovanie tohto procesu. Tento plán zohľadňuje špecifický typ nasadenia. Na konci projektu je spísaná záverečná správa. Tá môže obsahovať celkový sumár projektu a skúseností, alebo finálnu prezentáciu výsledkov DM, alebo oboje. Na konci projektu je záverečná správa, kde sú zhromaždené všetky súvislosti. Rovnako ako vyhodnotenie získaných výsledkov by táto správa mala poukázať na to, aké vznikli výdavky. Tiež by mala definovať prípadné odchýlky od pôvodného plánu, popísať vykonávacie plány a samozrejme určiť odporúčania pre budúcu prácu. Skutočný podrobný obsah správy však závisí od skutočnosti, pre koho je táto správa zhotovená. Posledným krokom celého DM projektu je jeho posúdenie- čo bolo dobré a čo zlé, čo je potrebné zlepšiť. V tejto fáze je potrebné zhrnúť dôležité skúsenosti z priebehu projektu, napr. úskalia, zavádzajúce prístupy alebo rady pre výber najlepšej techniky DM (CRISP, 2011). 1.3 Využitie data miningu v praxi V podstate akýkoľvek proces je možné študovať, pochopiť a vylepšiť s použitím DM. Tieto techniky sa aplikujú vo vzájomne veľmi odlišných oblastiach, ako je napríklad riadenie procesu výroby, ľudské zdroje, a iné. DM je užitočný všade tam, kde je možné zhromažďovať údaje. V súčasnosti je DM s výhodou a úspešne aplikovaný v rezortoch, ktoré: - sú orientované na služby zákazníkom - poskytujú finančné služby - majú výrobný charakter Typické problémy riešené s využitím DM sú napríklad segmentácia zákazníkov do skupín s podobnými vzormi správania sa, efektívna profilácia zákazníkov pre riadenie individuálnych vzťahov s nimi, identifikácia zákazníkov, ktorí prinášajú najväčší zisk a identifikácia dôvodov prečo, identifikácia príčin prechodu zákazníkov ku konkurencii, zistenie faktorov, ktoré významne ovplyvňujú nákupné správanie (vzory), plánovanie efektívneho riadenia a správania informačných systémov, predikcia neoprávnených 18

19 transakcií s (odcudzenými) platobnými kartami, alebo hlásení pochybných poistných udalostí, plánovanie potrieb energie, dodávok vody, telekomunikačných služieb, pochopenie budúceho správania zákazníkov na základe ich histórie a charakteristík, zistenie kritických faktorov vo výrobe (letectvo, automobily, elektronika, hutnícky priemysel). (SAS, 2011) 1.4 Úlohy data miningu DM môže riešiť stovky problémov. Na základe povahy týchto problémov, môžeme podľa Larosa (LAROSE, 2005) tieto základné úlohy DM rozdeliť na: - popis (description) - klasifikácia (classification), - odhad (estimation), - predpoveď (prediction), - zhlukovanie (clustering), - združovania (association) Popis (description) Berry a Linoff (BERRY, a iní, 2004) sú toho názoru, že niekedy môže byť účelom DM len jednoducho popísať o čo ide v zložitých databázach tak, aby sa zvýšila naša miera jej pochopenia. Ak je popis správania dostatočne vyhovujúci, môže nám poskytnúť aj vysvetlenie. Alebo nám dobrý popis môže minimálne navrhnúť, kde takéto vysvetlenie hľadať. Rodový rozdiel v americkej politike môže byť príkladom, ako jednoduchý popis ženy podporujú demokratov vo väčšom množstve ako muži, môže vyvolať veľký záujem o ďalšiu štúdiu zo strany novinárov, sociológov, ekonómov a politológov, nehovoriac o kandidátoch do verejných úradov Klasifikácia (classification) Podľa amerického autora Berryho (BERRY, a iní, 2004) je klasifikácia jedna z najbežnejších úloh DM, ktorá je pre ľudí nevyhnutná. S cieľom pochopiť a komunikovať človek neustále klasifikuje, kategorizuje a triedi. Klasifikácia predstavuje skúmanie vlastností novo predstavených objektov a ich priradenie do jednej z preddefinovaných množín tried. Klasifikovanie je charakterizované presne vymedzenou definíciou tried a cvičnej množiny pozostávajúcej zo vzorov, ktoré už boli klasifikované. Úlohou je vytvoriť model, ktorý by bolo možné použiť na ešte neklasifikované údaje, a tým ich jednoducho roztriediť. Tu sú uvedené príklady takýchto klasifikačných úloh: 19

20 - klasifikácia žiadateľov o úver ako nízko-, stredne- a vysokorizikových, - výber obsahu zobrazeného na webovej stránke, - odhalenie podvodných poistných udalostí, a iné Odhad (estimation) Odhad je podobný klasifikácií s tým rozdielom, že cieľová premenná je numerická namiesto nominálnej. Modely sú vytvorené pomocou úplných záznamov, čo znamená že sú dané hodnoty cieľových premenných, rovnako aj predpovedaných. Potom sú pre nové pozorovania odhady hodnôt cieľovej premennej založené na hodnotách predpovedí. Napríklad, mali by sme záujem o odhad systolického krvného tlaku hospitalizovaného pacienta, ktorý by bol založený na veku pacienta, pohlavií, BMI a hladine sodíka v krvi. Vzťah medzi systolickým krvný tlak a predpovedanou premennou v trénovacej množine by nám poskytol model odhadu. Potom môžeme aplikovať tento model na nových pacientoch. (LAROSE, 2005 s. 12) Predpoveď (prediction) Predpoveď je podobná klasifikácii a odhadu s tým rozdielom, že pri predpovedi získavame výsledky dosiahnuté v budúcnosti. Pri predikcií je jedinou možnosťou ako skontrolovať jej presnosť počkať a uvidieť skutočné dosiahnuté hodnoty. Autori Berry a Linoff (BERRY, a iní, 2004) uvádzajú, že aj niektorá z techník používaných pre klasifikáciu a odhad môže byť prispôsobená pre použitie v predpovedi, a to pomocou trénovacích vzoriek. Vtedy sa predpovedá hodnota premennej, ktorá je už známa, pomocou historických údajov v týchto vzorkách. Historické dáta použité na vytvorenie modelu teda vysvetľujú súčasné pozorované správanie. Keď sa tento model aplikuje na súčasné vstupy, výsledkom je predpoveď budúceho správania. Obrázok 3: Predpovedanie ceny akcie tri mesiace dopredu Zdroj: (LAROSE, 2005) 20

21 1.4.5 Zhlukovanie (clustering) Zhlukovanie, nazývané aj segmentácia, sa používa na identifikáciu prirodzených zoskupení založených na množine znakov. Zhlukovanie sa zaoberá zoskupovaním objektov, ktoré sú si navzájom podobné a zároveň sa líšia od objektov patriacich do iných skupín. Ako uvádza vo svojej publikácií Bramer (BRAMER, 2007), v mnohých oblastiach je výhodné zoskupovať objekty s rovnakými ukazovateľmi, napríklad: - v ekonómii môže byť užitočné hľadanie krajín, ktorých ekonomiky sú podobné, - vo financiách by sme mohli nájsť zoskupenia firiem, ktoré majú podobnú finančnú výkonnosť, - pri žiadosti o registráciu by sme mohli nájsť skupiny zákazníkov, ktorí majú podobné nákupné správanie, - v medicíne vy sa dalo zhlukovanie využiť na vytvorenie skupín pacientov s podobnými symptómami. Obrázok 4: Zhlukovanie Zdroj: Vlastné spracovanie Združovanie (Association) Združovanie (2010) je ďalšia z obľúbených DM úloh. Nazýva sa tiež analýzou nákupného košíka (market basket analysis). Typickým problémom, ktorý združovanie rieši je analýza predajných transakcií a identifikácia tých produktov, ktoré sú často nakúpené v rovnakom nákupnom košíku. Obecné využitie združovania je identifikovanie skupín tovarov nakupovaných spoločne (itemsets) a pravidiel cieleného cross-sellingu. Združovanie má dva ciele- nájsť časté itemsets a nájsť asociačné pravidlá. 21

22 1.5 Techniky data miningu Úlohy DM pokrývajú široké spektrum oblastí. Preto je tiež nutné, aby boli pre riešenie týchto úloh dostupné mnohé techniky ich riešení. Len to zabezpečí, že vytvorený model bude pre jeho užívateľa nápomocný a efektívny. V nasledujúcom texte si priblížime základné techniky DM, z ktorých niektoré budú využité aj v praktickej časti tejto práce Rozhodovacie stromy Rozhodovacie stromy sú jednou zo základných techník používaných v DM. Ich štruktúra podobná stromu sa využíva pri klasifikácií, zhlukovaní, predikcií. Rozhodovacie stromy sú ľahko pochopiteľné a intuitívne pre človeka. Sú vhodné pre viac-dimenzionálne aplikácie. Rozhodovacie stromy sú rýchle a zvyčajne produkujú vysoko-kvalitné riešenia. Ciele rozhodovacích stromov sú v súlade s cieľmi DM a objavovania poznatkov. (OMITAOMU, 2005 s. 39) Regresia Regresia je štatistická metóda schopná popísať stupeň významnosti vstupných premenných na výstupe. Jej sila sa ukrýva v teoretickej prepracovanosti odhadu chýb modelu a možnosti hľadať aj závislosť kombinácie vstupných premenných. Dobre sú prepracované metódy regresie pre odhad binárneho výstupu (logická regresia) či regresia pracujúca s dátami nadobúdajúcimi iba diskrétne (i nečíselné) hodnoty. Použitie regresie je limitované prácnosťou a časovou náročnosťou vývoja zložitejších modelov. (POSPÍŠIL, a iní, 2006) Neurónové siete Neurónové siete (SAS, 2011) sú všeobecným nástrojom pre modelovanie. Pre aplikáciu neurónových sieti je charakteristická fáza učenia sa na konkrétnej množine údajov a fáza ich aplikácie na vytvorenie žiadaného modelu. Použitie neurónových sietí je veľmi efektívne zvlášť pri spracovaní komplexných údajov (detekcia nelineárnych závislostí). Protikladom tejto efektívnosti sú ťažkosti pri interpretácii modelov a pri preukázaní toho, že výsledný model je optimálny vzhľadom na spracované údaje. Pre použitie neurónových sietí jestvujú určité špecifické obmedzenia týkajúce sa údajov, napríklad na spracovanie sú vhodné iba numerické údaje. 22

23 1.5.4 Metóda najbližšieho suseda Keď si jednotlivé hodnoty predstavíme ako body v dátovom priestore, môžeme zadefinovať susedstvo ako koncept, v ktorom sú jednotlivé hodnoty blízko ostatným, ktoré sú v každom susedstve. Na takomto pohľade je založený jednoduchý ale účinný algoritmus k-najbližší sused. Základným predpokladom k-najbližšieho suseda je rob to, čo robí sused. Ak chceme predpovedať správanie sa určitého indivídua, mali by sme sa najskôr pozrieť na to, ako sa správa jeho sused. Písmeno k značí počet susedov, ktorých správanie budeme skúmať. (SUMATHI, a iní, 2006) Bayesovské klasifikovanie (Naive Bayes) Triedenie podľa Naive Bayes klasifikátora je založené na pravdepodobnosti a aplikuje Bayesovu teorému, ktorá predpokladá silnú nezávislosť medzi atribútmi (naivitu). Takéto triedenie predpokladá že všetky atribúty sú rovnako dôležité a navzájom nezávislé. Zjednodušene Naive Bayes klasifikátor predpokladá, že prítomnosť (alebo neprítomnosť) špecifického znaku množiny nesúvisí s prítomnosťou (alebo neprítomnosťou) iného znaku. Napríklad, ovocie môžeme považovať za jablko ak je červené, guľaté a má priemer približne 10 cm. Aj keď môžu byť tieto znaky navzájom závislé alebo podstatné pre existenciu iných znakov, Naive Bayes klasifikátor uvádza, že každý z týchto znakov nezávisle prispieva na pravdepodobnosti, že daným ovocím je jablko. (BHAGVI, a iní, 2009) 23

24 2 ANALÝZA VYUŽITIA DATA MININGU VO VEREJNOM SEKTORE A VO VEREJNÝCH FINANCIÁCH 2.1 Verejný sektor a verejné financie V ekonomike existujú určité oblasti, o ktoré nejaví súkromný sektor žiadny záujem. Sú to oblasti, v ktorých nie je možné naplniť hlavné ciele podnikania a to maximalizáciu zisku pri čo najnižších nákladoch. Existujú aj oblasti, ktoré štátne nechce alebo nemôže prenechať súkromnému sektoru a tiež sa musí starať o nevyhnutné priority akými sú zdravie, vzdelanie alebo základný výskum. Tieto dôvody vytvárajú priestor pre verejný sektor. Podľa Baileyho (BAILEY, 1995) je možné verejný sektor charakterizovať ako plánované netrhové poskytovanie služieb. Rozsah poskytovania týchto služieb sa určuje kolektívne demokratickou voľbou. Alokácia vytvorených statkov sa realizuje podľa odhadu potrieb koncového spotrebiteľa. Strecková (STRECKOVÁ, 1998) však definuje verejný sektor ako časť národného hospodárstva, ktorá je financovaná z verejných financií, riadená a spravovaná verejnou správou, rozhoduje sa v nej verejnou voľbou a podlieha verejnej kontrole. Do verejného sektora patria orgány štátnej moci a správy, miestna samospráva a jednotlivé odvetvia verejného sektora ako sú napríklad zdravotníctvo, školstvo, obrana, kultúra, veda, telovýchova a iné. Verejné financie môžeme charakterizovať ako súhrn vzťahov medzi ekonomickými subjektmi, prostredníctvom ktorých sa prerozdeľujú peňažné prostriedky za účelom zabezpečenia fungovania verejného sektora, uspokojenia spoločných potrieb obyvateľstva pri uplatnení zásady nenávratnosti, jednostrannosti a vynútenosti (BORZOVÁ, a iní, 1997 s. 155) Financie môžeme definovať ako sústavu ekonomických vzťahov ktoré nadobúdajú formu peňažných operácií, pomocou ktorých sa tvorí, rozdeľuje a používa peňažná masa v ekonomike tak, aby došlo k rozdeleniu a znovurozdeleniu hrubého domáceho produktu, a tým aj k jeho realizácií. Z tejto definície je zrejmé, že verejné financie majú svoje nezastupiteľné miesto v sústave financií, pretože okrem iných úloh sú hlavným nástrojom prerozdelenia HDP (MERIČKOVÁ, 2007 s. 14) 2.2 Možnosti využitia data miningu vo verejnom sektore a verjných financiách Verejný sektor prežíva obdobie podstatných zmien, snahy o obmedzenie verejných výdavkov. To znamená obmedzenie finančných nákladov na sociálne zabezpečenie vrátane 24

25 dôchodkov a zdravotníckej starostlivosti a zabezpečenie maximálnej hodnoty peňazí. Na prekonanie týchto problémov verejné služby používajú stále viac a viac techník, akými sú napr. riadenie kvality a zmluvné služby. V mnohých krajinách sa správne orgány verejného sektora privatizujú a stretávajú sa po prvýkrát s konkurenčným prostredím. Na jednej strane sa verejné výdavky obmedzujú, na strane druhej verejnosť očakáva, že úroveň služieb v školstve, zdravotníctve a v infraštruktúre sa zachová alebo dokonca zvýši. Orgány verejného sektoru musia veľmi starostlivo uvážiť každú položku výdavkov. Verejný sektor je nútený prijímať také riadiace techniky, ktoré zabezpečia zvýšenie efektívnosti a kvality služieb pri neustále väčších rozpočtových obmedzeniach. Produktivita sa musí zvyšovať a preto úspešní manažéri potrebujú prístup k správnym informáciám, na ktorých by mohli založiť svoje rozhodnutia. Verejné orgány potrebujú zlepšovať komunikáciu a sústrediť sa na verejnosť. Vlády a správne orgány sú nútené používať stále dômyselnejšie metódy, aby mohli riadiť ekonomiku, predpovedať tempo rastu a plánovať služby. (SAS, 2011) Verejné financie - detekcia (odhaľovanie) podvodov Ako uvádza Háva vo svojom článku Data mining okolo nás (HÁVA, O., 2010), škody zapríčinené podvodným chovaní a následne náklady spojený s odhaľovaním takéhoto chovania sú veľkou záťažou štátnych aj súkromných organizácií. Odhadnúť pravdepodobnosť podvodu pri každej z akcií môže nielen zefektívniť budúce prešetrovanie, ale už vopred dokáže zabrániť podvodu. Metódy DM dokážu využiť k odhaľovaniu týchto podvodov dáta poisťovní, bánk, telekomunikácií, daňových a iných úradov. Príkladom je situácia, keď štátna organizácia prideľuje rôzne granty. Pri ich prideľovaní zistila, že v niektorých prípadoch nie sú tieto dotácie použité na účel, na ktorý boli poskytnuté. Takéto podvodné chovanie je potrebné minimalizovať. Keby sa mali osobne preveriť všetky alebo aj náhodne vybrané dotácie, bolo by to náročné a neefektívne. Preto je potrebné vybudovať systém, ktorý by sám vyberal žiadosti o dotácie, ktoré sú podozrivé alebo pri nich vzniká riziko zneužitia pridelených finančných prostriedkov. Následne by boli osobne preverené len takéto žiadosti Zdravotníctvo - lekárske diagnostikovanie Podľa Gorunescu (GORUNESCU, 2008) je diagnostikovanie s pomocou počítačov (Computer-Aided Diagnosis - CAD) čoraz dôležitejšia oblasť pre inteligentné počítačové systémy. Je tu obrovská príležitosť pre DM metódy ako pomôcť lekárom, ktorí skúmajú množstvo informácií o pacientoch aj najnovšie vedecké objavy. DM by mohol pomôcť 25

26 všetkým lekárom mnohými spôsobmi, napríklad pomáhaním pri interpretácií komplexných diagnostických testov, kombinovaním informácií z rôznych zdrojov (obrázkov, klinických údajov, proteomiky 2, vedeckých poznatkov a iných), poskytovaním podpory pri diferenciálnej diagnostike alebo špecifických prognózach pre pacienta Školstvo zvyšovanie úrovne vysokých škôl Data mining je považovaný (DELAVARI, a iní, 2008) za technológiu, ktorá je najvhodnejšia na podávanie dodatočného náhľadu na edukačné jednotky, ako napríklad na študentov, prednášajúcich, personál, absolventov školy a aj jej riadenie. DM sa správa ako automatický asistent a pomáha škole robiť lepšie rozhodnutia ohľadom ich vzdelávacieho procesu. Ukryté vzory, zoskupenia a odchýlky objavené technikami DM môžu pomôcť preklenúť rozdiely vo vedomostiach študentov rôznych vysokoškolských inštitúcií. Objavovanie znalostí pomocou techník DM by mohlo umožniť vysokým školám robiť lepšie rozhodnutia, využívať dokonalejšiu tvorbu rozvrhov pre študentov, predpovedať správanie sa jednotlivca s vysokou presnosťou a využívať zdroje a personál efektívnejšie. Výsledkom je potom vylepšenie rozhodovacieho procesu v inštitúciách vysokoškolského vzdelávania, čo môže priniesť rôzne zlepšenia, napríklad rast úrovne študentov, ktorí ukončili školu a miery udržania študentov, nárast podielu študijných zlepšení, viac študentských úspechov a výsledkov vzdelávania sa študentov, maximalizáciu efektívnosti systému vzdelávania a znižovanie nákladov na systémové procesy Bezpečnosť odhaľovanie teroristických aktivít V kontexte bezpečnosti krajiny, DM môže byť využitý k odhaľovaniu teroristických aktivít (GARSON, a iní, 2008), ako napríklad prevody peňazí a komunikácia, ale tiež na určovanie a stopovanie samotných teroristov, napríklad prostredníctvom cestovateľských a imigračných záznamov. Niektoré z aplikácií DM na zabezpečenie obrany vlasti predstavujú značné rozšírenie množstva a dosahu údajov, ktoré sú analyzované. Ďalšou možnosťou je sledovanie a detekcia teroristov a prejavov terorizmu na webe, pretože teroristi často využívajú internet na vzájomnú komunikáciu alebo nábor nových členov. Data mining môže tiež slúžiť (MENA, 2003) ako nástroj kriminálnej analýzy. Jeho cieľom je odhaľovanie a predchádzanie zločinu. Na rozdiel od kriminológie, ktorá zločin rekonštruuje za účelom jeho vyriešenia, kriminálna analýza využíva historické údaje, aby objavila riešenie a predchádzala zločinom. Vykonávajú sa tu rôzne štatistické skúmania 2 Veda zaoberajúca sa štúdiom proteínov 26

27 frekvencií špecifických zločinov. Kriminálna analýza zahŕňa veľmi detailné vyhodnotenie lokality, času a typu zločinu, ktorý bol spáchaný v budove, susedstve, obvode, meste, kraji atď. Štatistiky zločinnosti, riziká a pravdepodobnosti predstavujú to, čo zahŕňa kriminálna analýza. 27

28 3 VOĽNE DOSTUPNÝ NÁSTROJ PRE DATA MINING RAPIDMINER Keďže DM je progresívne a rýchlo sa rozvíjajúce odvetvie, aj ponuka nástrojov na analýzu dát a DM je veľmi pestrá. Na jednej strane stoja vyspelé nástroje od známych spoločností a na strane druhej sú rôzne voľne dostupné nástroje. Rozdiely by sme našli hlavne v užívateľskom prostredí, palete možných procesov a hlavne webovej podpore. Medzi jeden z vydarenejších voľne dostupných nástrojov pre DM patrí aj RapidMiner (dalej len RM). Vďaka širokej palete techník a priateľskému užívateľskému prostrediu si RM obľúbilo mnoho užívateľov na celom svete. Program môžeme zaradiť do skupiny open-source, čo znamená, že jeho zdrojový kód je pre programátorov voľne dostupný. Presnejšie sa za open-source pokladajú také aplikácie (ŠŤEDROŇ, 2009), ktoré sú šírené so zachovaním určitých práv a slobôd pre ich koncového užívateľ (nadobúdateľa licencie). Ide o právo spúšťať program za akýmkoľvek účelom, študovať ako program pracuje a prispôsobiť ho svojím potrebám (predpokladom k tomu je prístup k zdrojovému kódu), redistribuovať svojvoľne kópie, program vylepšovať a tieto zlepšenia zverejňovať. RapidMiner má oproti konkurenčným softvérom niekoľko nesporných výhod (RAPID- I, 2010). Okrem toho, že je to open-source softvér je tiež možné ho spustiť na všetkých bežných platformách a operačných systémoch (okrem Windows 32 bit a 64 bit aj na Linuxe, Macu a akomkoľvek operačnom systéme s nainštalovaným Java Runtime Environment). Viacvrstvový koncept pohľadu na dáta pomáha zabezpečiť efektívne spracovanie dát. Treba tiež spomenúť široké spektrum možností grafického zobrazenia. Veľkým plusom je tiež komplexnosť riešenia- RM ponúka viac než 500 operátorov pre integráciu dát a ich transformovanie, DM, vyhodnocovanie a vizualizáciu. Je schopný pracovať s dátami v rôznych formátoch alebo ich načítať priamo s databáz (Excel, Access, Oracle, IBM DB2, a mnoho iných). Vďaka týmto a aj mnohým ďalším pozitívam využíva RM mnoho spokojných užívateľov. 3.1 Prostredie RapidMinera a jeho možnosti K programu RM sa jednoducho dostaneme cez stránku jeho vývojárskej spoločnosti Rapid-I GmbH- Tu si v sekcií Download vyberieme z ponúkaných produktov RM. Ako si môžeme všimnúť, je ponúkaný v dvoch variantoch- Community Version a Enterprise Version. Rozdiel s programe nie je žiadny, avšak pri platenej Enterprise Version ponúka spoločnosť Rapid-I aj servis a záruku. Po kliknutí na odkaz Download the RapidMiner Community Edition sa nám otvorí nová stránka, kde si vyberieme verziu podľa požadovaného operačného systému a tlačidlom Download ju 28

stiahneme. Pred samotným začatím sťahovania však musíme vyplniť krátky dotazník kde zadáme meno a e-mailovú adresu. Po tomto úkone nám už nič nebráni v samotnom stiahnutí a nainštalovaní programu.

29 stiahneme. Pred samotným začatím sťahovania však musíme vyplniť krátky dotazník kde zadáme meno a ovú adresu. Po tomto úkone nám už nič nebráni v samotnom stiahnutí a nainštalovaní programu. Po správnej inštalácií softvéru RM môžeme prejsť k jeho prvému spusteniu. Prvý úkon, ktorý bude od nás RM požadovať je výber miesta na ukladanie dát- skladiska (Repository location). Tento úkon by sme mali bez problémov zvládnuť a môžeme pokračovať výberom nového projektu. Ten si ihneď uložíme a objaví sa pred nami základná pracovná obrazovka (obrázok 5). Obrázok 5: Základné rozostavenie pracovnej plochy v programe RapidMiner, Zdroj: Vlastné spracovanie podľa RapidMiner Samotné rozostavenie pracovnej plochy je intuitívne a podobné rozostaveniu v balíku kancelárskych nástrojov. Poďme si teda popísať, čo na základnej obrazovke RapidMiner 5 nájdeme a bez čoho sa v našej práci neobídeme. Majoritnú časť našej pracovnej plochy tvorí tzv. process viewzobrazenie okna nášho procesu (1). V tomto okne môžeme zadefinovať postup našich procesov jednoducho pomocou metódy drag and drop. Nad týmto oknom nájdeme dve záložky- Process a XML (2). Základné zobrazenie je Process a zobrazuje spomínané okno procesu. XML záložka dáva možnosť zobraziť náš proces v programovacom jazyku XML (extensible Markup Language).Vľavo od týchto záložiek sa nachádza prehľad (Overview) celého okna procesu (3). Pod ním máme opäť dve záložky- skladiská a operátory 29

30 (Repositories a Operators) (4), ktoré budeme často využívať. Záložka skladiská nám dáva možnosť načítať uložené procesy alebo dáta. Na záložke operátorov sa nachádza množstvo operátorov (algoritmov) na import a export dát, ich transformáciu, modelovanie a aj vyhodnotenie. Pod oknom proces sa nachádzajú opäť dve záložky. Pokiaľ sa vyskytne nejaký problém, ktorý bráni vykonaniu procesu, bude zobrazený pod záložkou Problems (5) aj s možnými riešeniami, pokiaľ sú dostupné. Na pravej časti základnej obrazovky RapidMiner-a je záložka parametrov (Parameters) (6). V tejto záložke môžeme nastavovať rôzne parametre a kritériá pre jednotlivé operátory. Pod touto zložkou je nápoveda (Help) (7), kde sa okrem iného môžeme dozvedieť viac o jednotlivých operátoroch a ich parametroch. Pokiaľ máme vytvorený celý proces, spustíme ho, pozastavíme alebo celkovo zastavíme pomocou tlačidiel Run, Pause s Stop (8), ktoré sú vo vrchnej časti obrazovky. Napravo od nich sú opäť tri tlačidlá pre zmenu zobrazenie- návrhové zobrazenie, výsledkové zobrazenie a úvodné zobrazenie (Design workplace, Result workplace a Welcome screen) (9). Okrem týchto spomínaných prvkov sa tu nachádzajú ďalšie prvky, známe aj z práce v programoch kancelárskeho balíka. 3.2 Tvorba data mainingového projektu metodológiou CRISP-DM v programe RapidMiner Porozumenie problematike Ako bolo už spomenuté v predchádzajúcej časti našej práce, prvým krokom k vytvoreniu úspešného DM projektu je dôkladné naštudovanie a porozumenie problematike. V našej práci sa pozrieme na to, aké atribúty môžu mať vplyv na príjem osôb. Predpokladáme, že tento príjem by mohol závisieť od vzdelania, pohlavia, rasy ale aj iných atribútov. V ďalšej časti práce sa dozvieme viac o veľkosti vplyvu rôznych atribútov na príjem. Následne vytvorený model by mohla využívať napríklad cestovná kancelária ponúkajúca plavby okolo sveta, ktorá by svoje ponuky zasielala len vyššie príjmovým osobám. Tiež je potrebné stanoviť si ciele, ktoré chceme našim výskumom dosiahnuť. My si môžeme zadefinovať ako cieľ zistenie základných štatistických údajov o rozličných atribútoch a ich vplyv na celkový príjem osôb Pochopenie dát Na pochopenie dát je nevyhnutné najskôr nejaké dáta získať. Náš dataset je z UCI Machine Learning Respository (UCI, 2011). Obsahuje mnoho atribútov ako vek osoby, jej 30

31 zamestnávateľ, dosiahnuté vzdelanie, manželský status, rodinu, rasu, pohlavie, počet odpracovaných hodín týždenne, krajinu pôvodu a indikátor ročného príjmu- či je väčší alebo menší ako 50 tisíc dolárov ročne. Náš dataset je rozdelený na dva rôzne sadytrénovaciu (s skúmanými osobami) a testovaciu (s skúmanými osobami). Je však nevyhnutné dodať, že nakoľko je tento dataset veľmi obsiahly, niektoré údaje v ňom chýbajú. Tento problém však vyriešime v ďalších fázach nášho projektu. Typy hodnôt atribútov v RapidMiner Teraz si popíšeme jednotlivé atribúty a typy hodnôt, ktoré ich vyjadrujú. Atribút vek a numerické vzdelanie zastupuje číselná hodnota (numeric), zamestnávateľ, vzdelanie, status, pracovná pozícia, rodina, rasa a krajina pôvodu sú zas všetko atribúty polynomickévýber pozostáva z viac ako dvoch rôznych hodnôt (polynomic). Pohlavie a príjem sú zas binomickými atribútmi- nadobúdajú jednu z dvoch hodnôt (binomic). V nasledujúcej tabuľke (tabuľka 2) sú zobrazené typy hodnôt, ktoré môžu atribúty v RM nadobúdať. Tabuľka 2: Typy hodnôt v RapidMiner Zdroj: (RAPID-I, 2010) Najlepším spôsobom na pochopenie dát je ich grafické zobrazenie. Software RM ponúka široké spektrum možností, ako tieto dáta zobraziť. Na to však potrebujeme naše dáta načítať do programu RM. 31

32 Načítanie dát Otvoríme si program RM, vytvoríme si nový projekt kliknutím na New, pomenujeme ho a vyberieme miesto uloženia. Na záložke Respositories sa nám kliknutím na šípku vedľa ikony na načítanie dát zobrazí na výber paleta formátov na import dát, z ktorých vyberieme formát nášho datasetu. Naše dáta sú uložené vo formáte.xls (zošit programu Excel ), preto vyberieme možnosť Import Excel sheet (načítať excelovský hárok). Spustí sa Data import wizard, ktorý nás prevedie celým procesom načítania dát. Po výbere dát z disku počítača v kroku 1 sa presunieme ku kroku 2. Tu sa nám zobrazí prehľad celého datasetu v excelovskej tabuľke. Pokiaľ je v danom súbore viac hárkov, v tomto kroku si vyberieme ten, s ktorým chceme ďalej pracovať. V kroku 3 môžeme každému riadku prideliť krátky popis- anotáciu (annotation). Keďže náš dataset obsahuje vo vrchnom riadku názov stĺpcov, jeho anotácia bude meno (name). Na výber máme ešte možnosť popis (comment) alebo jednotka (unit). Asi najvýznamnejším krokom importu dát je krok 4. V tomto kroku sa nám zobrazia všetky stĺpce. Práve tu máme možnosť odobrať stĺpce, s ktorými nechceme pracovať. Každý stĺpec je definovaný tromi špecifikáciami. Prvou z nich j názov, ktorý tu môžeme zmeniť. Pod názvom je scorllovacie okienko na určenie a zmenu typu hodnoty v danom stĺpci. Môžeme vybrať z mnohých číselných aj nečíselných charakteristík, ako sme už spomínali. Poslednou charakteristikou je zadefinovanie role atribútu tiež pomocou scrollovacieho okna, ktoré ponúka na výber širokú paletu rolí. Môžeme si vybrať napríklad rolu identifikátora (ID), váh (weight), klastra (cluster) a iných. Pokiaľ atribút nemá žiadnu špeciálnu rolu a len popisuje premennú, ostane len atribútom (attribute). Špeciálnu úlohu má rola cieľovej premennej (label), ktorá popisuje premennú a musí byť predikovaná premennými, ktoré ešte nie sú charakterizované. V každom datasete je nevyhnutné zadefinovať, ktorá premenná nadobudne úlohu tejto cieľovej premennej. Samozrejme, cieľovú premennú je možné v ďalšom priebehu práce jednoducho zmeniť. Na spodnom riadku je tiež zobrazené, koľko náš dataset obsahuje chýb. V poslednom 5. kroku už iba vyberieme miesto, kam chceme importované dáta uložiť a dokončíme import. Vizualizácia dát Keď sme dokončili import dát, pod záložkou Respositories by sme mali nájsť náš dataset. Ten prenesieme myšou do okna procesu. Zobrazí sa nám operátor Retrieve. Jeho output (out) spojíme s výsledkom procesu (res) a klikneme na Run. Po dotazoch na uloženie procesu a zatvorenie predchádzajúcich výsledkov sa nás program opýta, či sa 32

33 chceme prepnúť do zobrazenia výsledkov, čo chceme. Záložka Result Overview zobrazuje všetky doterajšie procesy, ich trvanie, dátum a čas spustenia. ExampleSet (Retrieve) nám ponúka zaujímavejšie informácie. Máme na výber z rôznych možností pohľadov. Meta Data View ponúka prehľadné zobrazenie všetkých atribútov, ich rolu, názov a typ. Tiež sú tu uvedené základné štatistické údaje, interval či počet chýbajúcich hodnôt. Data View zas ponúka zobrazenie podobné Excel tabuľke so všetkými údajmi ako to zobrazuje príloha 1. Nás však zaujíma už spomínaná vizualizácia. Tú získame po kliknutí na Plot View. Toto zobrazenie ponúka širokú paletu grafov (Scatter, Pie, Histogram,...). Napríklad príloha 2 nám zobrazuje závislosť počtu odpracovaných hodín týždenne a rasy. Tiež môžeme vidieť, aký majú tieto premenné vplyv na celkový ročný príjem. Vidíme, že najviac pracovných hodín týždenne odpracujú ľudia bielej rasy. Najmenej naopak pôvodný obyvatelia Ameriky- Indiáni a Eskimáci. Ďalším zobrazeným grafom (príloha 3) je blokový graf, ktorý nám pomôže pochopiť ako navzájom súvisia pohlavie, zamestnávateľ a dosiahnuté vzdelanie. Môžeme vidieť, že najvyššie dosiahnuté vzdelanie majú ženy pracujúce v štátnej sfére. Vzdelanie mužov, ktorých zamestnáva štátna sféra zaostáva za vzdelaním žien a je priemerné. Pomocou takéhoto zobrazenia môžeme zobraziť vzájomné súvislosti viacerých atribútov Príprava dát V tejto fáze nášho projektu by sme mali pripraviť naše dáta na ich ďalšie spracovanie. Vďaka tomu, že získaný dataset máme v prehľadnej excelovskej tabuľke, môže priamo prejsť k čisteniu dát. Nakoľko však nedokážeme overiť, či sú získané dáta v tabuľke správne, neostáva nám iná možnosť ako s nimi pracovať. V následujúcej časti si tiež ukážeme, ako doplniť chýbajúce údaje v datasete priamo v programe RapidMiner. Tiež v tomto programe dokážeme dáta znormovať a tým spojiť modelovaciu fázu s fázou prípravy dát Modelovanie Prvým krokom vo fáze modelovania je výber techník, ktoré použijeme. Na naše účely si ukážeme techniky stromového modelu, predikciu pomocou bayesovského klasifikovania, korelačnú maticu a zhlukovanie pomocou k-priemerov. Následne overíme rozhodovací stromový model na testovacom dataste. 33

34 Metódy sme si vybrali, môžeme pristúpiť k modelovaniu. Ako je spomenuté v predchádzajúcom texte, model sa vytvára na datasete trénovaciom a kvalitu overíme na datasete testovacom. Rozhodovací stromový model (Decision Tree) Prvým modelom, ktorý zostrojíme je rozhodovací stromový model. Zo záložky Respositories si vyberieme naše dáta a prenesieme ich do okna procesu. Následne sa prepneme na záložku Operators, v zložke Modeling si vyberieme podzložku Classification and regression. Tu už rozklikneme Tree induction a vyberieme operátor Decision tree. Operátory však nespájame. Ako bolo už spomenuté, niektoré z údajov v našom datasete chýbajú. Preto ich pomocou operátora Replace missing values doplníme. Tento operátor nájdeme v zložke Data transformation, v podzložke Data cleansing. Po prenesení do okna procesu môžeme na záhlavie operátora kliknúť, po čom sa nám objaví vpravo možnosť nastaviť rôzne parametre tohto operátora. Attribute filter type nám dáva možnosť doplniť hodnoty len do vybraných atribútov. Pomocou možnosti Default si zas môžeme určiť, aké hodnoty majú byť doplnené na miesto chýbajúcich, napr. nula, minimum, maximum, priemer, ručne zadaná hodnota alebo iné(v našom prípade necháme tento parameter na predvolenej hodnote- priemere). Tento operátor spojíme s operátorom Retrieve. Ďalej je potrebné nastaviť rolu cieľovej premennej pre jeden z atribútov. V našom datasete rolu cieľovej premennej nadobúda atribút prijem. Pre zadefinovanie tohto atribútu ako cieľovej premennej nám poslúži operátor Set role. Nájdeme ho v záložke Data transformation, v podzložke Name and role modification. Najskôr tento operátor spojíme s operátorom Replace missing values. Vďaka tomuto spojeniu si po rozkliknutí tohto operátora môžeme v nastavení parametrov vybrať v ponuke Name z našich atribútov. Target role zas dáva výber z rôznych rolí, my si vyberieme Label. Môžeme tiež doplniť aj role iných atribútov pomocou Set additonal roles. Operátor Set role teraz môžeme spojiť s Decision tree. Jeho parametre necháme zatiaľ nezmenené a spustíme proces tlačidlom Run. Po zobrazení výsledkového zobrazenia na zložke Tree (Decision Tree) môžeme vidieť náš veľmi rozsiahly strom. Keďže je veľmi nepriehľadný, môžeme sa zamyslieť nad tým, ktoré operátory sú pre náš projekt podstatné a ostatné môžeme vynechať. Pre zjednodušenie nášho modelu budú postačujúce len atribúty príjem, vek, numerické vzdelanie a pohlavie. Na výber týchto atribútov využijeme operátor Select attributes zložky 34

35 Transformation, ktorý sa nachádza v podzložke Attribution set Reduction and transformation v Selection. Operátor zapojíme za Set Role pred Decision tree. V jeho parametroch nastavíme Attribute filter type na Subset. Toto nastavenie nám umožňuje vytvoriť z celej množiny atribútov podmnožinu s nami vybranými atribútmi. Je tiež možné si vybrať len jeden z atribútov (Single), atribút bez chýbajúcich hodnôt (No_missing_values), s číselnou podmienkou (Numeric_value_filter) a iné. Parameter Attributes nám dáva možnosť vybrať si konkrétne atribúty do našej podmnožiny. Po vytvorení tejto podmnožiny sa ešte pozrieme na parametre operátora Decision tree. Dôležitým parametrom je kritérium (Criterion), ktoré špecifikuje použité kritérium na výber atribútov a delenie čísel. Na výber máme opäť viacero možností. Predvoleným je Gain_ratio- koeficient nárastu. Môžeme si vybrať aj Information_gain- koeficient nárastu znalosti, ktorý je často vyžívaný na rozhodnutie, ktoré z atribútov sú najviac významné a mali by byť testované blízko koreňa stromu, Gini_index- giniho koeficient využíva na výpočet štatistický rozptyl alebo Accuracy- presnosť. My využijeme giniho koeficient. Ďalšími parametrami, ktoré nastavíme sú Minimal split size na 2 (minimálna veľkosť uzlu, aby bolo povolené ďalšie rozdelenie), Minimal leaf size na 2 (minimálna veľkosť každého z listov), Minimal gain na 0,1 (minimálny nárast, ktorý musí byť dosiahnutý, aby došlo k rozštiepeniu), Maximal depth na 20 (maximálny počet úrovní stromu) a Confidence na 0,1 (interval spoľahlivosti). Obrázok 6: Process view stromového modelu v RapidMiner Zdroj: Vlastné spracovanie podľa RapidMiner Po spustení celého procesu sa nám zobrazí výsledkové zobrazenie a na zložke Tree (Decision Tree) môžeme opäť vidieť náš strom, rovnako ako v prílohe 4. Teraz je menší a prehľadnejší. Čo nám však tento model hovorí? Pozrime sa na list stromu, ktorý je úplne napravo. Vypovedá o tom, že ak numerické vzdelanie osoby je viac ako 11,5 (teda aspoň 12 ukončených ročníkov), jej vek je viac ako 31,5 roka a touto osoba je ženou a s minimálne 15 ukončenými školskými ročníkmi, má 35

najväčší predpoklad aby zarábala viac ako 50 tisíc dolárov ročne. Zo všetkých 105 žien, ktoré spĺňajú tieto kritéria zarába 64 z nich viac ako 50 tisíc dolárov (61%).

36 najväčší predpoklad aby zarábala viac ako 50 tisíc dolárov ročne. Zo všetkých 105 žien, ktoré spĺňajú tieto kritéria zarába 64 z nich viac ako 50 tisíc dolárov (61%). Naopak úplne ľavý list nám hovorí, že ak nemá niekto ukončených ani 12 školských ročníkov, nebude s vysokou pravdepodobnosťou zarábať viac ako 50 tisíc dolárov ročne (84% z respondentov). Bayesovské klasifikovanie (Naive Bayes) Ďalším modelom, ktorého zostrojenie si ukážeme je Bayesovský model (Naive bayes). Proces bude pozostávať z podobných operátorov ako v predchádzajúcom modeli. Prvým operátorom bude načítanie dát (Retrieve), ďalej vyčistíme dataset od chýbajúcich hodnôt (Replace missing values) a určíme cieľovú premennú (Set role). Operátor Select attributes vynecháme a budeme pracovať s celým datasetom so všetkými atribútmi. Aby sme mohli kasifikovať náš dataset, je potrebné vložiť operátor Naive bayes. Ten nájdeme v záložke Modeling, Classification and regession a Bayesian modelling. Vložíme ho do okna procesu a spojíme so Set role. Ako môžeme napravo vidieť, nie je možné nastavovať množstvo parametrov. Jediný, ktorý môžeme nastaviť je Laplace correction, ktorý zabráni nadmernému vplyvu nulových pravdepodobností. My ho však necháme nezaškrtnutý. Tlačidlom Run spustíme proces a presunieme sa do Result view na záložku SimpleDistribution (Naive bayes). Obrázok 7: Process view bayesovského klasifikovania v RapidMiner Zdroj: Vlastné spracovanie podľa RapidMiner Máme možnosť viacerých zobrazení. Najskôr sa pozrieme na Plot View. V tomto grafickom zobrazení (príloha 5) vidíme distribučnú funkciu rozloženia atribútov v závislosti od cieľovej premennej. Najskôr sa pozrieme na atribút pracovné hodiny (prac.hod.). Vidíme, že premenná je spojitá a rozdelenie pracovných hodín u osôb s prímom nad 50 tisíc dolárov je špicatejšie, ako rozdelenie u osôb zarábajúcich menej. Je tiež viac posunuté doprava, keďže priemerný počet týždenných odpracovaných hodín viac 36

37 príjmových osôb je okolo hodnoty 45 hodín týždenne, kým u menej príjmových osôb je to približne 40 hodín týždenne. Z grafu pohlaví zas vidíme, že 85% z osôb dosahujúcich príjmy nad 50 tisíc dolárov sú muži a len 15% ženy. U osôb zarábajúcich menej je to 61% mužov a 39 % žien. Okrem grafického zobrazenia v Plot view si môžeme pozrieť výsledky aj v tabuľke (Distribution table). V prílohe 5 tiež môžeme vidieť priemerné hodnoty jednotlivých atribútov, ich smerodajné odchýlky a u polynomických a binomických atribútov aj podiel jednotlivých znakov v závislosti na cieľovej premennej. Korelačná matica (Correlation Matrix) V ďalšom modelovaní si priblížime proces tvorby korelačnej matice (Correlation matrix). Táto matica na základe štatistických výpočtov vypočíta závislosti medzi jednotlivými atribútmi a ich váhy. Opäť začneme rovnakými operátormi ako v predchádzajúcich prípadoch- Retrieve, Replace missing values a Set role. Následne posledný spomínaný operátor spojíme s operátorom Correlation matrix, ktorý je umiestnený v záložke Modeling, v podzložke Correlation and dependency computation. Tento operátor má tri výstupy. Prvým je ExampleSet (jeho výstup je nám už známy), ďalej Correlation Matrix, ktorý je výstupom samotnej matice a posledným je AttributeWeights, ktorý vypočíta váhy jednotlivých atribútov. Nastaviť môžeme len dva rôzne parametre- či chceme znormovať váhy (Normalize weights) a či chceme vypočítať druhú mocninu korelácie, tzv. koeficient determinácie (Squared correlation). V našom modeli využijeme normovanie váh, no nepoužijeme koeficient determinácie. Pre spresnenie ešte pomocou operátora Select attributes vyjmeme atribút numerické vzdelanie, nakoľko vyžijeme len atribút vzdelanie s polynomickými hodnotami. Spustíme proces a prepneme sa do zobrazenia výsledkov. Obrázok 8: Process view korelačnej matice v RapidMiner Zdroj: Vlastné spracovanie podľa RapidMiner 37

38 Najskôr si pozrieme výsledok určovania váh (AttributeWeights) (príloha 6). Vidíme, že najväčší podiel na výške príjmu a teda aj najvyššie váhy s hodnotou 1 (maximálna možná hodnota 1 kvôli použitému normovaniu) má atribút počet odpracovaných hodín. Najmenšie váhy 0 má naopak atribút status. Ďalej sa zameriame na získanú korelačnú maticu. Z nej môžeme vyčítať silu a smer závislostí medzi jednotlivými atribútmi. Hodnoty korelačnej matice sa pohybujú v intervale <-1,1>. Čim viac sa hodnota blíži k 1, tým je silnejšia priama lineárna závislosť medzi atribútmi, naopak keď sa hodnota blíži k -1, silnie nepriama lineárna závislosť medzi atribútmi. Nulová hodnota vypovedá, že medzi premennými nie je lineárna závislosť. Z matice teda vidíme, že medzi statusom a vekom je stredne silná priama lineárna závislosť, teda môžeme očakávať, že s rastom veku sa bude meniť aj status. Tabuľka 3: Korelačná matica v RapidMiner Zdroj: Vlastné spracovanie podľa RapidMiner Zhlukovanie podľa k-priemerov (k-means) V tejto časti našej práce vyskúšame operátor na zhlukovanie podľa k-primerov. Rovnako ako v predchádzajúcom modeli začneme rovnakými operátormi, a to Retrieve, Replace missing values a Set role. Následne vložíme samotný operátor k-means nachádzajúci sa v zložke Modeling a podzložke Custering and segmentation. Keď tento vložený operátor (Clustering) spojíme s operátorom Set role na spodnej časti obrazovky zistíme, že sa vyskytol problém. k-means nevie spracovať binomické atribúty. Samotný program nám ponúka možnosti na vyriešenie tohto problému, po dvojkliku na navrhované riešenia (Fixes) vidíme, že celý proces bol doplnený operátorom Nominal to numerical. Tento operátor prevádza všetky nenumerické atribúty na atribúty s reálnymi hodnotami. Prázdnym hodnotám je pridelená nula, binomické atribúty majú pridelené hodnoty 0 alebo 1. U polynomických atribútov zas závisí od počtu rôznych hodnôt, ktoré môžu nadobúdať (0,1,2,3,...). 38

Pred samotným spustením procesu ešte nastavíme parametre operátora Clustering. Nás zaujíma hlavne parameter k, ktorým určíme, koľko klastrov má byť detekovaných (nastavíme na 5).

Posledným z nastavovaných parametrov je parameter Max optimization steps- maximálne množstvo opakovaní prevedených počas jedného procesu k-means (tiež necháme na predvolenej hodnote 100).

39 Pred samotným spustením procesu ešte nastavíme parametre operátora Clustering. Nás zaujíma hlavne parameter k, ktorým určíme, koľko klastrov má byť detekovaných (nastavíme na 5). Ďalej nastavíme parameter Max runs- maximálne množstvo opakovaní k- Means s náhodným nastavením hodnôt, ktoré sú vykonané (necháme na predvolenej hodnote 10). Posledným z nastavovaných parametrov je parameter Max optimization steps- maximálne množstvo opakovaní prevedených počas jedného procesu k-means (tiež necháme na predvolenej hodnote 100). Obrázok 9: Process view k-means v RapidMiner Zdroj: Vlastné spracovanie podľa RapidMiner Teraz môžeme pristúpiť k spusteniu procesu. Vo výsledkovom zobrazení sa prepneme na Cluster Model (Clustering). V textovom zobrazení Text view vidíme, že sa celý dataset rozdelil na 5 tried s rôznymi početnosťami. Centroid table je prehľadná tabuľka, ktorá udáva parametre centroidu (stredu) každého z klastov. Podobne ako pri ostatných modeloch je tiež možné z tabuľky vykresliť prehľadný graf. Tabuľka 4: Tabuľka centoidov k-means modelu v RapidMiner Zdroj: Vlastné spracovanie podľa RapidMiner Ako nevýhodu pri zhlukovej analýze vidím nemožnosť vytvoriť pomocou programu podrobný dendrogram, ktorý by presnejšie ukázal kroky delenia a zhlukovania datasetu. 39

Testovanie datasetu pomocou stromového modelu Keď sme si vyskúšali vytvorenie rôznych modelov v programe RapidMiner, môže pristúpiť aj k procesu testovania vytvoreného modelu na testovacej množine

40 Testovanie datasetu pomocou stromového modelu Keď sme si vyskúšali vytvorenie rôznych modelov v programe RapidMiner, môže pristúpiť aj k procesu testovania vytvoreného modelu na testovacej množine datasetu. Tento model sa bude od predchádzajúcich odlišovať hlavne v tom, že bude mať dve vetvyjednu trénovaciu a druhú testovaciu. Trénovacia horná (modrá) vetva je zhodná ako pri budovaní rozhodovacieho stromového modelu (Decision tree). Poďme sa však pozrieť na spodnú testovaciu (červenú) vetvu. Najskôr musíme načítať testovací dataset rovnako, ako sme v prvej časti načítavali trénovací. Ďalej rovnako musíme doplniť chýbajúce hodnoty (Replace missing values). Cieľovú premennú nenastavujeme. Teraz obe vetvy spojíme operátorom, ktorý aplikuje výsledky testovacej množiny na trénovaciu- operátor Apply model (Modeling- Model application). Nastavíme cieľovú premennú Set role na príjem a vložíme operátor Performance (Evaluation- Performance measurement), ktorý určí automaticky typ učiacej úlohy a vypočíta jej najbežnejšie kritériá. Performance má len jeden nastaviteľný parameter, ktorý dáva užívateľovi na výber, či využiť vypočítané váhy (Use example weights). My tento parameter necháme na predvolenej hodnote áno a spustíme proces. Obrázok 10: Process view aplikácie rozhodovacieho stromového modelu na testovací dataset v RapidMiner Zdroj: Vlastné spracovanie podľa RapidMiner Vo výsledkovom zobrazení sa prepneme priamo na PerformaceVector (Performance), kde sa nám zobrazí tabuľka 6. V nej vidíme, že presnosť nami vytvoreného stromového modelu prostredníctvom trénovacieho datasetu aplikovaného na testovací dataset je 82,17%. V ľavom hornom okienku sa nachádza hodnota , ktorá nám hovorí, že v takomto množstve boli hodnoty predikované na menej alebo rovno 50 tisíc dolárov a túto 40

41 cieľovú premennú dosiahli, čiže predikcia bola správna. Naopak ľavá horná hodnota v tabuľke 6 hovorí, že cieľová premenná bola predikovaná ako menej alebo rovno 50 tisíc dolárom, avšak v skutočnosti bola táto cieľová premenná viac ako 50 tisíc dolárov, to znamená, že predikcia bola chybná. Tabuľka 5: Tabuľka presnosti pri aplikácií rozhodovacieho stromového modelu na testovací dataset v RapidMiner Zdroj: Vlastné spracovanie podľa RapidMiner Vyhodnotenie výsledkov V tomto kroku je potrebné určiť, či je prítomný nejaký dôvod, pre ktorý by mal byť tento model nedostatočný. Môžeme povedať, že bola vyvinutá snaha o vytvorenie čo najviac vierohodného modelu. Je však potrebné dodať, že kvôli neúplnosti dát môžu byť výsledky modelovania skreslené. Vytvorený model je tiež možné ohodnotiť tak, že ho implementujeme a sledujeme, aká je úroveň jeho kvality. My sme model nasadili na testovaciu množinu a zistili sme, že úroveň jeho presnosti je pomerne vysoká (82,17%), čiže môžeme náš model pokladať za kvalitný. Môžeme teda náš projekt ukončiť a prejsť na fázu využitia a nasadenia výsledkov. Nie je potrebné aby sme opakovali niektoré fázy DM resp. celý projekt Využitie výsledkov a ich nasadenie Ako sme už v predchádzajúcich častiach práce podotkli, tvorba modelu nie je záverečnou fázou a ukončením projektu. Teraz je potrebné zosumarizovať projekt a prezentovať výsledky užívateľom DM analýzy. V DM projekte sme analyzovali získaný dataset prostredníctvom viacerých techník. Zistili sme pomocou rôznych metód modelovania, že rôzne atribúty majú na celkový príjem rozličný vplyv. Najväčší vplyv má počet odpracovaných hodín, avšak silno na celkový príjem vplývajú aj iné atribúty ako pohlavie, rodina a zamestnávateľ. Naopak najnižší vplyv na príjem majú status a rasa. Tiež sme sa dozvedeli, že medzi jednotlivými atribútmi sú rôzne silné priame a nepriame závislosti, no väčšina atribútov je nezávislá od iných. Bayesovská klasifikácia nám zas umožnila náhľad na priemerné hodnoty jednotlivých atribútov, ich smerodajné odchýlky a u polynomických a binomických 41

42 atribútov aj podiel jednotlivých znakov v závislosti na cieľovej premennej. Keď sme otestovali náš zostrojený rozhodovací stromový model na testovacom datasete dosiahli sme pomerne vysokú presnosť, čo nám dáva istotu, že model je zostrojený správne. Takto zostrojený model teda môžeme aplikovať na nových jedincov a len pomocou spomínaných atribútov s vysokou presnosťou môžeme zistiť, či je daná osoba vysokopríjmová alebo nízkopríjmová. Takéto vedomosti dávajú možnosť rôznym spoločnostiam využiť DM na výber osôb pre cielený marketing. 42

43 ZÁVER V tejto bakalárskej práci sme sa zaoberali hĺbkovou analýzou dát- DM. V práci sme sa snažili vymedziť pojem DM a popísať jeho využitie vo verejnom sektore a verejných financiách, rovnako sme sa snažili poukázať na možnosti a význam voľne dostupných softvérových nástrojov pre riešenie úloh DM a pre hĺbkovú analýzu údajov. Na splnenie daného cieľa bolo potrebné v prvej kapitole podrobne vymedziť pojem DM. Tiež sme čitateľa kvôli bližšiemu pochopeniu oboznámili s historickým vývinom DM a rovnako aj s často využívanou metodológiou CRISP-DM. Ďalej sme čitateľovi ozrejmili aj rozličné možnosťami využitia DM, priblížili sme jeho úlohy a niektoré z využívaných techník, čím sme splnili čiastkový cieľ. V ďalšej časti sme sa bližšie zamerali na verejný sektor a verejné financie a ukázali si, aký je rozdiel medzi týmito dvoma pojmami. Rovnako sme si priblížili aj možnosti využitia DM v rozličných sférach verejného sektora, vďaka čomu sme naplnili druhý zo zadefinovaných čiastkových cieľov. Tretia, praktická časť bola zameraná na vypracovanie DM projektu pomocou metodológie CRISP-DM vo voľne dostupnom programe RapidMiner. V tejto časti sa najskôr mohol čitateľ stručne oboznámiť s programom RapidMiner, jeho pracovným prostredím a možnosťami, ktoré ponúka. Ďalej nasledovalo samotné spracovanie vybraného datasetu v spomínanom programe. Celé toto spracovanie prebiehalo podľa metodológie CRISP-DM a jej fáz- porozumenia problematike, pochopenia dát, prípravy dát, modelovania, vyhodnotenia výsledkov a využitia výsledkov. Modelovanie prebiehalo prostredníctvom viacerých techník- rozhodovacieho stromového modelu, Bayesovského klasifikovania, korelačnej matice a zhlukovania podľa k-priemerov. Náš testovací dataset sme tiež otestovali pomocou rozhodovacieho stromového modelu a určili sme presnosť tohto modelu. V tejto časti sme naplnili aj tretí čiastkový cieľ. Prínosom tejto práce je aj ukážka využitia softvéru RapidMiner, ktorý je pre spoločnosti voľne dostupný. Vo vypracovanom projekte môžeme vidieť, že tento nástroj dokáže vykonať veľké množstvo práce a spoločnosť na jeho samotné obstaranie nemusí vynaložiť žiadne prostriedky. Vďaka získaným teoretickým znalostiam a pomocou aplikácie týchto znalostí v praktickej časti môžeme skonštatovať, že sa nám podarilo splniť cieľ našej práce. Nakoľko však daná problematika predstavuje veľmi širokú škálu možností, odporúča sa v budúcnosti túto tému ďalej študovať a prakticky s ňou pracovať. 43

44 BIBLIOGRAFIA BAILEY, S. J Public Sector Economics. London : Macmillan, ISBN BERKA, P Dobývání znalostí z databází. Praha : Academia, s ISBN BERRY, M. J.A. a LINOFF, G Data mining techniques : for marketing, sales, and customer. Indianapolis : Wiley, s ISBN BHAGVI, P. a JYOTHI, S Applying Naive Bayes Data Mining Technique for Classification of Agricultural Land Soils. August 2009, Zv. 9, 8. BORZOVÁ, A., MEDVEĎ, J. a kol Úvod do teórie financií a meny. Banská Bystrica : Fakulta financií Univerzity Mateja Bela, ISBN BRAMER, M Principles of Data Mining. Londýn : Springer, s ISBN CRISP CRISP-DM. / [Online] [Dátum: ] Data Mining Tasks. Tutorial-Computer.com. [Online] [Dátum: ] DELAVARI, N., PHON-AMNUAISUK, S. a BEIKZADEH, M. R Data Mining Application in Higher Learning Institutions. 2008, Zv. 7, 1. GÁLA, L., POUR, J. a ŠEDIVÁ, Z Podniková informatika. Praha : Grada, s ISBN GARSON, D. G. a KHOSROW-POUR, M Handbook of research on public information technology. Hershey : Information Science Reference, s ISSN GORUNESCU, F International Journal of Biological and Life Science. 2008, Zv. 4, 2. HÁVA, O Data mining okolo nás. SPSS press archív. [Online] [Dátum: ] CHAKRABARTI, S. a kol Data mining: know it all. Burlington : Elesevier, s ISBN LAROSE, D. T Discovering knowledge in data : an introduction to data mining. New Jersey : Wiley, s ISBN

45 MENA, J Investigative Data Mining for Security and Criminal Detection. Burlington : Butterworth Heinemann, s ISBN MERIČKOVÁ, B Funkcie a rozsah verejných financií. [aut.] J. MEDVEĎ, J. NEMEC a kol. Verejné financie. Bratislava : Sprint, 2007, s NOVOTNÝ, O., POUR, J. a SLÁNSKÝ, D Business Intelligence - Jak využít bohatství ve vašich datech. Praha : Grada, s ISBN OMITAOMU, O. A Decition Trees. [aut.] M. W. BERRY a M. BROWNE. Lecture Notes in Data Mining. Singapore : World Scientific, PARALIČ, J Objavovanie znalostí. Košice : Elfa, s. 80. POSPÍŠIL, J. a NEMRAVA, M [Online] [Dátum: ] RAPID-I Manual RapidMiner 5.0+ (English). [Online] [Dátum: ] manual-english_v1.0.pdf/download. SAS Odvetvia / SAS riešenie verejný sektor. [Online] SAS, [Dátum: ] SAS Produkty a riešenia / SAS Data mining. [Online] SAS, [Dátum: ] SHEARER, C The CRISP-DM Model: The New Blueprint for Data Mining. Journal of Data Warehousing. 2000, Zv. 5, 4. SPSS, a. s Text mining. [Online] [Dátum: ] STRECKOVÁ, Y Teorie veřejného sektoru. Brno : Ekonomicko správní fakulta Masarykova Univerzita, s ISBN SUMATHI, S. a SIVANANDAM, S. N Introduction to Data Mining and its Applications. Berlin : Springer, s ISBN ŠŤEDROŇ, B Open Source software ve veřejné správě a soukromém sektoru. Praha : Grada, s ISBN THEARLINK, K Data Mining and Analytic Technologies. [Online] [Dátum: ] UCI Adult Data Set. UCI Machine Learning Respository. [Online] [Dátum: ] 45

46 ZOZNAM PRÍLOH Príloha 1: Meta Data View (hore) a Data View (dole) zobrazenie v RapidMiner Príloha 2: Graf závislostí počtu odpracovaných hodín týždenne a rasy v RapidMiner Príloha 3: Blokový graf závislosti pohlavia, zamestnávateľa a dosiahnutého vzdelania Príloha 4: Stromový model v RapidMiner Príloha 5: Grafické a tabuľkové zobrazenie výsledkov bayesovského klasifikovania v RapidMiner Príloha 6: Blokový graf vypočítaných váh v RapidMiner NA PRILOŽENOM CD Príloha 7: Inštalačný súbor softvérovej aplikácie RapidMiner Príloha 8: Adresár s vypracovanými modelmi vo formáte.rmp Príloha 9: Adresár s použitými datasetmi vo formáte.xls 46

47 Príloha 1: Meta Data View (hore) a Data View (dole) zobrazenie v RapidMiner Zdroj: Vlastné spracovanie podľa RapidMiner 47

48 Príloha 2: Graf závislostí počtu odpracovaných hodín týždenne a rasy v RapidMiner Zdroj: Vlastné spracovanie podľa RapidMiner 48

49 Príloha 3: Blokový graf závislosti pohlavia, zamestnávateľa a dosiahnutého vzdelania Zdroj: Vlastné spracovanie podľa RapidMiner 49

50 Príloha 4: Stromový model v RapidMiner Zdroj: Vlastné spracovanie podľa RapidMiner 50

Anycast. Ľubor Jurena CEO Michal Kolárik System Administrator

Anycast. Ľubor Jurena CEO Michal Kolárik System Administrator Anycast Ľubor Jurena CEO jurena@skhosting.eu Michal Kolárik System Administrator kolarik@skhosting.eu O nás Registrátor Webhosting Serverové riešenia Správa infraštruktúry Všetko sa dá :-) Index Čo je