SEGMENTÁCIA ONLINE ČITATEĽOV POMOCOU HĹBKOVEJ ANALÝZY TEXTU V JAZYKU R

Similar documents
Mesačná kontrolná správa

Mesačná kontrolná správa

Spájanie tabuliek. Jaroslav Porubän, Miroslav Biňas, Milan Nosáľ (c)

Registrácia účtu Hik-Connect

Anycast. Ľubor Jurena CEO Michal Kolárik System Administrator

Databázové systémy. SQL Window functions

Spôsoby zistenia ID KEP

Obsah. SOA REST REST princípy REST výhody prest. Otázky

Podporované grantom z Islandu, Lichtenštajnska a Nórska prostredníctvom Finančného mechanizmu EHP a Nórskeho finančného mechanizmu

Copyright 2016 by Martin Krug. All rights reserved.

Riešenia a technológie pre jednotnú správu používateľov

Coordinates ordering in parallel coordinates views

Aplikačný dizajn manuál

Základná(umelecká(škola(Jána(Albrechta Topoľčianska(15

Recipient Configuration. Štefan Pataky MCP, MCTS, MCITP

kucharka exportu pro 9FFFIMU

TP-LINK 150Mbps Wireless AP/Client Router Model TL-WR743ND Rýchly inštalačný sprievodca

VYLEPŠOVANIE KONCEPTU TRIEDY

Návrh kritérií pre habilitáciu docentov a vymenúvanie profesorov na Ekonomickej fakulte TU v Košiciach

Manuál k programu FileZilla

Microsoft Azure platforma pre Cloud Computing. Juraj Šitina, Microsoft Slovakia

Ochrana koncových staníc pomocou Cisco Security Agent 6.0. Ľubomír Varga.

Transactions of the VŠB Technical University of Ostrava, Mechanical Series No. 2, 2009, vol. LV, article No Marek BABIUCH *, Martin HNIK **

Vzory, rámce a webové aplikácie

ÚMRTNOSŤ NA ÚRAZY MOZGU VO VYBRANÝCH EURÓPSKYCH KRAJINÁCH

Využitie Big Data technológií pre skvalitnenie výskumu a vzdelávania

Úvod do hospodárskej informatiky (prednáška 7) František Babič

Ekonomický pilier TUR

Textový formát na zasielanie údajov podľa 27 ods. 2 písm. f) zákona

Transactions of the VŠB Technical University of Ostrava, Mechanical Series No. 2, 2008, vol. LIV, article No. 1632

Informačný portál Národnej rady Slovenskej republiky

Testovanie bieleho šumu

Problém Big Data a ako ho riešiť pomocou NoSQL. Ján Zázrivec Softec

Ceny kurzov a školení

INTERNET. História internetu

Metody optimalizace činností firemních struktur. Filip Stránsky

Algoritmy deterministickej a stochastickej optimalizácie a ich počítačová realizácia

VYUŽITÍ TECHNIK DATA MINING V RŮZNÝCH ODVĚTVÍCH

Transactions of the VŠB Technical University of Ostrava, Mechanical Series No. 2, 2009, vol. LV, article No. 1710

Technológie Web 2.0 a Library 2.0

Crestron Mercury. Univerzálny Videokonferenčný a Kolaboračný systém

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

ŽILINSKÁ UNIVERZITA V ŽILINE ELEKTROTECHNICKÁ FAKULTA

Fakulta elektrotechniky a informatiky

1 Komplexný príklad využitia OOP

VIRTUALIZÁCIA DÁTOVÝCH ÚLOŽÍSK. Karol Schütz, S&T Slovakia

VÝZNAM ELEKTRONICKÝCH PUBLIKÁCIÍ V MODERNOM VYUČOVACOM SYSTÉME

Rýchlosť Mbit/s (download/upload) 15 Mbit / 1 Mbit. 50 Mbit / 8 Mbit. 80 Mbit / 10 Mbit. 10 Mbit / 1 Mbit. 12 Mbit / 2 Mbit.

BGP - duálne prepojenie AS. (primary + backup spoj), s IBGP, cez virtuální L2 linky

BRNO UNIVERSITY OF TECHNOLOGY FAKULTA PODNIKATELSKÁ ÚSTAV INFORMATIKY FACULTY OF BUSINESS AND MANAGEMENT DEPARTMENT INFORMATICS

Jazyk SQL. Jaroslav Porubän, Miroslav Biňas, Milan Nosáľ (c)

Poradové a agregačné window funkcie. ROLLUP a CUBE

VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA EKONOMICKÁ FAKULTA KATEDRA MARKETINGU A OBCHODU

PRIESKUMNÉ VYHĽADÁVANIE NA SOCIÁLNYCH SIEŤACH SO ZAMERANÍM NA DYNAMICKÉ KRITÉRIA A VZŤAHY METADÁT K OBSAHU

Tvorba webových stránok pre mobilné platformy

Ako na SEO vo WordPresse. Tomáš Popovič kreatívny riaditeľ Esenti, s.r.o. digitálna agentúra

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY VÝUKOVÁ WEBOVÁ APLIKÁCIA NA PROGRAMOVANIE GPU.

Tvorba informačných systémov. 4. prednáška: Návrh IS

Slovenská technická univerzita v Bratislave Fakulta informatiky a informačných technológií FIIT-XXXX-XXXXX

MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY

Transactions of the VŠB Technical University of Ostrava, Mechanical Series No. 2, 2014, vol. LX article No. 1991

INFORMAČNÉ SYSTÉMY V MARKETINGU

CENNÍK REKLAMY NA WEBOCH MARKÍZA - SLOVAKIA, SPOL. S R.O. NA ROK 2017

POSÚDENIE INFORMAČNÉHO SYSTÉMU PODNIKU A NÁVRH ZMIEN ENTERPRISE INFORMATION SYSTEM ANALYSIS AND IMPROVEMENT PROPOSALS

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY INFORMAČNÍ STRATEGIE PODNIKU FAKULTA PODNIKATELSKÁ ÚSTAV INFORMATIKY

Doporučovací systém pro eshop

Katedra počítačov a informatiky Fakulta elektrotechniky a informatiky Technická univerzita Košice. Informačné technológie Branislav Sobota

Zavedenie produktu do portfólia IT spoločnosti

Štruktúra údajov pre kontajner XML údajov 1. Dátové prvky pre kontajner XML údajov

SLOVENSKÁ TECHNICKÁ UNIVERZITA V BRATISLAVE MATERIÁLOVOTECHNOLOGICKÁ FAKULTA V TRNAVE REDIZAJN A OPTIMALIZÁCIA WEB STRÁNKY

Desatinné čísla #1a. Decimal numbers #1b. How much larger is 21,8 than 1,8? Desatinné čísla #2a. Decimal numbers #2b. 14 divided by 0,5 equals...

Depozit slovenského webu

LL LED svietidlá na osvetlenie športovísk. MMXIII-X LEADER LIGHT s.r.o. Všetky práva vyhradené. Uvedené dáta podliehajú zmenám.

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY

ŽILINSKÁ UNIVERZITA V ŽILINE FAKULTA RIADENIA A INFORMATIKY

Návod na odstránenie certifikátov so zrušenou platnosťou

E-LEARNING PRE PREDMET AOS

Prílohy: Príloha č. 1 Vzor obalu záverečnej alebo habilitačnej práce Príloha č. 2 Vzor titulného listu záverečnej alebo habilitačnej práce Príloha č.

SYSTÉM NA EVIDENCIU A KATEGORIZÁCIU

UNICORN COLLEGE BAKALÁRSKA PRÁCA. Využitie webovej analytiky v online marketingu. Katedra ekonomiky a managementu

Projekt využití CRM jako konkurenční výhoda firmy STABOS, s.r.o. Bc. Jana Mižíková

Mediálny marketing a Public Relations

informačné, riadiace, telemetrické a komunikačné systémy BaWiT Online portál SCT revízia r2.4

UNIVERZITA MATEJA BELA V BANSKEJ BYSTRICI EKONOMICKÁ FAKULTA

Analýza a vizualizácia veľkých dát

Indexovanie v dokumentoch pomocou platformy Apache Solr

SÚ FIRMY PRIPRAVENÉ NA GDPR? ESET & IDC Research Ondrej Kubovič, ESET Špecialista na digitálnu bezpečnosť

Masarykova univerzita

Prvky inovácie nových jazykov HTML5 a CSS3

Databázy (1) Prednáška 11. Alexander Šimko

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY INFORMAČNÍ STRATEGIE FIRMY FAKULTA PODNIKATELSKÁ ÚSTAV INFORMATIKY

Firemná kultúra ako zdroj konkurenčnej výhody a jej úroveň v slovenských firmách

Constraint satisfaction problems (problémy s obmedzujúcimi podmienkami)

TRANSCRIPTION OF NUMERICAL OBJETCS TO TEXT FOR SLOVAK LANGUAGE

Univerzita Komenského v Bratislave Fakulta matematiky, fyziky a informatiky. Interaktívna výuková webová aplikácia na riešenie úloh o pravdepodobnosti

VYSOKÁ ŠKOLA MANAŢMENTU V TRENČÍNE POROVNANIE NAJPOUŢÍVANEJŠÍCH INFORMAČNÝCH SYSTÉMOV BAKALÁRSKA PRÁCA

Analýza internetové marketingové komunikace e-shopu fajntricko.sk. Jaroslav Klimecký

Podpora adaptívneho WEB-u prostriedkami strojového učenia

BAKALÁRSKA PRÁCA. Cloud computing, jeho využitie a dopad na korporačné prostredie

Transcription:

EKONOMICKÁ UNIVERZITA V BRATISLAVE FAKULTA HOSPODÁRSKEJ INFORMATIKY Evidenčné číslo: 103005/I/2016/3781221085 SEGMENTÁCIA ONLINE ČITATEĽOV POMOCOU HĹBKOVEJ ANALÝZY TEXTU V JAZYKU R Diplomová práca 2016 Bc. Bianka Parmová

EKONOMICKÁ UNIVERZITA V BRATISLAVE FAKULTA HOSPODÁRSKEJ INFORMATIKY SEGMENTÁCIA ONLINE ČITATEĽOV POMOCOU HĹBKOVEJ ANALÝZY TEXTU V JAZYKU R Diplomová práca Študijný program: Štatistické metódy v ekonómii Študijný odbor: Kvantitatívne metódy v ekonómii Školiace pracovisko: Katedra štatistiky Vedúci záverečnej práce: doc. Ing. Mária Vojtková, PhD. Bratislava 2016 Bc. Bianka Parmová

Čestné vyhlásenie Čestne vyhlasujem, že záverečnú prácu som vypracovala samostatne a že som uviedla všetku použitú literatúru. Dátum: 26.4.2016... (podpis študenta)

Poďakovanie: Na tomto mieste by som chcela poďakovať doc. Ing. Márii Vojtkovej, PhD. za jej cenné rady, usmernenia a podporu pri vedení záverečnej práce. Rada by som sa tiež poďakovala spoločnosti Piano Media, s.r.o. za poskytnutie údajov pre účely ich analýzy v rámci tejto diplomovej práce.

Abstrakt PARMOVÁ, Bianka: Segmentácia online čitateľov pomocou hĺbkovej analýzy textu (v jazyku R). Ekonomická univerzita v Bratislave. Fakulta hospodárskej informatiky; Katedra štatistiky. doc. Ing. Mária Vojtková, PhD. Bratislava: FHI EU, 2016, 91 s. Cieľom záverečnej práce je segmentácia čitateľov spravodajského webu pomocou hĺbkovej analýzy textu. Využitím Latentnej Dirichletovej alokácie sú z kľúčových slov článkov extrahované ich témy, ktoré sú následne použité na charakteristiku segmentov čitateľov. Práca je rozdelená do štyroch kapitol. Obsahuje 5 schém, 11 tabuliek, 6 výstupov, 1 graf a 2 prílohy. Prvá kapitola je venovaná charakteristike súčasného stavu v oblasti analýzy textu a webovej analytiky. Nasledujúca kapitola sa zaoberá formuláciou hlavného cieľa spolu s parciálnymi cieľmi diplomovej práce. Tretia kapitola popisuje metodiku práce, zameriava sa na popis metód predspracovania textových údajov, latentnej Dirichletovej alokácie a zhlukovej analýzy. V záverečnej kapitole sú spracované jednotlivé kroky aplikácie týchto metód v jazyku R spolu s interpretáciou dosiahnutých výsledkov práce. Výsledkom riešenia danej problematiky je identifikácia tém článkov spravodajského webu a následná charakteristika segmentov čitateľov pomocou preferovaných tém článkov. Kombináciou techniky hĺbkovej analýzy textu a zhlukovej analýzy poskytuje práca nový pohľad na segmentáciu v oblasti webovej analytiky. Kľúčové slová: Latentná Dirichletova alokácia, hĺbková analýza textu, zhluková analýza, webová analytika, jazyk R

Abstract PARMOVÁ, Bianka: Segmentation of online readers using text mining technique in R. University of Economics in Bratislava. Faculty of Economic Informatics; Department of Statistics: doc. Ing. Mária Vojtková, PhD. Bratislava: FHI EU, 2016, 91 p. The aim of this diploma thesis is to create segments of online news readers using text mining. A text mining technique, Latent Dirichlet allocation, is applied to articles keywords in order to extract their topics, which are afterwards used to describe the segments of readers. The thesis is divided into four chapters. It contains 5 schemas, 11 tables, 6 outputs, 1 chart and 2 annexes. The first chapter focuses on the current state of knowledge within the fields of text analytics and web analytics. The next chapter formulates the main aim along with the partial aims of the thesis. The third chapter discusses methods used for the purposes of this thesis, it describes text data preprocessing methods, followed by Latent Dirichlet allocation and cluster analysis. The last chapter describes the steps of these methods application in R along with the interpretation of the results. The outcome of the analysis is the discovery of news articles latent topics followed by the description of segments based on preferred article topics. With the combination of text mining technique and cluster analysis, this thesis provides a new approach to web analytics segmentation. Keywords: Latent Dirichlet allocation, text mining, cluster analysis, web analytics, R

Obsah Úvod... 9 1 Súčasný stav doma a v zahraničí... 11 1.1 Analýza textu... 11 1.1.1 Techniky analýzy textu... 12 1.1.2 Hĺbková analýza textu... 17 1.2 Hĺbková analýza internetu... 20 1.2.1 Monitorovanie internetových stránok... 21 1.2.2 Webová analytika... 24 2 Cieľ... 30 3 Metodika práce a metódy skúmania... 32 3.1 Predspracovanie textových dát... 32 3.2 Extrahovanie tém... 37 3.2.1 Latentná Dirichletova alokácia... 38 3.3 Zhluková analýza... 44 3.3.1 Metóda kpriemerov... 46 4 Výsledky práce a diskusia... 51 4.1 Extrahovanie tém... 52 4.1.1 Charakteristika vstupných údajov... 53 4.1.2 Predspracovanie textových dát... 56 4.1.3 Latentná Dirichletova alokácia... 62 4.1.4 Vizualizácia výsledkov extrahovania tém... 67 4.2 Zhluková analýza... 77 4.2.1 Úprava vstupných údajov... 77 4.2.2 Metóda kpriemerov... 81 Záver... 87 Zoznam použitej literatúry... 89 Prílohy... 91

Úvod V súčasnom období rozvoja informačných technológií a internetu sa podnikanie v mnohých oblastiach presúva do online prostredia. Výnimkou nie sú ani spravodajské médiá, ktoré ponúkajú svoj obsah na webových stránkach. Výhodou online prostredia je možnosť získania obrovského množstva údajov o návštevníkoch stránky, ktorých analýza umožňuje získanie cenných vedomostí. Na stratégie založené na poznatkoch z dát sa čoraz viac zameriavajú aj online médiá. Základné ukazovatele o návštevnosti stránky sa však považujú za stále menej postačujúce, hľadajú sa pokročilejšie metódy na analýzu správania čitateľov. V našej práci sa zameriame na analýzu správania čitateľov slovenského spravodajského média www.sme.sk prostredníctvom ich segmentácie. Segmenty vytvorené metódou zhlukovej analýzy budú tvoriť čitatelia s podobnými preferenciami tém článkov, ktoré určíme aplikáciou pravdepodobnostného modelu Latentnej Dirichletovej alokácie na kľúčové slová článkov. Kombináciou techniky hĺbkovej analýzy textu a zhlukovej analýzy poskytuje práca nový pohľad na segmentáciu v oblasti webovej analytiky. V prvej kapitole sa zameriavame na charakteristiku súčasného stavu v oblastiach analýzy textu a webovej analytiky. Prvá podkapitola poskytuje všeobecný prehľad možností aplikácie najpoužívanejších techník hĺbkovej analýzy textu. V nasledujúcej časti sa venujeme oblasti hĺbkovej analýzy internetu, opisujeme spôsoby a význam monitorovania internetových stránok, definujeme pojem webová analytika a vysvetľujeme jej význam v oblasti spravodajských médií. Druhá kapitola je venovaná definícii hlavného cieľa prostredníctvom dvoch základných parciálnych cieľov. Prvým parciálnym cieľom je aplikácia metódy LDA na kľúčové slová článkov a charakteristika jednotlivých článkov prostredníctvom tém, ktorých sa týkajú. Druhý parciálny cieľ spočíva v samotnej segmentácii čitateľov na základe preferencií tém pomocou zhlukovej analýzy. V tretej kapitole definujeme metodiku práce a metódy skúmania. V úvode kapitoly popisujeme jednotlivé kroky spracovania textových údajov, pokračujeme definíciou Latentnej Dirichletovej alokácie. V tretej podkapitole sa venujeme definícii zhlukovej 9

analýzy, konkrétne sa zameriavame na opis metódy kpriemerov, ktorú sme použili pri vytváraní segmentov čitateľov. Ťažiskom práce je štvrtá kapitola, v ktorej sú zhrnuté výsledky aplikácie vyššie definovaných metód na konkrétne údaje. Praktickú časť práce rozdeľujeme na dve hlavné časti podľa dvoch základných parciálnych cieľov. V prvej časti, ktorej cieľom je charakteristika jednotlivých článkov prostredníctvom tém, sa venujeme analýze kľúčových slov článkov získaných z html kódu stránky. V úvode tieto dáta popisujeme základnými charakteristikami, čistíme prostredníctvom techník predspracovania textových dát a transformujeme do formy vhodnej na aplikáciu metódy Latentnej Dirichletovej alokácie, prostredníctvom ktorej definujeme extrahované témy pomocou kľúčových slov, s ktorými najviac súvisia. Články charakterizované pravdepodobnosťami, s akými súvisia s extrahovanými témami, sú vstupom do ďalšej časti analýzy. V druhej časti praktickej časti spájame výsledky z prvej časti analýzy s údajmi o návštevnosti stránky a vytvárame profily čitateľov charakterizované preferenciami tém. Takto vytvorené profily sú základom pre aplikáciu metódy zhlukovania a vytvorenia segmentov čitateľov s podobnými záujmami. Výsledkom analýzy je komplexná informácia o čitateľoch spravodajského webu z pohľadu tém, o ktoré sa zaujímajú. V závere zhrnieme výsledky našej analýzy opísanej vo štvrtej kapitole, definujeme hlavné segmenty čitateľov a zamyslíme sa nad ich charakterom aj z pohľadu ich nezávislosti od obdobia zberu analyzovaných údajov. Na spracovanie a analýzu dát sme použili jazyk R, v súčasnosti veľmi populárny programovací jazyk určený najmä na štatistické a matematické analýzy a spracovanie dát. V praktickej časti práce opisujeme jednotlivé časti kódu krok po kroku, v prílohe uvádzame celý kód aj s popisom. 10

1 Súčasný stav doma a v zahraničí 1.1 Analýza textu Začiatkom deväťdesiatych rokov 20. storočia sa začalo hovoriť o získavaní poznatkov z databáz (KDD Knowledge Discovery in Databases) 1. Prvé publikácie z tejto oblasti definujú získavanie poznatkov z databáz ako netriviálne získavanie implicitných, predtým neznámych a potenciálne užitočných informácií z údajov 2. V tomto období sa hĺbková analýza údajov považovala len za jeden krok procesu získavania informácií z databáz krok odhadovania modelu systému. Neskôr sa definícia tohto procesu modifikovala, v publikácii z roku 2004 sa hĺbková analýza údajov definuje ako proces výberu, skúmania a modelovania veľkého množstva údajov, zameraný na objavovanie vzorov alebo vzťahov, ktoré pred tým neboli známe, s cieľom získania jasných a užitočných výsledkov pre vlastníka databázy. 3 V mnohých prípadoch majú údaje uchovávané v databázach rôzny charakter. V posledných rokoch sa všetky textové informácie, ktoré boli doteraz zhromažďované a uchovávané v klasickej forme, transformujú do elektronickej podoby, ako napr. elektronické knihy, zbierky zákonov, podnikové informačné systémy atď. Výhodou elektronickej reprezentácie textových dokumentov je napríklad prístupnosť, zníženie nákladov na archiváciu, no najmä možnosť využiť softvérové nástroje na analýzu takýchto údajov. Rôzne techniky analýzy textových dát umožňujú rýchle a efektívne vyhľadávanie v textoch, ich porovnávanie a integráciu s inými typmi údajov, extrahovanie informácií atď. 4 Okrem vyššie spomínaných tradičných zdrojov textových dát je však v súčasnosti významný aj ďalší zdroj internetová sieť. Súčasný rozvoj informačných technológií umožňuje zber obrovského množstva dát rôzneho charakteru. V priebehu posledných dvoch desaťročí sme mohli byť svedkami rapídneho rozvoja internetu a celkovo procesu, 1 TEREK, M. HORNÍKOVÁ, A. LABUDOVÁ, V. 2010. Hĺbková analýza údajov. Bratislava IURA Edition, 2010. s. 14. ISBN 9788080783365. 2 FAYYAD, U.M. PIATETSKYSHAPIRO, G. SMYTH, P. UTHURUSAMY, R. 1996. From data mining to knowledge discovery: an overview. In Advances in Knowledge Discovery and Data Mining. Cambridge MA AAAI Press/MIT Press, 1996. s. 2. ISBN:0262560976. p. 134. 3 GUIDICI, P. 2004. Applied Data Mining. Statistical Methods for Business and Industry. John Wiley and Sons, Inc. 2004. 376 s. ISBN: 9780470871393. 4 PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice : Equillibria, 2010. s. 5. ISBN 97880 89284627. 11

ako sa internet stal súčasťou každodenného života bežného človeka. Vznikom veľkého počtu web stránok a sociálnych sietí je podmienené uschovávanie obrovského množstva dát. Štúdia agentúry International Data Corporation (IDC) z roku 2011 hovorí o približne 1,8 zetabytoch (1,8 biliónov gigabytov) informácií vytvorených v digitálnej sfére v samotnom roku 2011. Odhaduje sa, že tento objem dát sa zväčší najmenej 50 násobne do roka 2020. 5 Toto by malo platiť nielen pre obsah na webe, ale aj dáta v dokumentoch a súboroch uložených či už lokálne v osobných počítačoch alebo na serveroch po celom svete. Ide samozrejme z veľkej časti o neštruktúrované dáta, mnoho v textovej forme. Posledné štúdie odhadujú, že podiel dát v textovej forme v rámci podniku sa môže vyšplhať až na 80%. 6 Práve z tohto dôvodu patrí v súčasnosti analýza textu medzi najrýchlejšie sa rozvíjajúce oblasti analýzy dát. Okrem tradičných metód hĺbkovej analýzy údajov sa opiera aj o poznatky z oblastí ako strojové učenie, umelá inteligencia, spracovanie prirodzeného jazyka či štatistika. 7 1.1.1 Techniky analýzy textu V tejto kapitole sa zameriame na techniky analýzy textu podľa publikácie SAS Text Mining and Analysis 8 z roku 2013. V skratke opíšeme jednotlivé oblasti analýzy textu a ich využitie v praxi, spomenieme tiež oblasti s perspektívnym vývojom. Analýza textu (Text Analytics) slúži na odhaľovanie a analýzu skrytých vzťahov a štruktúr v rámci neštruktúrovaných textových dát. Aplikácie analýzy textu sú populárne najmä v podnikateľskej sfére, ich výsledky prinášajú často hodnotné informácie pre podnik. Analýza textu sa využíva v mnohých oblastiach. V posledných rokoch sa rozvinula najmä oblasť odhaľovania trendov v textových dátach sociálnych sietí za účelom odhaľovania podvodov. Ďalšou zaujímavou oblasťou aplikácie metód analýzy textu je farmaceutický priemysel, kde sa hĺbková analýza textu (Text Mining) využíva na 5 CHAKRABORTY, G. MURALI, P. SATISH, G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS. Cary, NC:SAS Institute Inc. 2013. s. 19. ISBN 9781612905518. 6 MITRA, S. ACHARYA, T. 2003. Data Mining. Multimedia, Soft Computing and Bioinformatics. USA: John Wiley and Sons, Inc., 2003. s. 320. ISBN 0471460540. 7 CHAKRABORTY, G. MURALI, P. SATISH, G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS. Cary, NC:SAS Institute Inc. 2013. s. 5. ISBN 9781612905518. 8 CHAKRABORTY, G. MURALI, P. SATISH, G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS. Cary, NC:SAS Institute Inc. 2013. 312 s. ISBN 9781612905518. 12

získavanie informácií z rozsiahlej odbornej literatúry medicíny za účelom objavenia nových liekov. Cieľom využitia techník analýzy textu je automaticky získavať, analyzovať a interpretovať poznatky z rozmerných databáz textových údajov. Medzi techniky analýzy textu zaraďujeme: Proces vyhľadávania informácií (Information Retrieval) Kategorizácia obsahu (Content Categorization) Ontologický manažment (Ontology Management) Výskumná analýza (Exploratory Analysis) Kategorizácia (Categorization) Analýza sentimentu (Sentiment Analysis) Na základe charakteru jednotlivých techník sa formujú dve kategórie: vyhľadávanie (Search) a deskriptíva a prediktívna analýza (Descriptive and Predictive Analysis). Do kategórie vyhľadávania zaraďujeme proces vyhľadávania informácií a kategorizáciu obsahu. Kategória deskriptívnej a prediktívnej analýzy zahrňuje techniky výskumnej analýzy a kategorizácie, ktoré zaraďujeme do oblasti hĺbkovej analýzy textu (Text Mining). Analýzu sentimentu môžeme považovať za klasifikačnú úlohu, takže ju zaraďujeme do kategórie prediktívnej analýzy. Pojem analýza textu je svojim spôsobom synonymom pojmu hĺbková analýza textu, no hĺbkovú analýzu textu budeme považovať za podmnožinu analýzy textu, pretože sa zameriava len na vzťahy medzi slovami a nepracuje s fonetikou či významom jednotlivých slov v danom kontexte. Schéma 1.1 zobrazuje vyššie opísanú štruktúru kategórií analýzy textu. 13

Schéma 1.1: Štruktúra kategórií analýzy textu Analýza Textu (Text Analytics) Vyhľadávanie (Search) Deskriptívna a prediktívna analýza (Descriptive and Predictive Analysis) Proces vyhľadávania informácií (Information Retrieval) Kategorizácia obsahu (Content Categorization) Ontologický manažment (Ontology Management) Hĺbková analýza textu (Text Mining) Analýza sentimentu (Sentiment Analysis) Zdroj: CHAKRABORTY, G. MURALI P. SATISH G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS,. Cary, NC:SAS Institute Inc. 2013. s. 3. ISBN 9781612905518. V nasledujúcich častiach stručne charakterizujeme jednotlivé techniky analýzy textu uvedené v predchádzajúcej schéme a ich využitie v praxi. Proces vyhľadávania informácií (Information Retrieval) je technika vyhľadávania dokumentov z databázy veľkého množstva usporiadaných dokumentov na základe vyhľadávacieho výrazu (Search Query) zadaným používateľom. Dokumenty v databáze vyhľadávania majú často neštruktúrovanú podobu a veľkú časť z nich tvoria textové údaje. V poslednom desaťročí sa vyvinulo mnoho pokročilých techník vyhľadávania informácií. Najznámejšou oblasťou aplikácie týchto techník je vyhľadávanie na webe pomocou internetových vyhľadávačov vyvinutých spoločnosťami ako Google, Bing či Yahoo. Mnoho firiem zdokonalilo svoje internetové stránky práve doplnením vyhľadávacieho nástroja, ktorý používateľom umožňuje vyhľadávať dokumenty, články či súbory na základe kľúčových slov. Efektivita systému vyhľadávania vo všeobecnosti spočíva v jeho schopnosti dodať používateľovi čo najrelevantnejší výsledok vyhľadávania. 14

Za týmto účelom by mali byť všetky dokumenty v databáze zoradené, označené unikátnymi kódmi a výrazmi na základe ich obsahu. 9 Kategorizácia obsahu (Content Categorization) sa využíva za účelom vytvorenia štruktúry a kategórií neusporiadaných dokumentov a získavania relevantných informácií z jednotlivých kategórií. Ako príklad využitia tejto techniky môžeme uviesť kategorizáciu spravodajských článkov do tematických skupín ako šport, politika, ekonómia, financie atď. a následné extrahovanie faktov ako napr. udalosti, miesta, osobnosti dátumy či hodnoty menových kurzov. 10 Ontologický manažment alebo manažment znalostného modelu je proces využívajúci metódy zhlukovania za účelom automatickej kategorizácie dokumentov na základe rovnakých tém alebo iných spoločných znakov. Ako príklad aplikácie techniky ontologického manažmentu uvádzame prípad online vydavateľstva, ktorý vo svojich databázach uskladňuje dáta o témach obsahu na svojej internetovej stránke. Spolu s témami skladuje aj surové dáta, odkazy k obrázkom a popisy vo forme textu. Na základe týchto informácií je možné automaticky vytvárať webovú stránku pre každú tému, na ktorej sa zobrazí popis, obrázky a články pre danú tému spolu s odkazmi na súvisiace témy vytvorené v systéme ontologického manažmentu na základe spoločných znakov. 11 Technika analýzy sentimentu sa zameriava na klasifikáciu alebo kategorizáciu textových údajov do skupín na základe ich polarity, teda určuje, či je text pozitívny alebo negatívny. Táto technika analýzy textu nachádza svoje využitie najmä v oblasti marketingu a starostlivosti o zákazníka. Pre podnikanie bolo odjakživa dôležité poznať názor zákazníkov na produkty a značku firmy. V posledných rokoch sa však výrazne zmenili možnosti monitorovania názorov a postojov zákazníkov spolu s rozsahom takýchto informácií. V minulosti bolo tradičným postupom pre firmy získavanie informácií o názoroch zákazníkov na ich produkty pomocou dotazníkov, ktorých vyhodnocovanie bolo časovo náročné. S nárastom popularity sociálnych sietí a využívania internetu celkovo vzrástol aj význam monitorovania postojov zákazníkov a tiež sa zmenil celý koncept analýzy sentimentu. Je rozdiel medzi získavaním názorov pomocou odpovedí na kladené 9 CHAKRABORTY, G. MURALI, P. SATISH, G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS. Cary, NC:SAS Institute Inc. 2013. s. 7. ISBN 9781612905518 10 CHAKRABORTY, G. MURALI, P. SATISH, G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS. Cary, NC:SAS Institute Inc. 2013. s. 4. ISBN 9781612905518 11 CHAKRABORTY, G. MURALI, P. SATISH, G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS. Cary, NC:SAS Institute Inc. 2013. s. 9. ISBN 9781612905518 15

otázky a slobodným vyjadrením postojov zákazníkmi na sociálnych sieťach. Je preto pre firmy veľmi užitočné doplniť analýzu postojov pomocou dotazníkov aj o metódy analýzy sentimentu na dátach sociálnych sietí či recenzií. 12 Vývoj oblasti analýzy textu je stále vo svojich začiatočných fázach, neustále sa objavujú nové techniky a rôzne aplikácie metód hĺbkovej analýzy textu. V súčasnosti sa v podnikoch len začínajú implementovať riešenia na báze analýzy textu, ktoré majú pomôcť napríklad k integrácii hlasu zákazníka (Voice of Customers) do procesov a stratégií podniku. Dôvodom tejto snahy je stále narastajúci objem dát v neštruktúrovanej forme, napr. textové súbory, audio nahrávky, videá či obrázky, ktoré sa podniky snažia analyzovať a zistenia aplikovať vo svoj prospech. Tieto ciele vyústili do vzniku troch relatívne nových oblastí textovej analýzy, ktorými sú Big (Text) Data, hĺbková analýza zvukových nahrávok (Voice Mining) a analýza textu v reálnom čase (Realtime text analytics). Analýza big data je v súčasnosti aktuálnou témou, keďže množstvo dát dostupných na analýzu neustále rastie. Odhaduje sa, že v nasledujúcom desaťročí bude podiel neštruktúrovaných dát v podniku dosahovať úroveň 90%, čo prináša nové výzvy pre IT oddelenia firiem, ktoré už v súčasnosti čelia často zložitým úlohám spracovania textových dát. Analýza veľkého objemu dát (Big Data) spočíva vo využití vysoko výkonnostnej výpočtovej techniky, ktorá využíva procesy ako symetrický multiprocesing (Symmetric Multiprocessing SMP) a masívne paralelné spracovanie (Massively Parallel Processing MPP), ktoré rozdeľujú dáta medzi viacero výpočtových uzlov (Computing Nodes), kde prebiehajú výpočty paralelne a výsledky sa získavajú spojením výsledkov zo všetkých uzlov. 13 Oblasť hĺbkovej analýzy zvukových nahrávok (Voice Mining) nachádza svoje uplatnenie najmä v oblasti starostlivosti o zákazníka. Spätná väzba zákazníka zaznamenaná v call centrách vo forme zvukových nahrávok sa monitoruje a kategorizuje pomocou softvérov na analýzu reči. Niektoré technológie v tejto oblasti umožňujú rozdeliť nahrávky na slová a identifikovať výrazy ako napr. zrušiť, obnoviť či založiť účet, na základe čoho sa môžu vytvárať segmenty nahrávok zvyšujúce efektivitu analýzy spätnej väzby 12 CHAKRABORTY, G. MURALI, P. SATISH, G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS. Cary, NC:SAS Institute Inc. 2013. s. 14. ISBN 9781612905518. 13 CHAKRABORTY, G. MURALI, P. SATISH, G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS,. Cary, NC:SAS Institute Inc. 2013. s. 15. ISBN 9781612905518. 16

zákazníkov, čo samozrejme pomáha zvyšovať aj efektivitu fungovania zákazníckeho centra celkovo. 14 Ďalšou rozvíjajúcou sa oblasťou v sfére analýzy textu je analýza textu v reálnom čase (Real Time Text Analytics). Väčšina aplikácií tejto oblasti sa týka dát zo sociálnych sietí. Monitorovanie diania na sociálnych sieťach sa v súčasnosti stáva nevyhnutnosťou pre podnikanie akéhokoľvek druhu. Niektoré firmy používajú okamžité informácie o sentimente spätnej väzby na ich nový produkt alebo značku na cielené reklamy. Ďalším príkladom využitia analýzy textu v reálnom čase je zber informácií z rôznych zdrojov vládnymi agentúrami za cieľom odhalenia možných teroristických útokov či iných kriminálnych činov. 15 1.1.2 Hĺbková analýza textu Definície hĺbkovej analýzy textu sú rôznorodé, pretože sa táto oblasť analýzy údajov opiera o poznatky z mnohých ďalších oblastí, ako napríklad vyhľadávanie informácií, hĺbková analýza údajov alebo objavovanie znalostí v dokumentoch. V tejto podkapitole sa zameriame na vývoj definície hĺbkovej analýzy textu a na využitie jej techník v praxi. Pojem procesu hĺbkovej analýzy textu (Text Mining), často nazývaný aj procesom objavovania znalostí v textových dokumentoch (Knowledge Discovery in Texts KDT) sa v publikáciách objavuje prvý krát v roku 1999. 16 Autorka tu definuje hĺbkovú analýzu textu pomocou už v tom čase známych disciplín ako napr. vyhľadávanie informácií (Information Retrieval). Kľúčovou vlastnosťou je hľadanie rôznych typov vzorov v textových kolekciách, čo považovala za analogické klasickému procesu hĺbkovej analýzy údajov. 17 14 CHAKRABORTY, G. MURALI, P. SATISH, G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS,. Cary, NC:SAS Institute Inc. 2013. s. 16. ISBN 9781612905518. 15 CHAKRABORTY, G. MURALI, P. SATISH, G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS,. Cary, NC:SAS Institute Inc. 2013. s. 16. ISBN 9781612905518. 16 HEARST, M. A. 1999. Untangling text data mining. In Proceedings of ACL 99: the 37th annual meeting of the Association for Computational Linguistic, University of Maryland. 1999. p. 310. 17 PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice : Equillibria, 2010. s. 10. ISBN 97880 89284627. 17

Publikácia 18 z roku 2003 rozdeľuje hĺbkovú analýzu textu do dvoch kategórií klasické a inteligentné dolovanie. Pod klasickým dolovaním v textoch sa chápe kategorizácia a zhlukovanie textov, extrakcia lexikálnych znakov či hľadanie asociácií medzi kľúčovými slovami dokumentov. Inteligentným dolovaním v textoch sa rozumie interakcia výskumníka a počítačového nástroja, ako aj použitie metód umelej inteligencie s cieľom vytvárať znalosti o okolitom svete na základe odvodených lingvistických znakov a ďalších typov vzorov. 19 Publikácia 20 z roku 2007, ktorá sa venuje hĺbkovej analýze textu veľmi podrobne, ju definuje ako znalostne intenzívny proces, v ktorom používateľ priebežne interaguje s kolekciou dokumentov za pomoci analytických nástrojov. Autori kladú dôraz na analýzu prepojení medzi informáciami v kolekcií dokumentov, pričom kategorizáciu, zhlukovanie a extrakciu informácií chápu ako súčasť predspracovania textových údajov. Náš názor na definíciu hĺbkovej analýzy textu sa vo veľkej miere zhoduje s názorom kolektívu autorov z Technickej univerzity v Košiciach, ktorý vydal doposiaľ jedinú publikáciu z oblasti hĺbkovej analýzy textu v slovenskom jazyku Dolovanie znalostí z textov 21. Autori sa prikláňajú k definícii hĺbkovej analýzy textu podľa základnej definície hĺbkovej analýzy údajov, ktorý označujú ako interaktívny a iteratívny proces získavania platných, pre danú aplikáciu užitočných a doposiaľ neznámych znalostí. Za dôležitú súčasť tohto procesu považujú taktiež interakciu používateľa s analytickým systémom. S týmto názorom sa stotožňujeme, pretože považujeme zohľadňovanie subjektívnych názorov a vedomostí analytika z analyzovanej oblasti za veľmi dôležitú súčasť analýzy textových údajov. Po definícii hĺbkovej analýzy textu sa pozrieme bližšie na jej základné techniky a možnosti ich aplikácie v praxi. Medzi základné techniky hĺbkovej analýzy textu môžeme zaradiť výskumnú analýzu (Exploratory Analysis) a kategorizáciu (Categorization). 22 18 KROEZE, J. H. MATTHEE, M. C. BOTHMA, T. JD. 2003. Differentiating Data and TextMining Terminology. In Proceeding of SAICSIT. ISBN:1581137745, 2003, p. 93101. 19 PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice : Equillibria, 2010. s. 10. ISBN 97880 89284627. 20 FELDMAN, R. SANGER, J. 2007. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press. 2007. 410 s. ISBN 9780521836579. 21 PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice : Equillibria, 2010. 182 s. ISBN 97880 89284627. 22 CHAKRABORTY, G. MURALI, P. SATISH, G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS,. Cary, NC:SAS Institute Inc. 2013. s. 2. ISBN 9781612905518 18

Výskumná analýza zahŕňa techniky ako extrahovanie tém (Topic Extraction) či zhlukovú analýzu (Clustering). Cieľom zhlukovej analýzy v oblasti hĺbkovej analýzy textu je priradiť jednotlivé dokumenty z kolekcie k jednému zhluku, pričom dokumenty v zhlukoch sú si navzájom podobné a jednotlivé zhluky dokumentov sú navzájom odlišné. Hlavnou myšlienkou extrahovania tém je odhaľovanie hlavných tém obsiahnutých v kolekcii dokumentov, pričom obsah jedného dokumentu môže byť zložený z viacerých tém. Na základe extrahovaných tém možno následne dokumenty usporiadať alebo kategorizovať. Oblasti extrahovania tém a jej najpopulárnejšej technike Latentná Dirichletova alokácia (Latent Dirichlet Allocation LDA) sa podrobnejšie venujeme v kapitole 3.2.1. Ako príklad využitia techniky zhlukovej analýzy uvedieme analýzu prepisov hovorov z call centra zákazníckej podpory. Jednotlivé názory zákazníkov možno zhlukovať na základe podobných problémov, na ktoré sa sťažujú a na základe týchto zhlukov možno zjednodušene zisťovať možné príčiny vyskytnutých problémov. 23 Kategorizácia súvisí s oblasťou manažmentu obsahu (Content Management) zameranú na organizáciu veľkého množstva dokumentov získaných z rôznych zdrojov na základe ich obsahu. Hlavným rozdielom medzi kategorizáciou obsahu a extrahovaním tém je, že v prípade kategorizácie ide o učenie s učiteľom, teda je potrebné určiť kategórie obsahu, kam majú byť jednotlivé dokumenty zaradené. V prípade extrahovania tém sa tieto kategórie vytvárajú automaticky na základe štatistických metód alebo pravdepodobnostných modelov (napr. Latentná sémantická analýza alebo spomínaná Latentná Dirichletova alokácia). 24 Technika kategorizácie textu sa využíva v mnohých oblastiach podnikania. Niektoré online médiá využívajú túto techniku na automatické zaraďovanie nových článkov do sekcií na stránke (napr. šport, politika, veda, ekonomika, atď.) alebo tiež na vytváranie personalizovaných odporúčaní na obsah súvisiaci s témami v okruhu záujmov čitateľa. Jedným z najznámejších aplikácií techník kategorizácie textu je filtrovanie nevyžiadanej pošty, kde na základe definovaných pravidiel algoritmus rozhodne, či je prijatý email spam alebo nie. 23 CHAKRABORTY, G. MURALI, P. SATISH, G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS,. Cary, NC:SAS Institute Inc. 2013. s. 4. ISBN 9781612905518 24 CHAKRABORTY, G. MURALI, P. SATISH, G. 2013. Text Mining and Analysis: Practical Methods, Examples and Case Studies Using SAS,. Cary, NC:SAS Institute Inc. 2013. s. 159. ISBN 9781612905518 19

1.2 Hĺbková analýza internetu Svetová internetová sieťje najväčšou distribuovanou databázou obsahujúca multimediálne informácie rôzneho druhu. Výzvou v oblasti spracovania informácií z webu je ich dynamický charakter v dôsledku priebežných aktualizácií webových stránok a tiež rôznorodosť typu dát nachádzajúcich sa na stránkach. Hĺbkovú analýzu internetu (Web Mining) definujeme ako používanie metodík hĺbkovej analýzy údajov na účely automatického vyhľadávania a získavania informácií publikovaných v dokumentoch a iných službách zverejnených v svetovej internetovej sieti. 25 Internetová sieť je zdrojom obrovského množstva neštruktúrovaných textových údajov, preto výsledky hĺbkovej analýzy textu majú výrazný vplyv na samotnú analýzu webu a proces vyhľadávania informácií (Information Retrieval). Dáta dostupné na webe sú často neoznačované, semištruktúrované, heterogénne či viacdimenzionálne, preto je v tejto oblasti pomerne dôležitý aj ľudský faktor. Proces hĺbkovej analýzy internetu môžeme deliť na tieto časti: 1. Hľadanie zdroja predstavuje získavanie informácií z internetových stránok; 2. Selekcia informácií a predspracovanie ide o cielenú kategorizáciu slov alebo fráz z dokumentov získaných v predchádzajúcom kroku; 3. Zovšeobecnenie je proces automatického vyhľadávania všeobecných pravidiel, pričom na vyhľadávanie sa dajú použiť rôzne prístupy hĺbkovej analýzy údajov; 4. Analýza validácia a/alebo interpretácia získaných vzorov a analytických výsledkov. 26 Získavanie informácií a hĺbková analýza internetu je veľmi podobná hĺbkovej analýze textu, komplexnosť internetovej stránky ako zdroja dát je však značne vyššia ako v prípade textových dokumentov. Dáta získané z internetových stránok môžu mať rôzne 25 TEREK, M. HORNÍKOVÁ, A. LABUDOVÁ, V. 2010. Hĺbková analýza údajov. Bratislava IURA Edition, 2010. s. 115. ISBN 9788080783365. 26 TEREK, M. HORNÍKOVÁ, A. LABUDOVÁ, V. 2010. Hĺbková analýza údajov. Bratislava IURA Edition, 2010. s. 115. ISBN 9788080783365. 20

formy, ktoré sa často aj prelínajú. Rozdiel medzi hĺbkovou analýzou údajov a hĺbkovou analýzou internetu spočíva vo využívaní nových nástrojov a algoritmov, ktoré umožňujú získavať dáta z rýchlo rozvíjajúceho sa prostredia internetu. 27 Hĺbková analýza internetu pozná tri základné prístupy: 1. Hĺbková analýzy štruktúry prepojení medzi dokumentmi prostredníctvom grafu siete prepojení v rámci stránky alebo medzi stránkami. Tento prístup sa využíva napríklad pri určovaní významnosti internetových stránok prostredníctvom počtu jej prepojení s inými stránkami. 2. Hĺbková analýza používania internetových stránok prostredníctvom dát generovaných kliknutiami, teda interakciami užívateľov so stránkami. 3. Hĺbková analýza obsahu zdrojových dokumentov rôzneho multimediálneho typu (textov, obrázkov, videí, atď.). Tento prístup sa zameriava na analýzu vzťahov medzi dokumentmi na internetovej sieti a ich automatickú kategorizáciu na základe obsahu. 28 Cieľ našej práce zahrňuje prepojenie dvoch vyššie spomínaných prístupov hĺbkovej analýzy používania internetových stránok a hĺbkovej analýzy obsahu. V prvej časti analýzy v praktickej časti práce sa zameriavame na analýzu obsahu článkov spravodajského webu. Výsledky tejto analýzy spojíme s dátami generovanými kliknutiami používateľov stránky, prostredníctvom ktorých budeme analyzovať používanie internetovej stránky (druhý prístup hĺbkovej analýzy internetu). 1.2.1 Monitorovanie internetových stránok Monitorovanie internetových stránok nadobúda v posledných rokoch stále väčšiu významnosť v podnikateľskom prostredí. Komunikácia s existujúcimi a potenciálnymi zákazníkmi prostredníctvom internetu môže byť v mnohých prípadoch kľúčovým faktorom obchodného rastu. Monitorovanie internetových stránok sa realizuje na základe šiestich kľúčových efektov: 27 MITRA, S. ACHARYA, T. 2003. Data Mining. Multimedia, Soft Computing and Bioinformatics. USA: John Wiley and Sons, Inc., 2003. s. 350. ISBN 0471460540. 28 MITRA, S. ACHARYA, T. 2003. Data Mining. Multimedia, Soft Computing and Bioinformatics. USA: John Wiley and Sons, Inc., 2003. s. 351. ISBN 0471460540. 21

1. Návštevnosť cieľom je pochopenie správania anonymných návštevníkov; 2. Marketing cieľom je maximalizácia návratnosti výdavkov na marketingové aktivity; 3. Obchod vyhodnocovanie efektívnosti obchodu; 4. Udržanie zákazníka zvýšenie vernosti zákazníka na maximum; 5. Obsah analýza úplnosti obsahu; 6. Predajné kanály posudzovanie efektívnosti spolupráce s partnermi. 29 V praxi najpoužívanejšie prístupy k zberu dát potrebných na analýzu webových stránok sú merania vykonávané prostredníctvom log súboru a merania pomocou aktívneho obsahu tagovania stránok. Log súbory pozostávajú zo záznamov všetkých transakcií webového servera. Na začiatku deväťdesiatych rokov minulého storočia sa zaznamenávali štatistiky ako počet vstupov na webovú stránku (Hits), neskôr pribudol počet požiadaviek na zobrazenie stránky (Page Views) a počet sekvencií požiadaviek unikátneho klienta v časovom úseku, napr. 10 minút (Visits/Sessions). 30 V súčasnosti sa v log súboroch uchovávajú rôzne údaje o každom zobrazení stránky (Page Views). Ide napríklad o údaje ako URL adresa zobrazenej stránky, URL adresa stránky, z ktorej návštevník prišiel na zobrazenú stránku, čas zobrazenia stránky, typ zariadenia či prehliadač používaný návštevníkom. Tagovanie stránok notifikuje pri každom prístupe na stránku externý monitorovací server pomocou Java Scriptového počítadla návštev vloženého v kóde stránky. 31 Medzi najznámejšie služby poskytujúce informácie o návštevnosti webových stránok patrí Google Analytics, Omniture Site Catalyst alebo Piwik. Pre ilustráciu uvedieme niekoľko ukazovateľov monitorovania internetových stránok dostupných prostredníctvom služby Google Analytics: 1. Prehľad publika Poskytuje základné ukazovatele stránky ako počet vzhliadnutí, počet návštevníkov, počet návštev (sekvencia vzhliadnutí používateľom v rámci 30 minút), priemerné trvanie 29 TEREK, M. HORNÍKOVÁ, A. LABUDOVÁ, V. 2010. Hĺbková analýza údajov. Bratislava IURA Edition, 2010. s. 122. ISBN 9788080783365. 30 TEREK, M. HORNÍKOVÁ, A. LABUDOVÁ, V. 2010. Hĺbková analýza údajov. Bratislava IURA Edition, 2010. s. 122. ISBN 9788080783365. 31 TEREK, M. HORNÍKOVÁ, A. LABUDOVÁ, V. 2010. Hĺbková analýza údajov. Bratislava IURA Edition, 2010. s. 123. ISBN 9788080783365. 22

návštevy, miera okamžitých odchodov alebo podiel nových návštev. Ďalšími kategóriami v tejto sekcii sú: demografické údaje vek a pohlavie návštevníkov, záujmy kategórie záujmov návštevníkov, geografické údaje jazyk a lokalita, správanie noví verzus vracajúci sa návštevníci, frekvencia návštev, technológia prehliadač a operačný systém, mobilné zariadenia kategórie zariadení (mobilné telefóny, tablety, osobné počítače). 2. Prehľad akvizícií Ukazovatele v sekcii Prehľad akvizícií poskytujú porovnanie návštevnosti z vyhľadávania, sprostredkovaní, emailov a marketingových kampaní. Kategórie tejto sekcie sú nasledovné: zdroje návštev vyhľadávanie, sociálne siete, priame návštevy, atď., AdWords správa reklamných kampaní, optimalizácia pre vyhľadávače zlepšenie výkonnosti stránok vo vyhľadávaní, sociálne siete zdroje sociálnej aktivity, kampane vyhodnocovanie marketingových kampaní. 3. Správanie Táto sekcia sa zameriava na analýzu obsahu webovej stránky, jej výkonnosť a úroveň možností vyhľadať ju. Obsahuje kategórie ako: tok správania vstupné stránky a následné interakcie so stránkou, obsah webu vstupné a výstupné stránky, štruktúra webu, rýchlosť webu priemerný čas načítania stránky, vyhľadávanie na webe hľadané výrazy. 4. Konverzie Sekcia Konverzie je určená najmä pre internetové obchody. Prostredníctvom ukazovateľov v tejto sekcii je možné merať napĺňanie podnikateľských cieľov. Za 23

konverziu sa považuje dokončenie určitej aktivity na webovej stránke, ako napríklad registrácia, nákup, či akákoľvek udalosť, ktorá je dôležitá z hľadiska úspešnosti podnikania. Kategórie sekcie Konverzie sú: ciele sledovanie úspešnosti konverzií jednotlivých cieľov, elektronický obchod výkonnosť predaja, výkonnosť produktu, viackanálové zúženia príspevok zdrojov návštev ku konverzii. Monitorovanie rôznych ukazovateľov internetových stránok a ich analýza je v súčasnosti jedna z najrýchlejšie sa rozvíjajúcich sa oblastí analýzy dát. Pre prepojenie znalostí získaných pomocou analýzy údajov web stránky s výsledkami podnikania sa ustálil názov webová analytika (Web Analytics). Tejto oblasti analýzy dát venujeme nasledujúcu podkapitolu. 1.2.2 Webová analytika Webová analytika (Web Analytics) je jedna z najmladších oblastí analýzy dát, začala rozvíjať okolo roku 1995. Na definíciu tejto oblasti sa pozrieme z pohľadu Avinasha Kaushika, autora knihy Web Analytics 2.0 a jedného z najznámejších osobností v oblasti webovej analytiky. Webová analytika je analýza kvantitatívnych a kvalitatívnych údajov z internetových stránok podniku a konkurencie, za účelom neustáleho zlepšovania užívateľského zážitku súčasných a potenciálnych zákazníkov, ktorý sa neskôr odráža vo forme žiaducich výsledkov podnikania v offline aj online prostredí. 32 Proces analýzy dát internetových stránok opisuje nasledujúca schéma: 32 KAUSHIK, A. 2010. Web Analytics 2.0. Indiana : Wiley Publishing, 2010. 507 s. ISBN: 978047052939 3. 24

Schéma 1.2: Proces analýzy dát internetových stránok Zdroj: KAUSHIK, A. 2010. Web Analytics 2.0. Indiana : Wiley Publishing, 2010. s. 6. ISBN: 9780470529393. Zber dát prvým krokom je zber a analýza dát z web stránok na úrovni kliknutí (ClickLevel Data). Najčastejšie sú zdrojom dát tohto druhu externé služby monitorovania internetových stránok ako napríklad Google Analytics. Medzi základné ukazovatele, ktorými možno analyzovať správanie návštevníkov stránky prostredníctvom týchto nástrojov, patria napríklad: počet zobrazení stránky, počet návštev stránky, počet unikátnych návštevníkov stránky, čas strávený na stránke, zdroje návštev a pod. Analýza výsledkov najvýznamnejším cieľom webovej analytiky je prepojenie jej výsledkov s výnosmi firmy. Vo všeobecnosti sa každá webová stránka sústreďuje na dosahovanie týchto troch základných cieľov: 1.zvyšovanie zisku 2.znižovanie nákladov 3.zvyšovanie spokojnosti a lojality zákazníka Všetky úpravy či analýzy webovej stránky by mali podliehať týmto trom cieľom, bez ohľadu na to, či ide o o eshopy, spravodajské weby či sociálne siete. 25

Experimentovanie a testovanie pomocou nástrojov ako napríklad Google Website Optimizer možno vytvárať modifikované nastavenia stránky, ktoré umožňujú zistiť priamo zo správania sa zákazníkov na stránke ich preferencie. Takto možno webové stránky optimalizovať na základe názoru zákazníka, čo je často efektívnejšie ako tvorba stránky na základe názoru jedného človeka. Online prostredie je na takéto testy optimálne, napríklad pri uvádzaní nového produktu na trh možno jeho úspešnosť otestovať na menšej vzorke zákazníkov a pod. Hlas zákazníka rovnako ako v offline prostredí, implementácia hlasu zákazníka do podnikovej stratégie patrí medzi kľúčové oblasti aj v prostredí podnikania online. Na základe ukazovateľov analytických nástrojov možno síce získať napríklad zoznam najnavštevovanejších častí stránky, čo analytikovi napovedá o tom, ktoré časti stránky sú pre zákazníkov najzaujímavejšie. Nevieme však z takýchto údajov zistiť, čo v skutočnosti zákazníkov zaujíma. Prostredníctvom dotazníkov alebo rôznych testovaní je možné získať cennú spätnú väzbu od návštevníkov stránky a potenciálnych zákazníkov. Konkurencia v tradičnom podnikateľskom prostredí je k dispozícií iba minimálne množstvo informácií o konkurencii. V online prostredí je to naopak, existuje mnoho zdrojov informácií o ukazovateľoch webových stránok, ako napríklad počet návštevníkov, ich zmena v čase, zdroje návštev a pod. Pre majiteľa stránky je cenné vedieť, ako sa darí jeho vlastnej stránke, no ešte cennejšia je preňho takáto informácia o jeho konkurencii, ktorá mu môže pomôcť identifikovať nové možnosti a priestor na zlepšenie. Kombinácia vyššie spomínaných krokov vedie k cenným vedomostiam, ktorých aplikácia umožňuje zlepšovanie výkonu stránky a zvyšuje jej ziskovosť. V nasledujúcej časti tejto kapitoly sa zameriame na situáciu webovej analytiky v oblasti online médií, konkrétne spravodajských. Ako sme uviedli vyššie, najvýznamnejším cieľom webovej analytiky je prepojenie jej výsledkov s výnosmi firmy. Podobne ako ostatné internetové stránky, aj weby spravodajských médií sa zameriavajú na dosahovanie troch základných cieľov: zvyšovanie zisku, znižovanie nákladov a zvyšovanie spokojnosti a lojality zákazníka. V prípade spravodajských webov sa za zákazníka považuje každý návštevník stránky, keďže medzi hlavné zdroje príjmov online médií patria príjmy z reklám zobrazovaných na stránke. V súčasnosti sa však príjmy plynúce z tohto zdroja znižujú a trendom v oblasti spravodajských médií sa stáva spoplatňovanie obsahu (Paid Content), teda prijímanie 26

platieb od čitateľov za sprístupnenie obsahu vybraných (prípadne všetkých) článkov na stránke. V spojitosti s parciálnym cieľom zvyšovania zisku prostredníctvom spoplatnenia obsahu sa prikladá dôraz na ďalší cieľ zvyšovanie spokojnosti a lojality zákazníka. Zaplatenie za sprístupnenie obsahu je viac pravdepodobné u lojálneho čitateľa ako u náhodného návštevníka stránky. Pri dosahovaní týchto cieľov hrá významnú rolu práve webová analytika. Analýza správania čitateľov na stránke poskytuje tvorcom webu ako aj tvorcom obsahu cenné vedomosti, ktoré napomáhajú k zvyšovaniu zisku. O význame webovej analytiky v oblasti médií hovorí aj jeden z reportov Oxfordskej univerzity venujúci sa online žurnalistike: Digitálne médiá sa čoraz viac zameriavajú na stratégie založené na poznatkoch z dát. Už sa neuspokoja so základnými ukazovateľmi návštevnosti, čitateľov a najčítanejších článkov ale hľadajú pokročilejšie ukazovatele poukazujúce na správanie čitateľov, prostredníctvom ktorých vedia jednoducho analyzovať lojalitu a správanie jednotlivých čitateľov. Takáto stratégia prináša médiám možnosť zlepšovať spokojnosť návštevníka so stránkou aj s jej obsahom a tak zvyšovať lojalitu všetkých návštevníkov. 33 Jedným zo zdrojov dát pre analýzu spravodajských webov sú nástroje monitorovania stránok ako napr. Google Analytics. Výhodou tohto zdroja dát pre analytikov spravodajských webov je jednoduchá forma ovládania a dostupnosť reportov vo forme interaktívnych online nástrojov, čo umožňuje prístup k dátam pre viacerých používateľov súčasne. Vo väčšine prípadov sú údaje dostupné v týchto reportoch postačujúce na jednoduché ale aj komplexnejšie analýzy stránky ako celku. Analytikovi poskytujú odpovede na otázky ako: Zvýšil sa počet vzhliadnutí stránky a návštevníkov v čase? Ako dlho trvá priemerná návšteva? Aký je podiel nových čitateľov? Aký je podiel návštev s jedným vzhliadnutím na návštevách zo sociálnych sietí? Ktoré sekcie stránky sú najpopulárnejšie? Druhým zdrojom dát pre analýzu spravodajských webov môžu byť logy servera, kde sa o každom vzhliadnutí stránky zaznamenávajú údaje ako URL adresa, zdroj (napr. google, facebook, twitter, atď.), čas, či typ zariadenia používaný čitateľom. Spolu 33 PICARD, R. 2014. Digital News Report 2014. Reuters Institute for the Study of Journalism, University of Oxford. Dostupné na internete: <http://www.digitalnewsreport.org/essays/2014/newapproachestopaiddigitalcontent/> 27

s uvedenými údajmi sa zaznamenáva aj unikátny identifikátor používateľov, čo umožňuje agregovať dáta na úrovni používateľa. Prostredníctvom logov ako zdroja dát je možné odpovedať aj na pokročilejšie otázky týkajúce sa správania čitateľov, ako napríklad: Koľko článkov prečítajú čitatelia mesačne? Čítajú najmä články alebo titulné stránky sekcií? Aký druh obsahu čítajú? Aké skupiny tém článkov ich najviac zaujímajú? Práve otázka týkajúca sa tém článkov bude pre nás v nasledujúcich kapitolách najpodstatnejšia. Analyzovať obsah článkov je možné napríklad na základe sekcie, do ktorej sú priradené, na základe kľúčových slov priradených ku každému článku alebo na základe samotného textu článkov. Výsledky segmentácie čitateľov na základe tém prečítaných článkov poskytujú pre tvorcov webu cenné informácie ohľadom svojho publika, ktoré na základe tradičných nástrojov webovej analytiky nemožno získať. Odhalenie najpopulárnejších tém preferovaných čitateľmi umožňuje tiež získať lepší prehľad o tom, o ktorý typ obsahu je najmenší záujem a naopak, ktorá téma je pre čitateľov najzaujímavejšia. Ak sa napríklad ukáže, že medzi najpopulárnejšie témy patrí taká, na ktorú sa tvorcovia nezameriavajú takou mierou ako na ostatné, tak je ideálne pozmeniť štruktúru obsahu článkov a zvýšiť počet článkov tvorených na dopytovanú tému a zvýšiť tým lojalitu návštevníkov. Môže tiež nastať prípad, keď tvorcovia obsahu pomocou takejto analýzy zistia, že články zamerané na témy, z ktorých publikujú väčší počet článkov v porovnaní s ostatnými témami, oslovujú iba malú časť publika. V tomto prípade ponuka prevyšuje dopyt a je pre tvorcov optimálne znížiť počet publikovaných článkov na danú tému. Informácie z analýz tohto druhu je tiež možné využiť v oblasti marketingu, kde možno zostavovať emaily odberu noviniek na základe obľúbených tém čitateľa a zvyšovať tak frekvenciu návštev a lojalitu odberateľov noviniek. V prípade spravodajských webov spoplatňujúcich obsah je možné na základe segmentácie čitateľov vytvárať cielené marketingové kampane so zľavami na časť obsahu podľa záujmov čitateľov alebo vytvárať špeciálne balíčky predplatných zameraných napr. len na čitateľov správ z oblasti ekonomiky, čitateľov regionálnych správ alebo fanúšikov športu. V praktickej časti našej práce predstavíme jednu z možností vytvorenia takejto segmentácie čitateľov. Zdrojom informácií o obsahu článkov budú ich kľúčové slová, ktoré 28

k jednotlivým článkom priraďujú ich autori. Analýzou kľúčových slov prostredníctvom techniky hĺbkovej analýzy textu určíme témy článkov, ktoré budú následne použité na charakteristiku segmentov čitateľov. V nasledujúcej kapitole práce definujeme tento cieľ podrobnejšie prostredníctvom parciálnych cieľov. 29

2 Cieľ Hlavným cieľom záverečnej práce je vytvorenie segmentov čitateľov spravodajského webu s rovnakými preferenciami tém článkov určených pomocou metódy hĺbkovej analýzy textu. Tento cieľ pozostáva z dvoch základných parciálnych cieľov. Prvým z nich je charakteristika článkov prostredníctvom tém, ktorých sa týkajú. Za účelom extrahovania tém článkov aplikujeme na ich kľúčové slová pravdepodobnostný model Latentnej Dirichletovej alokácie. Dosiahnutie tohto cieľa je podmienené nasledujúcimi parciálnymi cieľmi: charakteristika vstupných údajov vo forme textu, ktorých zdrojom je html kód stránky, čistenie vstupných údajov, odstránenie duplikovaných pozorovaní, úprava dát pomocou techník predspracovania textových údajov eliminácia neplnovýznamových slov, odstránenie najviac a najmenej početných kľúčových slov, transformácia dát do formy vhodnej pre vytvorenie modelu LDA, určenie apriórnych pravdepodobností modelu a ďalších parametrov, interpretácia tém na základe pravdepodobností, s akými súvisia s jednotlivými kľúčovými slovami, vizualizácia výsledkov ako pomoc pri interpretácii tém. Po naplnení prvého základného parciálneho cieľa získame charakteristiku analyzovaných článkov prostredníctvom tém, ktorých sa týkajú. Tieto údaje budú vstupom do druhej časti analýzy a podmienkou naplnenia druhého parciálneho cieľa, ktorým je vytvorenie segmentov čitateľov s rovnakými preferenciami tém pomocou zhlukovej analýzy. Pre naplnenie tohto cieľa je nutné splnenie týchto parciálnych cieľov: úprava vstupných údajov o návštevnosti stránky, ktorých zdrojom sú logy servera, vytvorenie zoznamu článkov prečítaných za analyzované obdobie pre každého návštevníka, redukcia počtu analyzovaných čitateľov, odstránenie nelojálnych čitateľov, 30

spojenie výsledkov prvej časti analýzy (pravdepodobnosti súvisu článkov s témami) so zoznamom prečítaných článkov pre každého čitateľa na základe unikátneho identifikátora článkov, vytvorenie profilu čitateľov určeným priemernými hodnotami pravdepodobností, s akými súvisia články prečítané jednotlivými čitateľmi s extrahovanými témami, voľba metódy zhlukovania a overenie nezávislosti vstupných premenných, určenie optimálneho počtu zhlukov a vytvorenie zhlukov pomocou metódy kpriemerov, charakteristika jednotlivých segmentov čitateľov pomocou najviac a najmenej preferovaných tém. Výsledok druhého parciálneho cieľa spočíva vo vytvorení segmentov čitateľov pomocou zhlukovej analýzy, ktoré sú charakterizované pomocou preferencií tém prečítaných článkov. Výsledok hlavného cieľa práce spočíva v poskytnutí pohľadu na štruktúru čitateľov spravodajského webu vzhľadom na preferované témy. Spojením výsledkov analýzy textových dát charakterizujúcich obsah článkov a údajov o návštevnosti stránky opisujeme charakter čitateľov z nového, netradičného pohľadu. Kombináciou techniky hĺbkovej analýzy textu a zhlukovej analýzy poskytuje diplomová práca nový pohľad na segmentáciu v oblasti webovej analytiky, ktorú možno využiť v mnohých ďalších oblastiach okrem aplikovanej oblasti spravodajských médií. 31

3 Metodika práce a metódy skúmania 3.1 Predspracovanie textových dát V kapitole 1.1.2 sme priblížili históriu a súčasný stav v oblasti hĺbkovej analýzy textu, v tejto podkapitole sa sústredíme na jednotlivé kroky spracovania textových údajov. Prvými krokmi akejkoľvek úlohy hĺbkovej analýzy textu sú pochopenie aplikačnej domény, stanovenie cieľa analýzy a získanie relevantnej množiny dokumentov tak, aby pokrývali celú aplikačnú oblasť. Nasledujúcim krokom je predspracovanie dát, ktoré zahŕňa rôzne techniky spracovania prirodzeného jazyka a je závislé od jazyka použitého v texte. V tomto kroku dochádza k redukcii slov (napr. odstránenie neplnovýznamových slov) a k transformácii množiny dokumentov do kvantitatívnej formy. Ďalšími krokmi hĺbkovej analýzy textu je samotná aplikácia algoritmov a následná vizualizácia a interpretácia výsledkov. Transformácia textových dát v neštruktúrovanej forme do kvantitatívnej formy je základným predpokladom pre aplikáciu metód hĺbkovej analýzy textu. Po nej možno na dáta aplikovať rôzne klasifikačné či zhlukovacie algoritmy, ktoré sú najčastejšie založené na viacrozmernej analýze. Pri aplikácii viacrozmerných štatistických metód na textové údaje sa na vstupe predpokladá matica rozmerov, kde vyjadruje celkový počet dokumentov v celom súbore dokumentov (korpuse) a vyjadruje celkový počet slov (termov) v texte každého z dokumentov. Pozorovaniami v matici sú vektory váh jednotlivých slov, ktoré sú odvodené od početnosti výskytu jednotlivých slov v texte dokumentov. Schéma 3.1 zobrazuje túto vstupnú maticu, ktorá je označovaná ako matica dokument term (Document Term Matrix). 34 34 PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice : Equillibria, 2010. s. 15. ISBN 97880 89284627. 32

Schéma 3.1: Matica dokument term = = Zdroj: PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice: Equillibria, 2010. s. 15. ISBN 9788089284627. Vytvorenie vektorovej reprezentácie všetkých textových dokumentov zo skúmaného korpusu sa súhrnne označuje ako predspracovanie textových údajov. Táto fáza aplikácie metód hĺbkovej analýzy textu pozostáva z nasledujúcich čiastkových krokov: 1. Konverzia na čistý text 2. Tokenizácia a segmentácia 3. Lematizácia a morfologická analýza 4. Eliminácia neplnovýznamových slov 5. Váhovanie termov Vstupnými dátami pre hĺbkovú analýzu textu sú elektronické dokumenty v rôznych formátoch. V prvom kroku predspracovania údajov v takejto forme sa odstránia nadbytočné formátovacie znaky, text sa konvertuje na čistý text. Textové údaje vo forme čistého textu sa následne rozdelia na elementárne textové jednotky. Ďalším krokom je identifikácia tokenov (tzv. lexikálnych jednotiek), určenie ich základného tvaru (tzv. lemy) a morfologickej kategórie. Štvrtým krokom je eliminácia neplnovýznamových slov, čím sa rozumie vylúčenie takých slov, pri ktorých sa predpokladá malý prínos ku charakteristike obsahu príslušného dokumentu. V zozname slov ostávajú len plnovýznamové slová, ktoré najlepšie vystihujú obsah dokumentov a ich ohodnotenie vhodnou váhovou funkciou tvorí hľadanú vektorovú reprezentáciu vstupných údajov. Snahou je získať čo najmenší rozmer vstupnej matice z dôvodu zníženia výpočtovej náročnosti použitých algoritmov. 35 V nasledujúcich častiach stručne charakterizujeme jednotlivé kroky predspracovania textových údajov. 35 PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice : Equillibria, 2010. s. 16. ISBN 97880 89284627. 33

1. Konverzia na čistý text Ako sme uviedli vyššie, prvým krokom predspracovania textových údajov v neštruktúrovanej forme je ich transformácia do formy čistého textu. Čistý text možno definovať ako sekvenciu alfanumerických, interpunkčných, oddeľovacích grafických znakov a niektorých špeciálnych symbolov (napr. %, &, *, a pod.). Alfanumerické znaky majú fonetickú a lexikálnu hodnotu, sú teda priamymi nositeľmi obsahu textu. Oddeľovacie a interpunkčné znaky (napr. medzera, tabelátor, bodka, čiarka, pomlčka, zátvorky, lomka, atď.) sa používajú na členenie textu. 36 2. Tokenizácia a segmentácia Operáciami nasledujúcimi za konverziou na čistý text sú segmentácia, členenie na slová (parsing) a tokenizácia. Tieto textové operácie identifikujú základné lexikálne textové jednotky slová, vety, odseky, slovné spojenia a frázy. Vo fáze segmentácie sa text delí na najmenšie prípustné sekvencie znakov, tzv. elementárne textové jednotky, ktorými sú: súvislé reťazce alfanumerických znakov, oddelené medzerami alebo znakmi interpunkcie, jednotlivé znaky interpunkcie. Napríklad fragment textu: 1. Podpora toku znalostí (procesný uhol pohľadu) sa rozdelí na desať elementárnych textových jednotiek takto: [1][.][Podpora][toku][znalostí][(][procesný][uhol][pohľadu][)] 37 Nasledujúcou fázou je tokenizácia, kde sa elementárne textové jednotky transformujú na tzv. lexikálne jednotky nazývané aj tokeny. Tokeny možno definovať ako 36 PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice : Equillibria, 2010. s. 16. ISBN 97880 89284627. 37 PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice : Equillibria, 2010. s. 23. ISBN 97880 89284627. 34

systémom rozpoznané a akceptované skupiny znakov s kolektívnym významom, ktoré obyčajne zodpovedajú konkrétnemu slovníkovému záznamu. 38 Definícia tohto pojmu je podobná významu pojmu term, no význam týchto dvoch termínov nie je totožný. Rozdiel medzi tokenom a termom je nasledovný: Token je časť textu s určitým významom, text sa počas tokenizácie člení na jednotlivé tokeny. Pojem term definujeme ako kľúčové slovo, ktoré je súčasťou vektorovej reprezentácie dokumentov. Termy teda vznikajú z tokenov v procese lematizácie a jazykovej analýzy, z čoho vyplýva, že nie každý token je transformovaný na term ale každý term je tvorený z jedného alebo viacerých tokenov. 39 3. Lematizácia a morfologická analýza Jednotlivé slová sa v textových dokumentoch môžu vyskytovať v rôznych morfologických tvaroch, teda môžu byť vyjadrené v rôznych pádoch, osobách, číslach atď. Z tohto dôvodu je nevyhnutná ich transformácia na základné tvary, tzv. lemy. Proces, ktorým sa určuje základný tvar slov sa nazýva lematizácia. Najčastejšie používanou metódou lematizácie je odstránenie slovotvorných predpôn a prípon, špeciálnou formou lematizácie je izolácia koreňa slova, tzv. stemming. Princípom stemmingu je odstránenie všetkých predpôn a prípon s tým, že ostáva iba základ (koreň) slova, pričom sa predpokladá, že základ takto transformovaného slova má rovnaký význam ako všetky gramatické tvary tohto slova. Cieľom izolácie koreňa slova je redukcia počtu termov vstupujúcich do algoritmov spracovania a analýz korpusov dokumentov. Redukcia počtu termov pomocou stemmingu sa vykonáva tromi spôsobmi pomocou slovníka koreňov, odstránením predpôn a prípon alebo štatistickou metódou, ktorá skúma zhluky slov s rovnakou sekvenciou písmen považujúc ich za koreň slova. Jedine táto metóda je nezávislá na jazyku analyzovaného textu, prvé dva spomínané algoritmy sú silne závislé na použitom jazyku. V angličtine je najpoužívanejším algoritmom na izoláciu koreňa Porterov algoritmus. Je založený na odstraňovaní prípon na základe pevného zoznamu prípon a niektorých ďalších pravidlách morfológie anglického jazyka. Podobné zoznamy prípon existujú aj v slovenčine, no izolácia koreňa sa rieši 38 PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice : Equillibria, 2010. s. 23. ISBN 97880 89284627. 39 PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice : Equillibria, 2010. s. 24. ISBN 97880 89284627 35

pomocou morfologickej analýzy a komplexným lingvistickým prístupom, keďže pravidlá morfológie sú v slovenčine aj iných flektívnych jazykoch podstatne zložitejšie. 40 4. Eliminácia neplnovýznamových slov Termy dokumentov by mali čo najlepšie vyjadrovať ich obsah, pričom je vhodné minimalizovať ich počet pre jednotlivé dokumenty vzhľadom na efektívnosť klasifikačných či zhlukovacích algoritmov, ktoré sa použijú na ďalšie spracovanie údajov dokumentov. Z tohto dôvodu je optimálne vylučovať z ďalšieho spracovania údajov tokeny s malým príspevkom k celkovému obsahu textu. Za najvýznamnejšie nositele obsahu textu sa považujú plnovýznamové slová, pri neplnovýznamových slovách sa predpokladá minimálny a zanedbateľný prínos k opisu obsahu textu. Medzi tieto neplnovýznamové slová zaraďujeme najmä zámená, predložky, spojky, častice a často aj číslovky. Slová tohto charakteru sa označujú ako stop slová (StopWords). V textoch dokumentov sa zvyčajne vyskytujú s vysokou frekvenciou, no ich prínos v vysvetleniu obsahu dokumentov je minimálny, preto sa tokeny vzniknuté z týchto slov vylučujú zo zoznamu termov. 41 Typickými stop slovami v anglickom jazyku sú napríklad a, any, are, be, can, did, a pod., v slovenskom jazyku sú to napríklad a, aby, ale, alebo, asi, bez, či, i, iba, ja, a pod. Štandardizovaný a všeobecne akceptovaný zoznam stop slov neexistuje, pretože vytvorenie zoznamu stop slov často závisí od oblasti analyzovaného textu. Existuje aj druhý spôsob eliminácie neplnovýznamových slov, pri ktorom sa automaticky eliminujú slová s príliš veľkou alebo malou frekvenciou výskytu v korpuse dokumentov. Tento spôsob je nezávislý od jazyka, no vykazuje slabšie výsledky v porovnaní s prvou metódou. Optimálne je kombinovať prvú metódu založenú na zozname stop slov s druhou metódou založenej na početnosti slov. 5. Váhovanie termov Termy reprezentujúce obsah dokumentu je potrebné ohodnotiť charakteristikami, ktoré vyjadrujú dôležitosť jednotlivých termov v rámci daného dokumentu aj v rámci korpusu ako celku. Techniky váhovania a normovania termov zabezpečujú takéto 40 PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice : Equillibria, 2010. s. 30. ISBN 97880 89284627. 41 PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice : Equillibria, 2010. s. 34. ISBN 97880 89284627. 36

dodatočné ohodnotenie a dovoľujú tým zvýšiť efektívnosť procesu získavania znalostí z textov, t.j. klasifikáciu, zhlukovanie, vyhľadávanie a extrakciu informácií. 42 Váhovaním sa označuje úprava frekvencie termov každého dokumentu v celom korpuse. Váhovanie termov môže prebiehať v dvoch základných rovinách: lokálne a globálne. Lokálne váhovanie spočíva v ohodnotení termov na základe frekvencie výskytu termov v danom dokumente. Globálnym váhovaním sa určuje, nakoľko významný je term v rámci celého korpusu dokumentov. Všetky vyššie opísané kroky predspracovania textových dát sú potrebné k vyjadreniu textových dokumentov vo forme vektorovej reprezentácie. Takáto transformácia neštruktúrovaných textových údajov je nevyhnutná pre aplikácie metód hĺbkovej analýzy textu. V nasledujúcej kapitole sa budeme venovať jednej z metód hĺbkovej analýzy textu, konkrétne extrahovaniu tém. 3.2 Extrahovanie tém V kapitole 1.1.2 sme stručne definovali extrahovanie tém ako jednu z metód hĺbkovej analýzy textu. V tejto kapitole sa zameriame na definíciu významu tejto metódy a podrobnú charakteristiku jednej z najpoužívanejších techník extrahovania tém Latentnej Dirichletovej alokácie (Latent Dirichlet Allocation LDA). Hlavnou myšlienkou extrahovania tém je odhaľovanie hlavných tém obsiahnutých vo veľkom množstve dokumentov, ktoré je potom na základe odhalených tém možné usporiadať alebo kategorizovať. 43 Táto metóda je založená na učení sa bez učiteľa, štruktúra skrytých tém v korpuse dokumentov sa odhaľuje prostredníctvom pravdepodobnostných generatívnych modelov. V mnohých publikáciách sa oblasť extrahovania tém ako súčasti hĺbkovej analýzy textu označuje aj ako modelovanie tém (Topic Modeling). Zdrojmi textových údajov, ktorých témy chceme extrahovať, môžu byť rôzne kolekcie textových dokumentov v digitalizovanej forme články, blogy, webové stránky, 42 PARALIČ, J. a kol. 2010. Dolovanie znalostí z textov. Košice : Equillibria, 2010. s. 36. ISBN 97880 89284627. 43 BLEI, D. 2012. Probabilistic Topic Models. ACM New York, NY, USA. Doi:10.1145/2133806.213382. 2012, Vol. 55, No. 4, p. 7784. 37

vedecké články, knihy, či textové dáta zo sociálnych sietí. V súčasnosti sa uskladňuje obrovské množstvo dát tohto druhu a vyhľadávanie informácií v rámci nich sa stáva výzvou. Dnes sa na prácu s online informáciami využívajú dva hlavné nástroje vyhľadávanie a linky. Zadaním kľúčových slov do vyhľadávača získame sadu dokumentov súvisiacich s týmito slovami a v rámci nich sa vieme dostať k ďalším dokumentov cez ich prepojenia (linky). Vylepšením tohto spôsobu vyhľadávania je vyhľadávanie na základe tém dokumentov. Namiesto vyhľadávania dokumentov iba na základe kľúčových slov, hľadáme najskôr témy, ktoré nás zaujímajú, a na ich základe sa dopracujeme k dokumentom s danými témami. 44 Extrahovanie tém nachádza svoje uplatnenie v mnohých oblastiach. Vedecké práce zaoberajúce sa touto tematikou opisujú aplikácie metódy LDA napríklad na kolekciách článkov wikipédie, či abstraktoch vedeckých článkov. V našej práci využijeme tento algoritmus na určenie tém článkov slovenského spravodajského média www.sme.sk. Výsledkom bude konečný počet tém určený na základe kľúčových slov jednotlivých článkov a charakteristika týchto článkov prostredníctvom pravdepodobnosti, s akou súvisia s danými témami. 3.2.1 Latentná Dirichletova alokácia Metóda LDA je podrobne opísaná v originálnom článku 45 vydanom D. Bleiom a kolektívom autorov z kalifornskej univerzity v roku 2003. Tejto oblasti hĺbkovej analýzy textu sa venovalo aj mnoho ďalších autorov, vedecké články s modifikáciami tejto metódy sa vydávajú dodnes a sú veľmi populárne. Rôzne publikácie označujú LDA za metódu s významným vplyvom na oblasť spracovania prirodzeného jazyka a za najpopulárnejšiu techniku hĺbkovej analýzy textu. Latentná Dirichletova alokácia je súčasťou oblasti pravdepodobnostného modelovania (Probabilistic Modeling). Hlavnou myšlienkou generatívneho pravdepodobnostného modelovania je, že považujeme analyzované dáta za výsledok generatívneho pravdepodobnostného procesu, ktorý obsahuje skryté (latentné) premenné. 44 BLEI, D. 2012. Probabilistic Topic Models. In Communications of the ACM. ISSN:00010782, 2012, Vol. 55, No. 4, p. 7784. 45 BLEI, D. NG, A. JORDAN, M. 2003. Latent Dirichlet Allocation. In Journal of Machine Learning Research, ISSN 15337928, 2003, Vol. 3, p. 993 1022. 38

Tento generatívny proces je definovaný združeným rozdelením pravdepodobnosti pozorovaných a skrytých premenných. Prostredníctvom tohto združeného rozdelenia pravdepodobnosti vieme vypočítať podmienenú pravdepodobnosť skrytých premenných za predpokladu pozorovaných premenných. V prípade LDA sú pozorovanými premennými slová dokumentov a skrytými premennými rozumieme neznámu štruktúru tém v kolekcii dokumentov, ktorú chceme odhaliť. Výpočtovým problémom odvodenia skrytej štruktúry tém je problém výpočtu aposteriórneho rozdelenia pravdepodobnosti, teda podmienenej pravdepodobnosti skrytých tém za predpokladu pozorovaných premenných. 46 Práve z dôvodu využitia štatistickej inferencie založenej na výpočte podmienenej pravdepodobnosti neznámych premenných za predpokladu známych pozorovaní sa tento model označuje za bayesiánsky. 47 Ako sme uviedli vyššie, za základnú myšlienku LDA sa považuje princíp, že výber analyzovaných textových dokumentov spolu s vytváraním skrytých tém dokumentov je výsledkom náhodného generatívneho procesu. Tento generatívny proces si môžeme predstaviť ako vytváranie nového dokumentu slovo po slove (bez ohľadu na poradie slov) za predpokladu, že poznáme len parametre pravdepodobnostných rozdelení. Zjednodušene by sme mohli tento generatívny model opísať ako: 1. pre každú tému urč pravdepodobnosť súvisu s každým slovom v zozname slov, 2. pre každý dokument, a) rozhodni, akými proporciami sú témy v dokumentoch zastúpené, b) pre každé slovo, i. vyber tému, ii. na základe tejto témy zvoľ slovo (generované v kroku 1). 48 Pre formálnu definíciu tohto generatívneho modelu definujeme najskôr jednotlivé symboly. 46 BLEI, D. 2012. Probabilistic Topic Models. In Communications of the ACM. ISSN:00010782, 2012, Vol. 55, No. 4, p. 7784. 47 BLEI, D. LAFFERTY, J.D. 2009. Topic models. In Text Mining: Classification, Clustering and Applications, ISBN 9781420059403, 2009. p. 71 93. 48 PONWEISER, M. 2012. Latent Dirichlet Allocation in R: diplomová práca. Wirtschaftuniversität Wien. 138 s. 39

Tabuľka 3.1: Symboly použité v definícii modelu LDA Symbol Interpretácia K Počet výsledných tém V Počet slov v zozname slov D Počet dokumentov N d Dĺžka dokumentu (počet slov dokumentu) α, η Parametre Dirichletovho rozdelenia Dir(η) Krozmerné Dirichletovo rozdelenie Dir(α) Vrozmerné Dirichletovo rozdelenie Pravdepodobnostné rozdelenie tém Pravdepodobnostné rozdelenie dokumentov Wd,n nté slovo v dtom dokumente Zd,n Priradenie témy pre nté slovo v dtom Zdroj: Vlastné spracovanie dokumente Definujme uvedenej terminológie: pravdepodobnostný generatívny model LDA na základe vyššie 1. pre každú tému k, vyber slová z rozdelenia. 2. pre každý dokument d, a) vyber vektor pravdepodobnostného rozdelenia tém, b) pre každé slovo, i. vyber pravdepodobnosť pridelenia témy Zd,n ult θd), Zd,n {1,...,K}, ii. vyber slovo Wd,n Mult( ), Wd,n {1,...,V}. 49 Model LDA zahŕňa uskutočňovanie výberov z Dirichletovho a multinomického rozdelenia. Ako zovšeobecnenie binomického rozdelenia, multinomické rozdelenie nám hovorí o pravdepodobnosti výberu dvoch alebo viacerých nezávislých udalostí na základe početnosti výberov a daných pravdepodobností pre každý výsledok výberu, ktorých suma sa rovná jednej. V našom prípade sú výsledkami výberu slová a témy. 50 Dirichletovo rozdelenie je viacrozmernou obdobou beta rozdelenia pravdepodobnosti a je často používané ako apriórne rozdelenie pravdepodobnosti 49 BLEI, D. LAFFERTY, J.D. 2009. Topic models. In Text Mining: Classification, Clustering and Applications, ISBN 9781420059403, 2009. p. 71 93. 50 PONWEISER, M. 2012. Latent Dirichlet Allocation in R: diplomová práca. Wirtschaftuniversität Wien. 138 s. 40

v bayesiánskej štatistike. Parametrom Diricheltovho rozdelenia je α, kde α = (α 1, α 2,..., α K ), K > 2. Čím sú hodnoty α väčšie, tým je hustota pravdepodobnosti väčšia v strede K rozmerného priestoru. Naopak, nízke hodnoty α indikujú vyššiu hustotu pravdepodobnosti pre extrémne hodnoty. Hodnota parametra α=1 indikuje uniformné rozdelenie. V našom prípade, napríklad pri určovaní apriórnych vzťahov medzi témami a dokumentmi, nízka hodnota parametra α bude indikovať pravdepodobnosť, že jeden dokument hovorí o malom počte tém, a naopak vysoká hodnota α bude hovoriť o veľkom počte tém obsiahnutých v jednotlivých dokumentoch. LDA ako príklad hierarchického bayesiánkseho modelu môžeme zobraziť aj vo forme grafického modelu nazývaného plate notation. Premenná w zobrazená v šedom kruhu reprezentuje jedinú vstupnú premennú do modelu slová (Terms), náhodné premenné v bielych kruhoch znázorňujú skryté premenné. Obdĺžniky znázorňujú opakovaný proces v rámci uzlov. Grafický model LDA zobrazuje schéma 3.2. Schéma 3.2: Grafický model LDA α Z d,n W d,n η N D K Zdroj: BLEI, D. LAFFERTY, J.D. 2009. Topic models. In Text Mining: Classification, Clustering and Applications, ISBN 9781420059403, 2009. p. 71 93. Premenná označuje témy, každé je rozdelenie pravdepodobnosti tém nad slovami, ktoré pochádza z Dirichletovho rozdelenia s parametrom η. Index k označuje počet tém v modeli. Premenná označuje proporcie tém (Topic Proportions), teda rozdelenie pravdepodobnosti súvisu tém s jednotlivými dokumentmi. Rozdelenie tejto pravdepodobnosti pochádza z Dirichletovho rozdelenia s parametrom α. Premenná Z d,n označuje priradenie témy (Topic Assignment), nadobúda hodnoty od 1 po K a určuje túto hodnotu pre každé slovo v korpuse dokumentov. Premenná W d,n označuje nté slovo v d 41

tom dokumente. Ako vidíme na schéme 3.2, táto premenná je jedinou pozorovanou premennou v modeli, všetky ostatné sú latentné, skryté premenné. Pre definíciu tohto generatívneho modelu pomocou združenej pravdepodobnosti predpokladajme, že všetky premenné v modeli poznáme. Definícia modelu pomocou združenej pravdepodobnosti skrytých a pozorovaných premenných nám poskytuje podrobnejší pohľad na všetky podmienené pravdepodobnosti, ktoré sa v modeli vyskytujú. Definícia generatívneho modelu je nasledovná: 51.. Prvým činiteľom je podmienená pravdepodobnosť definujúca pravdepodobnostné rozdelenie tém, ktoré pochádza z Dirichletovho rozdelenia s parametrom. Ako to znázorňuje aj grafický model zobrazený na schéme 3.2, tieto pravdepodobnosti sú nezávislé od všetkých ostatných premenných modelu, teda všetky, kde závisia len od parametra. Prvá náhodná premenná, ktorú generujeme pre každý dokument d je označujúca proporcie tém definované pravdepodobnosťami, s akými jednotlivé témy súvisia s dokumentmi. Toto pravdepodobnostné rozdelenie tém v dokumentoch, ktoré pochádza z Dirichletovho rozdelenia s parametrom α, označujeme v zápise modelu ako. Ďalšou časťou rovnice je rozdelenie pravdepodobnosti tém prislúchajúcim k jednotlivým slovám v zozname slov celého korpusu dokumentov, ktoré závisí od vyššie uvedeného rozdelenia pravdepodobnosti. Ku každému slovu je potom priradená hodnota z množiny { K}. Posledným krokom je výber slova v závislosti od premenných a. 51 BLEI, D. 2012. Probabilistic Topic Models. In Communications of the ACM. ISSN:00010782, 2012, Vol. 55, No. 4, p. 7784. 42

Generatívny model LDA poskytuje vyššie opísaným spôsobom združené rozdelenie pravdepodobnosti skrytých a známych náhodných premenných. Dekompozícia skrytých tém v korpuse dokumentov je založená na aposteriórnom rozdelení pravdepodobnosti skrytých náhodných premenných za predpokladu známej premennej vektora slov v celom korpuse dokumentov. Túto aposteriórnu pravdepodobnosť môžeme považovať za prevrátený proces tvorby dokumentov, ktorý sme opisovali vyššie. 52 Vzťah pre výpočet tejto aposteriórnej pravdepodobnosti je nasledovný:. Výpočtový problém tejto aposteriórnej pravdepodobnosti sa v bayesiánskej štatistike označuje ako evidencia. Menovateľ tohto výrazu vyjadruje marginálnu pravdepodobnosť pozorovaných premenných, ktorá hovorí o pravdepodobnosti výskytu pozorovaných slov pri akejkoľvek štruktúre tém generovanej modelom. Tento počet všetkých možných kombinácií štruktúr tém je samozrejme veľmi veľký, čím sa stáva menovateľ tejto aposteriórnej pravdepodobnosti nevypočítateľný. 53 Hodnotu tejto aposteriórnej pravdepodobnosti musíme odhadovať prostredníctvom aproximačných techník. Najčastejšie používanou technikou je Gibbsovo vzorkovanie (Gibbs Sampling), ktoré je špeciálnym prípadom Markovových reťazcov Monte Carlo (Markov Chain Monte Carlo ) triedou algoritmov pre vzorkovanie pravdepodobnostného modelu založených na konštrukcii Markovových reťazcov. Extrahované témy vieme interpretovať pomocou odhadov skrytých premenných modelu LDA, ktorými sú: 54 pravdepodobnosti, s akými témy prislúchajú k jednotlivým slovám (3.3) 52 BLEI, D. LAFFERTY, J.D. 2009. Topic models. In Text Mining: Classification, Clustering and Applications, ISBN 9781420059403, 2009. p. 71 93. 53 BLEI, D. 2012. Probabilistic Topic Models. In Communications of the ACM. ISSN:00010782, 2012, Vol. 55, No. 4, p. 7784. 54 BLEI, D. 2012. Probabilistic Topic Models. In Communications of the ACM. ISSN:00010782, 2012, Vol. 55, No. 4, p. 7784. 43

pravdepodobnosti, s akými témy prislúchajú k jednotlivým dokumentom (3.4) Matica má rozmery K V, kde K je počet vytvorených tém a V je počet slov v celom zozname slov (Vocabulary). Obsahom tejto matice sú hodnoty pravdepodobností, ktoré určujú, ako súvisia jednotlivé slová s vytvorenými témami. Hodnoty týchto pravdepodobností súvisu tém so slovami budeme odhadovať ako podiel počtu priradení slov k jednotlivým témam a celkového počtu priradení slov ku všetkým témam spolu. Pomocou slov s najvyššími hodnotami tejto pravdepodobnosti budeme vzniknuté témy interpretovať. Maticu budeme v nasledujúcich častiach práce označovať ako matica phi. Matica má rozmery D K, kde D je počet dokumentov a K je počet tém. Hodnoty pravdepodobností tejto matice vyjadrujú vzťah medzi jednotlivými dokumentmi a témami. Súčet hodnôt pravdepodobností (označovaných aj ako koeficienty theta) sa pre každý dokument rovná jednej, vyššia hodnota koeficienta theta označuje vyššiu súvislosť dokumentu s danou témou. Hodnoty týchto pravdepodobností odhadneme ako podiel počtu priradení slov dokumentov k jednotlivým témam a počtu celkových priradení slov dokumentu ku všetkým témam. Maticu s hodnotami týchto pravdepodobností budeme v ďalších častiach práce označovať ako matica theta. 3.3 Zhluková analýza V tejto kapitole opisujeme techniku zhlukovej analýzy, ktorú v praktickej časti práce využívame na vytvorenie segmentov čitateľov spravodajského webu. Zhluková analýza (Cluster Analysis) zahŕňa široký okruh matematických a štatistických techník, ktoré sa využívajú na identifikáciu skupín (zhlukov) pozorovaní s podobnými vlatnosťami. Cieľom zhlukovej analýzy je rozklad súboru objektov na niekoľko relatívne rovnorodých podmnožín (zhlukov, tried) tak, aby objekty patriace do 44

rôznych zhlukov si boli čo najmenej podobné a objekty patriace do toho istého zhluku si boli podobné čo najviac. 55 Medzi problémové okruhy techniky zhlukovej analýzy patrí napríklad výber miery vzdialenosti štatistických jednotiek medzi zhlukmi, výber druhu zhlukovacieho postupu a zhlukovacej metódy či určenie počtu významných zhlukov a ich interpretácia. Miery vzdialenosti objektov určujú podobnosť (vzdialenosť) medzi štatistickými jednotkami vstupujúcimi do procesu zhlukovania. Vo všeobecnosti podobnosť dvoch objektov X, Y zistíme pomocou reálnej nezápornej funkcie d, ktorá má uvedené vlastnosti: a) pozitivita: (3.5) ak X = Y (3.6) b) symetria: (3.7) trojuholníková nerovnosť: 56 (3.8) Miery vzdialenosti sa tiež označujú ako miery nepodobnosti objektov vzhľadom na interpretáciu ich hodnôt, pretože vysoké hodnoty mier vzdialenosti charakterizujú odlišné objekty a nízke hodnoty indikujú podobné objekty. Medzi najčastejšie používané miery vzdialenosti zaraďujeme euklidovskú vzdialenosť, Hammingovu vzdialenosť, Minkowského vzdialenosť či Mahalanobisovu vzdialenosť. Zhlukovacie postupy slúžia na vytvorenie systému zhlukov štatistických jednotiek s podobnými vlastnosťami. Systém zhlukov môže nadobúdať hierarchický alebo nehierarchický charakter. Hierarchické zhlukovacie postupy môžu byť aglomeratívne (zlučovacie) alebo divízne (rozkladové). Princíp aglomeratívnych zhlukovacích postupov spočíva v postupnom zlučovaní štatistických jednotiek od najpodobnejších po najodlišnejšie. Na začiatku procedúry tvorí každý objekt samostatný zhluk a na poslednej úrovni zhlukovania sú všetky objekty zlúčené do jedného zhluku. Divízne zhlukovacie postupy sú založené na opačnom princípe. Na prvej úrovni zhlukovania sú všetky objekty v jednom zhluku a postupne sa jednotlivé objekty oddeľujú, v poradí od najodlišnejších po stále podobnejšie 55 STANKOVIČOVÁ, I. VOJTKOVÁ, M. 2007. Viacrozmerné štatistické metódy s aplikáciami. Bratislava : Iura Edition, 2007. s. 132. ISBN 9788080781521. 56 STANKOVIČOVÁ, I. VOJTKOVÁ, M. 2007. Viacrozmerné štatistické metódy s aplikáciami. Bratislava : Iura Edition, 2007. s. 133. ISBN 9788080781521. 45

prvky. 57 Medzi najznámejšie zhlukovacie metódy založené na hierarchických postupoch patria napríklad: metóda najbližšieho suseda, metóda najvzdialenejšieho suseda, centroidná metóda alebo Wardova metóda. Nehierarchické zhlukovacie postupy obvykle predstavujú iteračné postupy, ktoré začínajú zadaním začiatočného rozkladu súboru, ktorý sa v jednotlivých krokoch tohto iteračného procesu vylepšuje. Pri využití nehierarchických zhlukovacích postupov sa vyžaduje apriórna informácia o počte zhlukov, ktoré chceme vytvoriť. Z tohto dôvodu si tieto postupy vyžadujú vynikajúce znalosti problematiky oblasti, z ktorej pochádzajú analyzované údaje. 58 Dve najpoužívanejšie zhlukovacie metódy založené na nehierarchických postupoch sú metóda typických bodov a metóda kpriemerov. Výhodou nehierarchických postupov je, že ich výsledky nie sú natoľko ovplyvnené odľahlými pozorovaniami, ako je to v prípade hierarchických postupov zhlukovania. Ďalším rozdielom medzi dvomi typmi zhlukovacích postupov je, že pri použití hierarchických postupov nie je nutné vopred poznať počet zhlukov, pričom v prípade nehierarchických postupov je to nevyhnutné. Táto nevýhoda nehierarchických postupov však nemusí byť pre analytika prekážkou, ak má o analyzovanej oblasti dostatočné vedomosti a má predstavu o výsledku zhlukovania. V minulosti boli viac používané hierarchické metódy, za najlepšie boli považované Wardova či centroidná metóda. V súčasnosti sú populárnejšie nehierarchické metódy, najmä z dôvodu väčšej efektivity pri analýze veľkých súborov dát. Práve z tohto dôvodu sme sa aj v našej práci rozhodli využiť metódu nehierarchických postupov zhlukovania, konkrétne metódu kpriemerov. V ďalšej časti sa zameriame na opis tejto metódy, ktorá patrí v súčasnosti medzi najpoužívanejšie metódy zhlukovania. 3.3.1 Metóda kpriemerov Algoritmus zhlukovania metódou kpriemerov pracuje iteratívne, vychádza vždy z iného začiatočného usporiadania zhlukov. Základná schéma iteračného procesu tejto metódy spočíva v týchto základných krokoch: 57 STANKOVIČOVÁ, I. VOJTKOVÁ, M. 2007. Viacrozmerné štatistické metódy s aplikáciami. Bratislava : Iura Edition, 2007. s. 136. ISBN 9788080781521. 58 STANKOVIČOVÁ, I. VOJTKOVÁ, M. 2007. Viacrozmerné štatistické metódy s aplikáciami. Bratislava : Iura Edition, 2007. s. 136. ISBN 9788080781521. 46

1. Vyber k začiatočných bodov (zhlukových centroidov), 2. zaraď každý objekt do najbližšieho zhluku, 3. na základe určeného pravidla, znovu zaraď alebo premiestni každý objekt do jedného z k zhlukov, 4. ukonči premiestňovanie objektov, ak určené pravidlo dosiahlo požadované kritérium. Ak nedosiahlo, vráť sa na krok 2. 59 Začiatočné k objekty môžu byť určené dvomi spôsobmi: náhodne alebo podľa názoru a skúseností analytika. Centroidy zhlukov sú určované ako aritmetické priemery všetkých objektov v jednotlivých zhlukoch pre každý ukazovateľ. Algoritmus určuje vzdialenosti vnútri zhlukov na základe výpočtu mier vzdialeností. Môžu však nastať situácie, keď sa v niektorých zhlukoch budú nachádzať také objekty, ktoré ležia bližšie k centroidu iného zhluku. Preto sa uskutočňuje premiestňovanie objektov na základe mier vzdialeností podľa minimálnej vzdialenosti od centroidov zhlukov. Ak nastane prípad, keď bude vzdialenosť medzi centroidmi dvoch zhlukov menšia ako vopred určené kritérium, zlúčia sa tieto dva zhluky do jedného. Naopak, ak sa vyskytne objekt ležiaci ďalej od všetkých k centroidov, než je stanovené vopred známym kritériom, tento objekt je považovaný za nový centroid zhluku. 60 Podmienky použitia metódy kpriemerov značne ovplyvňuje spôsob výpočtu vzdialeností medzi a v rámci zhlukov. Rôzne softvéry umožňujú použitie rozličných mier vzdialeností, najčastejšie sa však používa euklidovská vzdialenosť. Euklidovskú vzdialenosť môžeme definovať nasledovne: Majme súbor n objektov, z ktorých každý je charakterizovaný k znakmi. Vzdialenosť medzi objektmi i a j pomocou euklidovskej vzdialenosti určíme ako: (3.8) kde je hodnota ktej premennej pre itý objekt, 59 STANKOVIČOVÁ, I. VOJTKOVÁ, M. 2007. Viacrozmerné štatistické metódy s aplikáciami. Bratislava : Iura Edition, 2007. s. 140. ISBN 9788080781521 60 STANKOVIČOVÁ, I. VOJTKOVÁ, M. 2007. Viacrozmerné štatistické metódy s aplikáciami. Bratislava : Iura Edition, 2007. s. 140. ISBN 9788080781521. 47

je hodnota ktej premennej pre jtý objekt. Výpočet tejto miery je pomerne jednoduchý, no predpokladá ortogonálny súradnicový systém, z čoho vyplýva, že hodnoty premenných nemôžu byť korelované. Veľkou nevýhodou euklidovskej vzdialenosti je tiež výrazný vplyv absolútnych hodnôt údajov na výslednú hodnotu tejto miery. Ak sa napríklad dva objekty zhodujú v hodnotách všetkých premenných okrem jednej a hodnoty premenných pre ďalšiu dvojicu objektov sa odlišujú o malú hodnotu v prípade všetkých premenných, môžeme získať väčšiu hodnotu celkovej vzdialenosti pre prvú dvojicu objektov. Tento nedostatok euklidovskej vzdialenosti sa však dá odstrániť použitím premenných v normovanom tvare. 61 Euklidovskú vzdialenosť z geometrického hľadiska možno odvodiť na základe Pytagorovej vety (Schéma 3.3), podľa ktorej sa obsah štvorca nad preponou pravouhlého trojuholníka rovná súčtu obsahu štvorcov nad odvesnami. Schéma 3.3: Grafické znázornenie výpočtu euklidovskej vzdialenosti y y 2 d y2 y1 y 1 x 2 x 1 0 x 1 x 2 x Zdroj: STANKOVIČOVÁ, I. VOJTKOVÁ, M. 2007. Viacrozmerné štatistické metódy s aplikáciami. Bratislava : Iura Edition, 2007. s. 134. ISBN 9788080781521. Okrem výberu miery vzdialeností patrí medzi problémové okruhy zhlukovej analýzy aj určenie počtu významných zhlukov. Tento krok zhlukovej analýzy je značne ovplyvnený 61 STANKOVIČOVÁ, I. VOJTKOVÁ, M. 2007. Viacrozmerné štatistické metódy s aplikáciami. Bratislava : Iura Edition, 2007. s. 134. ISBN 9788080781521. 48

subjektívnym rozhodnutím analytika a má vplyv na celkové výsledky zhlukovej analýzy. Vo všeobecnosti existujú dva základné prístupy k určovaniu počtu významných zhlukov: heuristický prístup, ukazovatele kvality zhlukovania. Heuristickým prístupom sa označuje určenie počtu zhlukov na základe subjektívneho názoru analytika. Tento prístup sa využíva pomerne často, no nie vždy prináša uspokojujúce riešenie vzhľadom na štruktúru dát, keďže závisí od potrieb a názoru analytika. V mnohých prípadoch sa za základný ukazovateľ kvality zhlukovania považuje porovnanie vnútrozhlukového a medzizhlukového rozptylu hodnôt jednotlivých premenných. Súhrnné hodnotenie za všetky premenné získame analýzou matíc (resp. ich determinantov) vnútrozhlukovej variability. a matice medzizhlukovej variability. kde je celkový vektor priemerov hodnôt znaku pre celý súbor, je počet objektov v zhluku, je vektor priemerov hodnôt znaku v zhluku, je vektor hodnôt znaku itého objektu v zhluku. Rozdelenie zhlukov bude optimálne: a) ak determinant matice vnútrozhlukovej variability bude minimálny (Wardovo kritérium kvality), 49

b) ak stopa matice medzizhlukovej variability bude maximálna. 62 Medzi ďalšie spôsoby určenia optimálneho počtu zhlukov patrí výpočet charakteristík kvality zhlukovania na každom kroku procesu. Medzi tieto charakteristiky patria napríklad: štandardná odchýlka premenných tvoriacich zhluk, koeficient determinácie vyjadrujúci pomer medziskupinovej sumy štvorcov odchýlok k celkovej sume štvorcov odchýlok, semiparciálny koeficient determinácie či vzdialenosť zhlukov na jednotlivých krokoch zhlukovania. 62 STANKOVIČOVÁ, I. VOJTKOVÁ, M. 2007. Viacrozmerné štatistické metódy s aplikáciami. Bratislava : Iura Edition, 2007. s. 134. ISBN 9788080781521. 50

4 Výsledky práce a diskusia Analýzu dát tvoriacu praktickú časť práce sme realizovali pomocou jazyka R. Jazyk R je voľne dostupný programovací jazyk a univerzálny softvérový nástroj pre spracovanie a analýzu dát, ktorý sa využíva najmä v oblasti štatistiky a matematiky. Výhodou tohto nástroja oproti klasickým aplikáciám naprogramovaných pre účely štatistických analýz je možnosť prispôsobenia preddefinovaných funkcií či tvorba vlastných funkcií potrebných na riešenie konkrétnej problematiky. Ďalším dôvodom, prečo sme pri našej analýze uprednostnili jazyk R, je možnosť získavania dát priamo z databázy logov servera analyzovanej internetovej stránky. V rámci našej analýzy sme použili mnoho balíkov jazyka R, čo sú vlastne časti zdrojového kódu jazyka vytvárané vývojármi alebo samotnými používateľmi jazyka. Balíky tvoria funkcie vytvorené za účelom riešenia konkrétnej problematiky. V našom prípade sme použili napríklad balík lda riešiaci problematiku Latentnej Dirichletovej alokácie ako metódy extrahovania tém z textových súborov alebo balík RMySQL poskytujúci možnosť pripojenia sa k MySQL databázam. Ďalšími balíkmi, ktoré sme v našej práci použili, sú: dplyr balík na rýchle a intuitívne spracovanie a úpravu dát, tidyr balík na čistenie dát, tm balík na úpravu textových dát a aplikáciu metód hĺbkovej analýzy textu, data.table balík používaný na agregovanie a úpravu veľkého množstva dát, stringr balík s funkciami na úpravu textových dát, LDAvis balík na vizualizáciu tém vytvorených modelom LDA. Praktickú časť našej práce môžeme rozdeliť na dve základné časti. V prvej časti práce, ktorej cieľom je charakteristika jednotlivých článkov prostredníctvom tém, ktorých sa týkajú, sme využili balíky týkajúce sa spracovania textových dát a metódy LDA. Druhá časť analýzy spočíva vo vytvorení segmentov čitateľov s rovnakými preferenciami tém článkov pomocou zhlukovej analýzy. Na zhlukovanie využívame výsledky analýzy prvej 51

časti práce, prostredníctvom ktorých vytvárame profily čitateľov na základe tém prečítaných článkov. V druhej časti práce využívame najmä balíky týkajúce sa úpravy dát. Analýza opísaná v praktickej časti práce je založená na dvoch zdrojoch dát. Prvým zdrojom je html kód analyzovanej stránky www.sme.sk, z ktorého sme pomocou kódu v jazyku R extrahovali URL adresy článkov a ich kľúčové slová, ktoré k článkom priraďujú ich autori pri publikovaní. Analýzou dát z tohto zdroja sa zaoberá prvá kapitola praktickej časti práce 4.1 Extrahovanie tém. Druhým zdrojom dát sú logy servera analyzovanej stránky, kde sa zaznamenávajú všetky interakcie návštevníkov so stránkou. Tieto dáta sme mali k dispozícii od firmy Piano Media, s. r. o., ktorá prevádzkuje na stránke www.sme.sk služby spoplatnenia obsahu. Prostredníctvom dát o návštevníkoch tohto spravodajského webu budeme analyzovať ich správanie z pohľadu obsahu prečítaných článkov za analyzovaný mesiac júl 2015. Na základe týchto údajov v spojení s výsledkami extrahovania tém článkov budeme vytvárať zhluky čitateľov s rovnakými preferenciami obsahu. Zhukovej analýze sa venujeme v kapitole 4.2 Zhluková analýza. 4.1 Extrahovanie tém Extrahovanie tém patrí medzi najpoužívanejšie techniky hĺbkovej analýzy textu. Cieľom tejto techniky je určenie tém obsiahnutých v korpuse dokumentov na základe slov charakterizujúcich ich obsah. V našom prípade budeme za korpus analyzovaných dokumentov považovať články spravodajského webu a ich obsah budú charakterizovať kľúčové slová. Z mnohých techník extrahovania tém sme pre účely opisu článkov spravodajského webu témami zvolili metódu Latentnej Dirichletovej alokácie (Latent Dirichlet Allocation LDA), ktorá predstavuje generatívny model určujúci pravdepodobnosť výskytu tém v jednotlivých dokumentoch. Podrobnejší opis tejto techniky sme uviedli v kapitole 3.2.1. Proces extrahovania tém začneme úpravami vstupných údajov, ktoré sú vo forme textu. Následne vytvoríme model generujúci témy charakterizované kľúčovými slovami článkov. Cieľom tejto analýzy je vyjadriť charakter článkov prostredníctvom tém, ktorých sa týkajú. 52

4.1.1 Charakteristika vstupných údajov Ako sme uviedli v úvode kapitoly, zdrojom dát prvej časti analýzy je internetová stránka spravodajského portálu www.sme.sk, z ktorej sme prostredníctvom html kódu získali kľúčové slová jednotlivých článkov. Vstupné dáta obsahujúce tieto údaje pozostávajú z 8203 unikátnych URL adries jednotlivých článkov (ARTICLE_URL), z ktorých sú extrahované ich číselné identifikátory (ARTICLE_URL_CODE). Treťou vstupnou premennou je premenná KEYWORDS predstavujúca kľúčové slová článkov. Obdobie zberu dát je mesiac júl 2015. Tabuľka 4.1 zobrazuje 8 náhodne vybraných článkov ako ukážku vstupných dát. 53

Tabuľka 4.1: Ukážka vstupných údajov prvej časti analýzy ARTICLE_URL ARTICLE_URL_ CODE http://tech.sme.sk/c/7906033/spomienky /c/7906033/ nadovolenkupomahajuodburat stres.html?ref=tit http://sport.sme.sk/c/7919763/ciger /c/7919763/ odmietolponukunaposttrenera reprezentacie.html?ref=trz http://ekonomika.sme.sk/c/7918846/stran /c/7918846/ asietchcezmenitexekucnyporiadokkvolispornejpohladavke.html?ref=trz http://ekonomika.sme.sk/c/7930483/obch /c/7930483/ vatyoslobodzujuajtazkoskusanedediny.html http://sport.sme.sk/c/7936725/barcelona /c/7936725/ opatneuspelanestacilanadalsi anglickytim.html http://www.sme.sk/c/7927120/vdonbase /c/7927120/ bymalovzniknutnaraznikove pasmo.html?ref=trz http://www.sme.sk/c/7934744/turecko /c/7934744/ zakrociloprotiislamistomzatkloich viacneztisic.html http://www.sme.sk/c/7920071/meteorolo /c/7920071/ goviavarujupredprivalovymipovodnami.html?ref=trz Zdroj: Vlastné spracovanie KEYWORDS spomienka, dovolenka, zdravie, stres SR, Hokej, SZĽH, repre, Cíger, tréner, ponuka, zápor, MONITOR SR, NR, Sieť, poriadok, exekučný, novela, Beblavý obchvaty, Trstena, Vrutky, Dubna Skala, D1 USA, Futbal, turné, Chelsea, výhra, Barcelona, sumár Ukrajina, Porošenko, Donbas, nárazníkové, pásmo Turecko, Davutoglu, polícia, razia, militanti, zatýkanie SR, SHMÚ, výstrahy, búrky, povodne, prívalové V nasledujúcom kroku sa pozrieme na základné charakteristiky analyzovaného súboru, konkrétne na početnosti pozorovaní jednotlivých premenných a náhľad piatich najpočetnejších hodnôt premenných pomocou príkazu summary(). Prvým príkazom read.csv() načítame dátový súbor. 54

data < read.csv(keywords.csv) # nacitanie datoveho suboru summary(data) # sumarne charakteristiky tabulky Tabuľka 4.2: Početnosti obmien premennej ARTICLE_URL ARTICLE_URL Frekvencia http://aero.sme.sk/c/4905251/pred30rokmihavarovalzachranarskyvrtulnikvovysokychtatrach.html 1 http://agentury.sme.sk/c/7395737/dostranyvrajvstupujuludiazosmeruhzdsisdkuds.html 1 http://agentury.sme.sk/c/7562400/najmensiaobecvokresezlatemoravcemanovumonografiu.html 1 http://agentury.sme.sk/c/7853907/stanopocajisatesinanoveprojekty.html 1 http://agentury.sme.sk/c/7864403/svetovavystavatitanicsa12augusta 1 2015poprvykratpredstavina.html (Other) 8197 Zdroj: Vlastné spracovanie Tabuľka 4.3: Početnosti obmien premennej ARTICLE_URL_CODE ARTICLE_URL Frekvencia /c/7895134/ 29 /c/7909475/ 28 /c/7927044/ 26 /c/7930732/ 25 /c/7865236/ 24 (Other) 8052 Zdroj: Vlastné spracovanie Tabuľka 4.4: Početnosti obmien premennej KEYWORDS ARTICLE_URL Frekvencia SR, kultúra, Ladislav, Chudík, rozlúčka, FOTO, VIDEO 29 EKO, EÚ, Grécko, eurozóna, rokovania, prerušené, Dijsselbloem 28 tatry, horski vodcovia, horsky vodca, tatransky narodny park 26 cestna premavka, dopravne predpisy 25 technologia, antika, vychytavka, grecky ohen, byzancia, antikhytersky 24 mechanizmus, grecko, astronomia, silfium, antikoncepcia, rimania, kyrena, kyrencania, (Other) 8042 Zdroj: Vlastné spracovanie 55

Tabuľky 4.2 až 4.4 zobrazujú výstup príkazu summary() v upravenej forme. Každá tabuľka zobrazuje prvých 5 najpočetnejších obmien jednotlivých premenných spolu s touto početnosťou výskytu v celom dátovom súbore v stĺpci Frekvencia. Ako sme uviedli vyššie, vstupné dáta tvorí 8203 unikátnych URL adries analyzovaných článkov (premenná ARTICLE_URL). Každý z týchto článkov má vo svojej URL adrese zahrnutý unikátny identifikátor v tvare /c/ sedem číslic / (premenná ARTICLE_URL_CODE). Tabuľka 4.3 indikuje, že niektoré identifikátory článkov sa v dátovom súbore vyskytujú viac než jeden krát, z čoho vyplýva, že niektoré články sú zahrnuté viac krát s rôznym tvarom URL adresy, čo je pre našu analýzu nežiaduce. Nasledujúcim príkazom odstraňujeme duplikované pozorovania. data < subset(data,!duplicated(data[,'article_url_code'])) # odstranenie duplicit Po tejto modifikácii tvorí naše dáta 4043 unikátnych článkov, ktorých obsah je reprezentovaný kľúčovými slovami priradenými ku každému článku. V ďalšej časti sa zameriame na analýzu kľúčových slov. Na základe analýzy kľúčových slov priradeným k jednotlivým článkom získame témy, ku ktorým články prislúchajú. Vstupom do analýzy textu budú teda samotné kľúčové slová, ktoré je však potrebné najskôr upraviť. Predspracovaniu textových dát sa venujeme v nasledujúcej podkapitole. 4.1.2 Predspracovanie textových dát Ďalším krokom našej analýzy je transformácia vstupných dát do formy vhodnej na aplikáciu metódy LDA. Kľúčové slová v našej vstupnej tabuľke majú nejednotný charakter: niektoré slová začínajú veľkými písmenami, iné malými, pričom majú rovnaký význam; jednotlivé slová sú oddelené čiarkami, no s rôznym počtom medzier, atď. Prvým krokom predspracovania textových dát je konverzia na čistý text, ktorú uskutočníme nasledujúcimi príkazmi: 56

# odstranenie medzier na zaciatku data$keywords < sub("^\\s+", "", data$keywords) # zmena medzier na podciarkovniky data$keywords < gsub(" ", "_", data$keywords) # zmena ciarok a nasledujucich medzier na medzery data$keywords < gsub(",_", " ", data$keywords) # odstranenie podciarkovnikov data$keywords < gsub("_", "", data$keywords) # konverzia vsetkych pismen na male data$keywords < tolower(data$keywords) V poradí ako prvé odstránime medzery zo začiatku sekvencie kľúčových slov, v ďalšom kroku nahrádzame všetky medzery podčiarkovníkmi z dôvodu odlíšenia slovných spojení od jednoslovných kľúčových slov. Pokračujeme nahradením čiarok nasledovaných podčiarkovníkom za medzery, ktorými budú v konečnom stave oddelené jednotlivé kľúčové slová vrátane slovných spojení. Následne odstránime podčiarkovníky medzi slovnými spojeniami. Slovné spojenia budú tým pádom v analýze vystupovať ako jedno slovo. Posledným krokom je zmena všetkých písmen v slovách na malé písmená. Bez tejto úpravy by slová rovnakého významu s rôznou veľkosťou písma vystupovali ako dve rôzne slová (napríklad kľúčové slovo SR by bolo analyzované oddelene od slova sr), čo je nežiaduce. Kľúčové slová majú po týchto úpravách formu čistého textu, sú oddelené jednotným separátorom medzerou a všetky slová obsahujú iba malé písmená. Takto upravené dáta sú vhodné na ďalší krok predspracovania textových dát tokenizáciu. Porovnanie kľúčových slov pred a po konverzii na čistý text zobrazuje tabuľka 4.5. 57

Tabuľka 4.5: Porovnanie kľúčových slov pred a po konverzii na čistý text PRED KONVERZIOU PO KONVERZII spomienka, dovolenka, zdravie, stres spomienka dovolenka zdravie stres SR, Hokej, SZĽH, repre, Cíger, tréner, sr hokej szľh repre cíger tréner ponuka zápor ponuka, zápor, MONITOR monitor SR, NR, Sieť, poriadok, exekučný, novela, sr nr sieť poriadok exekučný novela beblavý Beblavý obchvaty, Trstena, Vrutky, Dubna Skala, D1 obchvaty trstena vrutky dubnaskala d1 USA, Futbal, turné, Chelsea, výhra, usa futbal turné chelsea výhra barcelona Barcelona, sumár sumár Zdroj: Vlastné spracovanie Ďalším krokom je tokenizácia, teda rozdelenie zoznamu kľúčových slov jednotlivých článkov pomocou jednotného separátora. Nasledujúcim príkazom rozdelíme sekvenciu kľúčových slov premennej KEYWORDS na základe zvoleného separátora medzery. # vytvorenie zoznamu dokumentov, tokenizacia klucovych slov na zaklade medzery document_list < strsplit(data$keywords," ") Ďalším krokom predspracovania textových údajov je eliminácia neplnovýznamových slov, čím sa rozumie vylúčenie takých slov, pri ktorých sa predpokladá malý prínos ku charakteristike obsahu dokumentov. Kľúčové slová sa pri jednotlivých článkoch môžu vyskytovať s rôznou frekvenciou, prípadne sa môžu vyskytnúť prípady, keď sú ako kľúčové slová článku uvedené chybné výrazy, číslice alebo znaky. Takéto prípady budeme v ďalšom kroku z analýzy vylučovať. Pre získanie lepšej predstavy o výskyte slov v rámci všetkých článkov vytvoríme tabuľku početností kľúčových slov a pozrieme sa na jej základné charakteristiky. # tabulka pocetnosti klucovych slov term_table < document_list %>% 58

unlist() %>% table() %>% sort(decreasing = TRUE) # dlzka tabulky term_table pocet unikatnych slov v ramci vsetkych clankov length(term_table) # zakladne charakteristiky summary(term_table) # prvych 6 pozorovani head(term_table) # poslednych 6 pozorovani tail(term_table) # prvych 6 pozorovani klucovych slov s poctom znakov 1 head(term_table[nchar(names(term_table))==1]) Výstup 4.1: Sumárne charakteristiky frekvenčnej tabuľky > length(term_table) # dlzka tabulky term_table pocet unikatnych slov v ramci vsetkych clankov [1] 7408 > summary(term_table) # zakladne charakteristiky Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 1.000 1.000 3.461 2.000 1416.000 > head(term_table) # prvych 5 pozorovani. sr eko futbal usa grécko hokej 1416 466 387 282 270 185 > tail(term_table) # poslednych 5 pozorovani. živý žltýdres žoldnieri žrď žrebkvalifikáciems2018 žu 1 1 1 1 1 1 > head(term_table[nchar(names(term_table))==1]) # prvych 5 pozorovani klucovych slov s poctom znakov 1. 2 # 3 4 1 5 73 52 26 9 8 7 Zdroj: Vlastné spracovanie 59

Z výstupov vidíme, že naše vstupné dáta obsahujú 7 408 unikátnych kľúčových slov. Na základe druhého príkazu vieme určiť základné charakteristiky počtu priradení jednotlivých kľúčových slov k článkom. V priemere sa jedno kľúčové slovo priradilo k článku 3,46 krát, minimálny počet priradení je 1, maximálny 1416. Hodnota mediánu je rovná 1, čo znamená, že väčšina kľúčových slov bola priradená k článkom iba jeden krát. Príkazmi head(term_table) a tail(term_table) sa pozrieme na ukážku najfrekventovanejších a najmenej frekventovaných kľúčových slov. Najfrekventovanejšie slovo je sr, ktoré sa v zozname kľúčových slov všetkých článkov vyskytlo celkovo 1416 krát. Ďalšími často používanými kľúčovými slovami sú eko (charakterizujúce články z oblasti ekonomiky), futbal, usa, grécko a hokej. Medzi slová priradené k článkom iba jeden krát patria napríklad slová ako živý, žltýdres, žrď či žoldnieri. Posledným príkazom zobrazeným vo výstupe 4.1 sa pozrieme na početnosti výskytu chybných kľúčových slov a stopslov pozostávajúcich z jedného čísla prípadne znaku. Vidíme, že napr. číslovka 2 bola použitá ako kľúčové slovo 73 krát a znak # bol použitý v prípade 52 článkov. Na základe tohto výstupu sme zistili, že väčšina slov charakterizujúcich obsah analyzovaných článkov k nim bola priradená iba jeden krát. Pozrieme sa preto podrobnejšie na početnosti výskytu slov, vytvoríme frekvenčnú tabuľku a pozrieme sa na jej prvé hodnoty. # prve hodnoty frekvencnej tabulky pocetnosti vyskytu klucovych slov term_table %>% tbl_dt() %>% table() %>% head() 60

Výstup 4.2: Ukážka frekvenčnej tabuľky početnosti výskytu kľúčových slov > term_table %>% + tbl_dt() %>% + table() %>% + head(). 1 2 3 4 5 6 4637 1086 489 266 185 113 Zdroj: Vlastné spracovanie Na základe výstupu 4.2 vidíme, že až 63% všetkých kľúčových (4637 z celkových 7408) bolo priradených k článkom iba jeden krát, 15% len v dvoch prípadoch. Obsah analyzovaných článkov sa však musíme snažiť vyjadriť pomocou takých kľúčových slov, ktoré čo najlepšie vystihujú ich obsah a zároveň sa musíme snažiť tento počet slov minimalizovať pre zefektívnenie algoritmov. Z tohto dôvodu sme sa rozhodli do analýzy zahrnúť iba slová vyskytujúce sa v korpuse s väčšou frekvenciou. Hodnotu tejto úrovne sme stanovili heuristicky na úroveň 5, z analýzy teda vylučujeme všetky kľúčové slová, ktoré boli priradené k článkom v menej ako piatich prípadoch. Nasledujúcim príkazom zredukujeme počet kľúčových slov opisujúcich obsah jednotlivých článkov. Vylúčime jednoznakové kľúčové slová spolu so slovami s počtom prípadov priradenia k článku do 5. K týmto dvom podmienkam pridávame na vylúčenie aj najpočetnejšie kľúčové slovo sr, ktoré bolo priradené článkom obsahujúcim správy z domova. Toto kľúčové slovo bolo k článkom priraďované veľmi často a tým pádom nepridávalo žiadnu informáciu o charaktere obsahu jednotlivých článkov. # definicia podmienok na odstranenie klucovych slov to_remove < term_table < 5 nchar(names(term_table)) == 1 names(term_table)=='sr' # vylucenie definovanych slov term_table < term_table[!to_remove] Po týchto úpravách pozostávajú naše vstupné dáta z 4 043 článkov opísaných 922 kľúčovými slovami a sú pripravené na aplikáciu techník hĺbkovej analýzy textu, konkrétne 61

modelu LDA, prostredníctvom ktorého nahradíme kľúčové slová charakterizujúce obsah článkov témami generovanými týmto modelom. 4.1.3 Latentná Dirichletova alokácia Z mnohých balíkov jazyka R venujúcim sa metóde LDA sme sa rozhodli použiť balík lda. Vstupom funkcie na vytvorenie modelu je zoznam matíc s dĺžkou D, teda počtom dokumentov. Každá matica obsahuje dva riadky. Stĺpce matice reprezentujú jednotlivé slová vyskytujúce sa v dokumentoch, v našom prípade ide o jednotlivé kľúčové slová priradené k článkom. V prvom riadku matíc sa nachádzajú číselné identifikátory jednotlivých slov vytvorené na základe poradia vo vektore všetkých slov v rámci všetkých dokumentov (vocab). Druhý riadok matíc hovorí o početnosti výskytu slov dokumentoch, ku ktorým patria. # vytvorenie vektora slov vocab < names(term_table) # transformacia zoznamu dokumentov na formu pozadovanu balikom lda documents < document_list %>% lapply(get.terms) # nahlad struktury head(documents) 62

Výstup 4.3: Štruktúra dokumentov pred vstupom do modelu LDA > head(documents) # nahlad struktury [[1]] [,1] [,2] [,3] [1,] 378 400 529 [2,] 1 1 1 [[2]] [,1] [,2] [,3] [,4] [,5] [1,] 4 510 200 165 181 [2,] 1 1 1 1 1 [[3]] [,1] [,2] [,3] [,4] [1,] 119 187 689 83 [2,] 1 1 1 1 [[4]] [,1] [1,] 258 [2,] 1 [[5]] [,1] [,2] [,3] [,4] [,5] [,6] [1,] 2 1 609 908 289 188 [2,] 1 1 1 1 1 1 [[6]] [,1] [,2] [1,] 14 429 [2,] 1 1 Zdroj: Vlastné spracovanie Takto vytvorený zoznam matíc documents bude vstupom do príkazu na vytvorenie modelu LDA v ďalšom kroku. Ako sme uviedli vyššie, matice v zozname matíc charakterizujú jednotlivé články. V stĺpcoch matíc sú kľúčové slová článkov, v prvom riadku matice je uvedené poradie daného slova v rámci početností výskytu všetkých analyzovaných kľúčových slov, v druhom riadku je početnosť výskytu kľúčových slov v danom dokumente. V našom prípade sa v druhom riadku matíc bude nachádzať v každom prípade hodnota 1, keďže sa pri každom článku vyskytuje jedno kľúčové slovo iba raz. Ak by sme sa rozhodli charakterizovať obsah jednotlivých článkov pomocou ich celého textu, v stĺpcoch jednotlivých matíc by sa nachádzali všetky slová v článkoch a v druhom riadku matíc by sa uvádzali ich početnosti výskytu. Takto vytvorené matice by boli väčšieho rozmeru a redšie, čo by spomalilo proces výpočtov a zároveň by sa výsledky analýzy pravdepodobne nespresnili. Z tohto dôvodu sme sa rozhodli použiť na 63

charakteristiku obsahu článkov práve ich kľúčové slová. V konečnom dôsledku ide v mnohých prípadoch o slová s najväčším počtom opakovaní v článkoch. Po transformácii vstupných dát pokračujeme zadaním parametrov modelu. Za týmto účelom použijeme funkciu lda.collapsed.gibbs.sampler a nastavíme jej parametre nasledovne: # nastavenie generatora nahodnych cisel set.seed(1) # model lda lda < lda::lda.collapsed.gibbs.sampler(documents = documents, K = 15, vocab = vocab, num.iterations = 1000, alpha = 0.01, eta = 1, initial = NULL, burnin = 100, compute.log.likelihood = TRUE) Documents je zoznam dokumentov upravený na požadovanú formu v predchádzajúcom kroku. K je počet tém, ktorý proces vytvorí. Hodnotu tohto parametra sme stanovili heuristicky na úroveň 15, čo je približný počet sekcií spravodajského webu www.sme.sk. Po viacerých opakovaniach procesu s rôznym počtom vytvorených tém sme túto hodnotu považovali za najvhodnejšiu. Pri väčšom počte tém sa začali vytvárať témy podobného charakteru a naopak, pri menšom počte vytvorených tém sa napríklad témy týkajúce sa rôznych športov zlúčili do jednej. Vocab je vektor slov vyskytujúcich sa v analyzovaných dokumentoch, v našom prípade ide o zoznam všetkých kľúčových slov priradených ku všetkým článkom. Počet iterácií procesu (num.iterations) sme nastavili na úroveň 1 000. Tento počet hovorí o počte opakovaní procesu priraďovania jednotlivých kľúčových slov k témam a jednotlivých tém k článkom. Parameter alpha vyjadruje parameter Dirichletovho rozdelenia pravdepodobnosti popisujúci vzťah medzi dokumentmi a témami. Nízka hladina alfa indikuje apriórnu pravdepodobnosť, že počet tém obsiahnutých v jednom dokumente je nízky. Naopak, vysoká hladina tejto apriórnej pravdepodobnosti hovorí, že v jednom dokumente je obsiahnutých mnoho tém. My sme hodnotu tohto parametra stanovili na úroveň 0,01, 64

pretože vieme, že spravodajské články v našom analyzovanom korpuse sa týkajú iba jednej témy, nie viacerých. Parameter eta indikuje parameter Dirichletovho rozdelenia pravdepodobnosti, ktorý hovorí o vzťahu kľúčových slov a tém. Nízka hodnota tohto parametra indikuje apriórnu pravdepodobnosť, že témy vytvorené modelom je možné presnejšie charakterizovať jedným kľúčovým slovom ako viacerými, a naopak, vysoké hodnoty tohto parametra indikujú pravdepodobnosť, že jedna téma je tvorená zmesou viacerých slov. My sme na základe apriórnych vedomostí stanovili túto hodnotu na úroveň 1, pri ktorej je rozdelenie pravdepodobnosti rovnomerné, pretože predpokladáme, že jednu tému vieme charakterizovať lepšie viacerými kľúčovými slovami, nie len jedným. Práve vyššie uvedené nastavenia parametrov Dirichletovho rozdelenia pravdepodobnosti ovplyvňujú asi najvýznamnejšie zo všetkých parametrov celkové výsledky modelu LDA. Zmena týchto parametrov napr. na opačné hodnoty (0,01 na 1 a zmena 1 na 0,01) neprinesie síce neinterpretovateľné, či úplne odlišné výsledky, no práve v tejto časti modelovania tém je možné využiť poznatky a skúsenosti z analyzovanej oblasti a spresniť tým výsledky analýzy. Výstupom predchádzajúceho príkazu je okrem iného aj matica početností priradení jednotlivých slov k vytvoreným témam, na základe ktorej vieme získať odhad matice phi, ktorá obsahuje hodnoty pravdepodobností, s akými súvisia jednotlivé slová s vytvorenými témami. Použitím pomocnej funkcie print_top_keywords() (Príloha č.2) získame pre každú tému päť najvýznamnejších kľúčových slov a ich pravdepodobnosť, s akou súvisia s danou témou. Súčet týchto pravdepodobností sa pre každú vytvorenú tému rovná jednej. Tento výstup upravený do tabuľky 4.6 nám umožňuje interpretovať a pomenovať jednotlivé témy. V prvom stĺpci tabuľky 4.6 je uvedené číslo témy, každá z tém je charakterizovaná kľúčovým slovom (v riadku Kľúčové slovo) spolu s pravdepodobnosťou súvislosti tohto slova s danou témou (riadok Významnosť). Na základe najvýznamnejších slov subjektívne určíme názvy tém, ktoré budeme používať v ďalších častiach práce. V poznámke pod tabuľkou uvádzame podrobnejší popis kľúčových slov, ktoré majú formu skratiek. # definicia tem print_top_keywords(lda) 65

Tabuľka 4.6: Výsledok procesu extrahovania tém Číslo Poradie 1 2 3 4 5 Názov témy témy 1 Kľúčové slovo eko zvuk vzi video foto Ekonomika Významnosť 0,1099 0,0674 0,0475 0,0275 0,0258 2 Kľúčové slovo maďarsko migranti čr migrácia počasie Migranti Významnosť 0,0752 0,0624 0,0554 0,0267 0,0248 3 Kľúčové slovo irán dohoda usa vzi horúčavy Zahraničné Významnosť 0,0590 0,0501 0,0457 0,0354 0,0354 správy 4 Kľúčové slovo polícia vzi bax nehoda bbx Policajné Významnosť 0,1024 0,0300 0,0300 0,0300 0,0248 správy 5 Kľúčové slovo hokej nhl khl usa slovan Hokej Významnosť 0,2299 0,0729 0,0540 0,0440 0,0364 6 Kľúčové slovo is sýria turecko usa útok Blízky Významnosť 0,0665 0,0525 0,0402 0,0359 0,0350 východ 7 Kľúčové slovo futbal el prestup anglicko usa Futbal Významnosť 0,2553 0,0245 0,0238 0,0224 0,0175 8 Kľúčové slovo zákon nrsr novela návrh prezident Politika SR Významnosť 0,0472 0,0460 0,0331 0,0224 0,0213 9 Kľúčové slovo re ba bax doprava tt Dopravné Významnosť 0,1485 0,0748 0,0408 0,0283 0,0261 správy 10 Kľúčové slovo cyklistika tourdefrance svet motorizmus tdf Cyklistika Významnosť 0,1252 0,0429 0,0340 0,0322 0,0322 11 Kľúčové slovo školstvo vláda školy súdy bbx Školstvo Významnosť 0,0443 0,0246 0,0172 0,0148 0,0123 12 Kľúčové slovo tenis wimbledon dvojhra výsledok výsledky Tenis Významnosť 0,1271 0,0535 0,0524 0,0468 0,0401 13 Kľúčové slovo rusko ukrajina usa francúzsko eko Rusko, Významnosť 0,0867 0,0766 0,0615 0,0242 0,0232 Ukrajina 14 Kľúčové slovo usa obete útok británia čína Krimi Významnosť 0,0457 0,0431 0,0326 0,0300 0,0222 zahraničie 15 Kľúčové slovo eko grécko eú nemecko eurozóna EÚ Významnosť 0,1351 0,1210 0,0507 0,0244 0,0192 Zdroj: Vlastné spracovanie, pozn.: eko ekonomika, vzi prevzaté články, čr Česká Republika, bax okres Bratislava, bbx okres Banská Bystrica, nhl Americká hokejová liga, khl Kontinentálna hokejová liga, is Islamský štát, el Európska futbalová liga, nrsr Národná rada Slovenskej Republiky, re regionálne spravodajstvo, ba Bratislava, tt Trnava, tdf Tour de France, eú Európska Únia. 66

V rámci prvej témy je najvýznamnejšie slovo eko, indikujúce správy z ekonomiky. Ďalšie kľúčové slová sa týkajú prevzatých článkov (vzi) či videí a fotiek. Ide o viac menej všeobecnú tému, nazveme ju na základe najvýznamnejšieho kľúčového slova Ekonomika. Druhá téma sa týka vyslovene problematiky migrácie, medzi najvýznamnejšie kľúčové slová patria slová ako Maďarsko, migranti, ČR a migrácia, z čoho vyplýva jednoznačný názov Migranti. Tretia téma sa týka zahraničných správ, najvýznamnejšie kľúčové slová sú Irán, dohoda a USA. Podobne ako v prípade druhej témy, aj tu sa medzi prvými piatimi najvýznamnejšími kľúčovými slovami vyskytuje termín týkajúci sa počasia (horúčavy), čo je pravdepodobne spôsobené obdobím zberu dát, ktorým bol mesiac júl, kedy sa o počasie zaujímalo viacero čitateľov. Medzi pätnástimi témami sa vyskytujú štyri témy týkajúce sa športových disciplín. Ide o témy Hokej, Futbal, Cyklistika a Tenis. V týchto prípadoch sa všetky kľúčové slová týkajú vyslovene danej témy. Napríklad téma Tenis je charakterizovaná kľúčovými slovami ako tenis, wimbledon, dvojhra, výsledok, výsledky. V prípade témy Futbal ide o slová futbal, el (európska liga), prestup, Anglicko, USA. Ďalšími zaujímavými témami s kľúčovými slovami týkajúcimi sa jednoznačne danej tematiky sú napríklad Politika SR s kľúčovými slovami ako zákon, NRSR, novela, návrh, prezident alebo téma EÚ s významnými termínmi ako eko, Grécko, EÚ, Nemecko a eurozóna. Doposiaľ sme analyzovali vzniknuté témy len prostredníctvom ich najvýznamnejších kľúčových slov. Pre získanie lepších interpretačných výsledkov použijeme interaktívny nástroj balíka LDAvis, ktorý nám umožní porovnať jednotlivé témy navzájom a tiež zistiť, ktorá z tém ma spomedzi všetkých najväčšiu prevahu. 4.1.4 Vizualizácia výsledkov extrahovania tém Na vizualizáciu výsledkov extrahovania tém sme použili balík LDAvis, ktorý prostredníctvom internetového prehliadača interaktívne zobrazuje vytvorené témy a umožňuje ich hlbšiu analýzu a lepšiu interpretáciu. 67

Pre vizualizáciu tém pomocou balíka LDAvis sú potrebné dve matice charakterizujúce témy vzhľadom na kľúčové slová a články. Prvou z nich je matica theta opisujúca relevanciu jednotlivých článkov k vytvoreným témam. Obsahom matice sú koeficienty theta, ktoré sme získali vydelením počtu priradení slov dokumentov k jednotlivým témam v rámci iteračného procesu celkovým počtom priradení slov dokumentu ku všetkým témam. Téma s najvyššou hodnotou tejto pravdepodobnosti vyjadrenou koeficientom theta bude pre daný článok najviac charakteristická. Takto vytvorenú maticu opisujúcu vzťah medzi článkami a témami použijeme aj ako vstup do druhej časti analýzy zhlukovania čitateľov. Druhou maticou potrebnou pre vizualizáciu tém je matica phi charakterizujúca vzťah tém a kľúčových slov, na základe ktorej sme v predchádzajúcej časti určili názvy tém. Hodnoty koeficientov phi sme určili ako podiel počtu priradení slov k jednotlivým témam a celkového počtu priradení slov ku všetkým témam spolu. # matica theta (D x K) zavislost dokumenty vs. temy theta_lda < t(apply(lda$document_sums + 0.01, 2, function(x) x/sum(x))) # matica phi (K x V) zavislost temy vs. slova phi_lda < t(apply(t(lda$topics) + 1, 2, function(x) x/sum(x))) Ďalšími údajmi o modeli LDA potrebnými na vizualizáciu vytvorených tém je počet kľúčových slov jednotlivých článkov a frekvencia ich výskytu v rámci celého zoznamu slov v analyzovanom korpuse. Nasledujúcimi príkazmi získame tieto dodatočné údaje o modeli a spustíme interaktívnu vizualizáciu výsledkov modelu LDA v prehliadači. # pocet tokenov (klucovych slov) pre jednotlive dokumenty (clanky) doc_length < documents %>% sapply(function(x) sum(x[2, ])) # frekvencia vyskytu jednolivych klucovych slov term_frequency < as.integer(term_table) 68

# vytvorenie json struktury pre interaktivnu vizualizaciu json < LDAvis::createJSON(phi = phi_lda, theta = theta_lda, doc.length = doc_length, vocab = vocab, term.frequency = term_frequency) # zobrazenie interaktivnej vizualizacie tem json %>% LDAvis::serVis(out.dir = "results/vis", open.browser = TRUE) 69

Výstup 4.4: Interaktívna vizualizácia tém Zdroj: Vlastné spracovanie, pozn.: číslovanie tém nie je zhodné s označením vo výstupoch modelu, názvy tém uvádzame v legende Vizualizácia vytvorených tém pomocou balíka LDAvis sa skladá z dvoch častí. Prvou z nich je interaktívna mapa poskytujúca všeobecný pohľad na model ako celok. Na 70