Problém Big Data a ako ho riešiť pomocou NoSQL. Ján Zázrivec Softec

Similar documents
Anycast. Ľubor Jurena CEO Michal Kolárik System Administrator

Riešenia a technológie pre jednotnú správu používateľov

Tvorba informačných systémov. 4. prednáška: Návrh IS

Government Cloud. Stratégia využitia Cloud Computing-u vo Verejnej správe SR. Peter Kišša

Spájanie tabuliek. Jaroslav Porubän, Miroslav Biňas, Milan Nosáľ (c)

Textový formát na zasielanie údajov podľa 27 ods. 2 písm. f) zákona

Databázové systémy. SQL Window functions

Copyright 2016 by Martin Krug. All rights reserved.

Ochrana proti DDoS za použitia open-source software. Katarína Ďurechová

PV030 Textual Information Systems

Structures. Dr. Donald Davendra Ph.D. (Department of Computing Science, Structures FEI VSB-TU Ostrava)

Databázy (1) Prednáška 11. Alexander Šimko

Spôsoby zistenia ID KEP

NOSQL DATABASE SYSTEMS: DATA MODELING. Big Data Technologies: NoSQL DBMS (Data Modeling) - SoSe

Poradové a agregačné window funkcie. ROLLUP a CUBE

Aplikačný dizajn manuál

Obsah. SOA REST REST princípy REST výhody prest. Otázky

Advanced Data Management Technologies Written Exam

Jazyk SQL. Jaroslav Porubän, Miroslav Biňas, Milan Nosáľ (c)

VIRTUALIZÁCIA DÁTOVÝCH ÚLOŽÍSK. Karol Schütz, S&T Slovakia

Databázové systémy. Jaroslav Porubän, Miroslav Biňas, Milan Nosáľ (c)

Programovanie v jazyku Python. Michal Kvasnica

Rýchlosť Mbit/s (download/upload) 15 Mbit / 1 Mbit. 50 Mbit / 8 Mbit. 80 Mbit / 10 Mbit. 10 Mbit / 1 Mbit. 12 Mbit / 2 Mbit.

VYLEPŠOVANIE KONCEPTU TRIEDY

NIKY a NIKY S. JEDNOFÁZOVÉ UPS od 600 do 3000 VA SVETOVÝ ŠPECIALISTA PRE ELEKTRICKÉ INŠTALÁCIE A DIGITÁLNE SYSTÉMY BUDOV

Testovanie bieleho šumu

Databases : Lecture 1 2: Beyond ACID/Relational databases Timothy G. Griffin Lent Term Apologies to Martin Fowler ( NoSQL Distilled )

Crestron Mercury. Univerzálny Videokonferenčný a Kolaboračný systém

Introduction to NoSQL by William McKnight

Job Board v3 Remote Template Branding Guide for Web Developers

Microsoft Azure platforma pre Cloud Computing. Juraj Šitina, Microsoft Slovakia

Mesačná kontrolná správa

Ceny kurzov a školení

Databases : Lectures 11 and 12: Beyond ACID/Relational databases Timothy G. Griffin Lent Term 2013

TTX260 investícia s nízkymi nákladmi pre dobrý výkon

1.3 Surface Areas of Objects Made from Right Rectangular and Triangular Prisms

Základná(umelecká(škola(Jána(Albrechta Topoľčianska(15

Pentaho 30 for 30 QUICK START EVALUTATION. Aakash Shah

1 Komplexný príklad využitia OOP

Data-Intensive Distributed Computing

LL LED svietidlá na osvetlenie športovísk. MMXIII-X LEADER LIGHT s.r.o. Všetky práva vyhradené. Uvedené dáta podliehajú zmenám.

Principles of Data Management. Lecture #16 (MapReduce & DFS for Big Data)

kucharka exportu pro 9FFFIMU

Agenda. AWS Database Services Traditional vs AWS Data services model Amazon RDS Redshift DynamoDB ElastiCache

Mesačná kontrolná správa

pojedinačnom elementu niza se pristupa imeniza[indeks] indeks od 0 do n-1

Recipient Configuration. Štefan Pataky MCP, MCTS, MCITP

ÚMRTNOSŤ NA ÚRAZY MOZGU VO VYBRANÝCH EURÓPSKYCH KRAJINÁCH

XML databázy. Jana Dvořáková Pokročilé databázové technológie, FIIT STU

Passenger demand by mode

Migrating Oracle Databases To Cassandra

doc. Peter Drahoš Ústav automobilovej mechatroniky FEI STU Bratislava

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Hadoop a spracovanie veľkého objemu dát realita verzus potenciál Trendy a stratégie

Play with Python: An intro to Data Science

Constraint satisfaction problems (problémy s obmedzujúcimi podmienkami)

The age of Big Data Big Data for Oracle Database Professionals

Xamarin písanie Android a ios aplikácií v C#

NÁKLADY ŽIVOTNÉHO CYKLU LIFE CYCLE COSTS

Session Advanced System Control, Advanced Utility Analytics with Object-Oriented Database Technology Paul Myrda, John Simmins, Bert Taube USA

PRÍLOHY PRÍLOHY. Príloha 1 Náhľady vybraných podstránok webovej stránky

Databázy (2) Prednáška 08. Alexander Šimko

Avaya Connect: ocení hodnotu

Knowledge Discovery in Databases. Databases. date name surname street city account no. payment balance

package balik; public class TopLevel1 {... }

Klasický WordPress modul Coding standards I18n Post types, taxonomies, meta, options Transients a WP cache Nepoužívajte "super" triedy/objekty

Registrácia účtu Hik-Connect

TIBCO Statistica Release Notes

Big Data Analytics using Apache Hadoop and Spark with Scala

Podporované grantom z Islandu, Lichtenštajnska a Nórska prostredníctvom Finančného mechanizmu EHP a Nórskeho finančného mechanizmu

Big Data Syllabus. Understanding big data and Hadoop. Limitations and Solutions of existing Data Analytics Architecture

The Potential of Cloud Computing: Challenges, Opportunities, Impact"!!!!

Učitati cio broj n i štampati njegovu recipročnu vrijednost. Ako je učitan broj 0, štampati 1/0.

Parallel Programming Principle and Practice. Lecture 10 Big Data Processing with MapReduce

SQL DATA DEFINITION LANGUAGE

Using the In-Memory Columnar Store to Perform Real-Time Analysis of CERN Data. Maaike Limper Emil Pilecki Manuel Martín Márquez

SQL DATA DEFINITION LANGUAGE

Introduction to NoSQL Databases

Vyhodnocovanie výrazov relačnej algebry v odpovedníkoch IS

Oracle NoSQL Database and Cisco- Collaboration that produces results. 1 Copyright 2011, Oracle and/or its affiliates. All rights reserved.

The Technology of the Business Data Lake. Appendix

Non-Relational Databases. Pelle Jakovits

POKROČILÉ C++ Marian Vittek

Nové komunikačné trendy v dátových centrách

Algoritmy deterministickej a stochastickej optimalizácie a ich počítačová realizácia

Pentura Mini LED veľmi tenké lištové svietidlo

TP-LINK 150Mbps Wireless AP/Client Router Model TL-WR743ND Rýchly inštalačný sprievodca

Database madness with & SQL Alchemy. Jaime Buelta. wrongsideofmemphis.worpress.com

CS 112 Introduction to Computing II. Wayne Snyder Computer Science Department Boston University

NOSQL DATABASE SYSTEMS: DECISION GUIDANCE AND TRENDS. Big Data Technologies: NoSQL DBMS (Decision Guidance) - SoSe

Big Data in Translational Science

Big Data analytics in insurance

Resource Services Report. Spearheading Internet technology and policy development in the African Region

Deriving Generic Functions by Example

Certifications Guide. Your Data. Your Innovation. The Premier Event for the Digital Revolution September 25-27, 2018, San Diego, California

Is Elasticsearch the Answer?

(A) 99 (B) 100 (C) 101 (D) 100 initial integers plus any additional integers required during program execution

Sources. P. J. Sadalage, M Fowler, NoSQL Distilled, Addison Wesley

Ako na zálohu a obnovu doménových radičov

Informačný deň k rámcovému programu EÚ HORIZONT 2020

Transcription:

Problém Big Data a ako ho riešiť pomocou NoSQL Ján Zázrivec Softec

Dáta dnešného sveta Oblasti kde sa spracováva veľké množstvo dát: Internet Web vyhľadávače, Sociálne siete Veda Large Hadron Collider, Astronómia, Ľudský génom, Výskum klimatických zmien Obchod, Finančný sektor Čo majú spoločné? 2

Big data Veľké dáta Objem Rozmanitosť Rýchlosť Dáta: ukladať, spracovávať a prezentovať Prečo je použitie relačných databáz neefektívne? 3

Problémy relačných databáz Objem/Rýchlosť Problematické horizontálne škálovanie Dynamické tabuľky pri dotazoch Rozmanitosť Join v dotazoch Zmena databázovej schémy vs. dostupnosť Náklady na škálovateľnosť sú exponencionálne 4

Brewerová CAP teoréma distribuovanej DB Konzistencia každý klient ma vždy rovnaký pohľad na dáta Dostupnosť každý klient dokáže vždy čítať aj zapisovať Particiovanie systém dokáže fungovať aj pri rozpadnutí na viacero častí Konzistencia C R D B M S Dostupnosť A Distribuovaná databáza nedokáže splniť dokonale všetky 3 požiadavky P Particiovanie 5

NoSQL Horizontálne škálovateľné Špecializácia na konkrétny problém Nepoužívajú relačný model Neexistuje spoločný dotazovací jazyk Bez schémy (Schemaless) 6

Objem dát Typy NoSQL databáz Kľuč/hodnota Stĺpcové Dokumentové Grafové Komplexnosť dát 7

Dokumentové NoSQL { name:"hodina deťom 14. ročník", primaryfocus:["bežné deti", "zdravotne znevýhodnené"], programarea:[{ name:"dieťa a jeho radosti", solvedproblem:["vplyv médií, na dieťaťa", "chýbanie komunikácia"] }], guidesections:[{ name:"informácie o organizácii", abstract:"ak ste vyplnili...", text:"ak ste vyplnili pri registrácii...", subsections:[{ name:"predkladateľ", abstract:"predkladateľom projektu...", text:"predkladateľom projektu...", subsections:[{ abstract:"test1 }] }] }] } Vhodné použitie: Štruktúrované a polo štruktúrované dokumenty Úložisko metadát, napr. produktový katalóg 8

Ukážka meta-modelu a modelu lass NDS_Program+datove typy class NDS_LogickyModel Programov aoblast PrimarneZameranie +PrimarneZamerania 1.. HistorickyPodporenyProjekt - bolizdrojevycerpane :boolean - dovodynevycerpania :text - grantovyprogram :String - nazovprojektu :String - rokrealizacie :int +historiapodporynds Organizacia - bankovespojenie :BankoveSpojenie - korespondencnaadresa :KorespondAdresa - statutar :KontaktOsoby - zakladneudaje :AtributyOrganizacie +prilohy PrilohaOrganizacie - data :blob - datovytyp :enum - typprilohy :TypPrilohy +predkladatel 1 TypPrilohy - nasobnost :int - povinna :boolean +rieseneproblemy RiesenyProblem +typypriloh Program - Logo :PNG - maxlimitprispevku :int - maxpocettypovaktivit :int - maxtrvanieprojektu :int - mintrvanieprojektu :int - percentoprispevku :int - pocetpovolenychprojektov :enum - programoveroly :AplikacnaRola [1..] - stav :enum +projekty Projekt - cinnost :text - datumpodpisuzmluvy :date - datumposlania1splatky :date - datumprijatiapodpisanejzmluvy :date - datumschvaleniaobochsprav :date - datumukonceniaprojektu :date - poslanie :text - projektoveroly :AplikacnaRola [1..] +projekty +program 1 Program +sekcieprirucky Prirucka_Sekcia - kod :String - text :html +subsekcie +terminyprogramu Obdobie - datumdo :date - datumod :date Termin Lehota - atributobjektu :String - pocetdni :int - typobjektu :String PrilohaProjektu - data :blob - datovytyp :enum - typprilohy :TypPrilohy SekciaRozpoctu - polozky :PolozkaRozpoctu [1..] {sequence} Propagacia - specifikacia :text - typ :enum Partner - adresa :Adresa - sposobspoluprace :text - typ :enum +prilohy +sekcierozpoctu +propagaciapodporynds +partneriprojektu +verzieprojektu 1.. VerziaProjektu - anotacia :text - bankovespojenie :BankoveSpojenie - buducnost :Buducnost - cinnost :text - dobrovolnicipocet :int - dobrovolnicisposobzapojenia :text - kontext :text - koordinator :KontaktOsoby - korespondencnaadresa :KorespondAdresa - poctyludivorganizacii :PoctyLudiVOrganizacii - pomocprizbierke :boolean - poslanie :text - posobnost :enum - primarnezamerany :enum - programovaoblast :enum - realizator :AtributyOrganizacie - realizatorrovnaky :boolean - riesiproblemy :enum - statutar :KontaktOsoby - version :long - verzia :int - vychodiskovasituacia :text - zakladneudaje :AtributyOrganizacie - zorganizovatzbierku :boolean +realizatoriaktivit +aktivity +odbornici +cieloveskupiny ZapojenaOsoba - osoba :Osoba - posobisko :String - pozicia :String - prax :text - zapojenie :text Cielov askupina - kategoria :enum - pocet :int - pozicia :enum - specifika :text - zaradenie :enum VyskytAktiv ityvmesiaci - mesiac :YYYY-MM - pocetopakovaniaktivity :int 1.. 1.. +vyskytyvmesiacoch TypAktiv ity - metodyprace :text - popisobsahu :text - typ :enum 9

Dotazy a agregácie Ad Hoc dotazy (index) Map reduce algoritmus map(key, value)->list(k1, v1) reduce(k1, list(v1))->list(v3) Materializovaný pohľad Data vstup Map Map Map Map Reduce Reduce Reduce Data výstup 10

Architektúra IS s NoSQL Zvážiť ktorú NoSQL implementáciu použiť a či vôbec Použitie len NoSQL je takmer vždy nevhodné Riešením je polyglot perzistencia Zmena v existujúcich systémoch na NoSQL Veľmi náročná a nebezpečná Integrácia s Business Analytics (napr. Pentaho) 11

Záver Ďakujem za pozornosť 12