1 DATA MINING Data Mining software ก ก ก software ก ก ก ก ก ก Executive Information System ( EIS ) ก ก ก ก ก ก ( Decision Support System) ก 1 DATA KNOWLEDGE DECISION ACTION 1 ก 1. ก ก ก data mining ก ก user ก 3. ก ก user ก Data Business knowledge Business hypothesis Business modeling (using data mining software) Data mining (analysis) Validation of hypothesis Decision 2. data mining tools user model ก ก ก ก ก
2 ก ก ก ก ก ก ก DBMS ( Database Management System ) ก ก ก ก ก Data Mining ก ก 30 ก ก ก ก KDD ( Knowledge Discovery in Database ) ก ก Data Mining Philippe Nieuwbourg ( CXP Information ) ก Data Mining ก ก ก ก ก ก ก ก ก Data Mining ก ก ก ก ก ก Data Mining ก ก ก 1960 ก file processing ก 1970 ก ก ก ( Ralational Database System ) ก ก ก ก ก ก ก ก ก ก ก ( Query Language ) 1980 ก ก ก ก ก ก hardware 30 ก ก ก 1990 ก ก ก ก ก ก ก ก
3 ก ก Data Warehouse ก ก ก Data Warehouse Data Cleansing, Data Integration On-Line Analytical Processing ( OLAP ) ก ก ก ก ก ก ก ก ( data rich but information poor ) ก ก ก ก ก ก ก ก ก ก Data Mining Data Collection ( 1960 s and earlier) - primitive file processing Database management system ( 1970 s ) - network and relational database management system - data modeling tools, query language Advanced database management system ( 1980 s - present) - advanced data model - object-oriented database management system - object relational database management system Data Warehousing & Data mining ( 1990 s present ) 2 ก
4 Data Mining 1. ก ก ก ก ก ก ก ก ก ก ก ก ก ก 2. ก 3. ก ก ก ก ก ก ก ก ( Data Warehouse) Data Mining ก ก ก Data Mining ก ก ก ก Internet, ก, ก ก ก ก ( Decision Support System) ก ก ก ก ก ก ก ก ก ก ( Operational System ) ( Data Warehouse ) ก ก ก computer Data Mining ก Algorithm ก ก ก computer computer microcomputer ก ก ( PC Cluster ) computer
5 ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก Data Mining Relational Database ก ก entity-relationship ( ER ) model Data Warehouses ก ก ก ก ก ก Transactional Database ก ก ก ก ก ก ก Advanced Database ก objectoriented, text file,, web ก Data Mining ก ก ก Database Management System ( DBMS ) ก ก ก ก ก DBMS Oracle, DB2, MS SQL, MS Access ก ก Mining ก ก ก ก ก Mining ก ก ก Mining
6 ก Mining ก Mining ก ก Data Mining Data Mining 1. Association rule Discovery Data Mining ก ก กก ก ก ก ก ก ก กก ก ก ก Market Basket Analysis ก ก ก ก ก ( Association Rule ) ก ก ก ก ก ก Amazon ก Amazon ก ก ก ก ก กก ก ก ก ก buys ( x, database) -> buys ( x, data mining ) [ 80%, 60% ] database ก data mining 60 % ก database data mining ก 80 % ก ก ก 1 ก ก ก ( Virtual store ) web ก ก ก ก ก ก ก ก ก ก ก ( itemset ) ก ก ก {, }, { กก, ก} {, } ก ก ก ก ก ก ก ก ก 5 ก ก ก ก ก (query ) ก ก ก
7 { ก, A}, { ก, B}, { ก, C }, {, B} ก DBMS query SQL SELECT P.custid, P.item, SUM( P.qty ) FROM Purchases P GROUP BY P.custid, P.item HAVING SUM(P.qty ) > 5 ก DBMS SQL ก ก ก query ก ก ก query iceberg query ก 2. Classification & Prediction Classification ก ก model ก ก ก ก ก ก ก ก ก ก ก ก ก classification ก 3 3 Training Data Model Construction Classifier Model Testing Data Model Evaluation Classifier Model Unseen Data Classification 3 ก ก Classification
8 - Model Construction ( Learning ) ก model ก ก ก ( training data ) model 1. ( Decision Tree) 2. ( Neural Net) 1) Decision Tree ก ก ก ก ก ก ก attribute ก ก ก ก ก 50 ก ก ก ก ก ก ก ก ก ( Branch ) ก ( Staff ) ( Propety) ก ( Client ) ก ( Relationship) ก ก ( Customer_rental ) ก ( Rentals ) ก ( Sales ) ก ก ก 40 % ก ก ก 25 ก ก 35 % ก 4 Decision Tree ก ก ก ก ก
9 Customer renting property > 2 years? NO Yes Rent property Customer age > 25 years? NO Yes Rent property Buy property 4 Decision Tree ก ก ก ก ก ก Business_Info ก ก ก ก ก ก ก ก Business_Info Age Rent_Period Buy 23 36 20 27 20 50 36 36 22 3 1.5 1.5 2 1 2.5 1 2 2.5 No No No Yes No Yes No Yes no
10 SQL Decision Tree 2 1. SQL root node SELECT B.Rent_Period, B.Buy, COUNT(*) FROM Business_Info B WHERE B.Rent_Period > 2 GROUP BY B.Rent_Period, B.Buy SQL Rent_Period Buy Yes No 1 1.5 2 2.5 3 0 0 2 1 0 2 2 0 1 1 2. SQL node child root SELECT B.Age, B.Buy, COUNT(*) FROM Business_Info B WHERE B.Age > 25 GROUP BY B.Age, B.Buy SQL Rent_Period Buy Yes No 20 22 23 27 36 50 0 0 2 1 1 1 2 1 1 0 2 0 ก Decision Tree ก AVC set ( Attribute Value, Class label ) ก 2 AVC sets ก ก ก
11 2) ก ( Neural Net) ก Artificial Intelligence:AI ก ก กก ก ( ก Artificial Neural Networks ANN ) ก ก ก ( train ) ก ก ก ก ( node ) Input Output ก ก ก input layer, output layer hidden layers ก ก ก layer 5 ก ก 4 Customer renting property > 2 years? Customer age > 25 years? 0.4 Input 0.6 0.5 0.3 Hidden processing layer 5 ก ก 0.7 0.4 Output Class (Rent or buy property - Model Evaluation ( Accuracy ) ก ก ( testing data ) ก ก ก model ก - Model Usage ( Classification ) Model ก ( unseen data ) ก ก ก object ก ก Prediction ก ก ก ก ก ก
12 3. Database clustering Segmentation ก ก ก ก ก ก กก ก ก 3 ก 1. ก (>$80,000) 2. ก ก ($25,000 to $ 80,000) 3. ก (less than $25,000) ก ก ก - Have Children - Married - Last car is a used car - Own cars First Segment (High income) Second Segment (Middle income) Third Segment (Low income) Have Children Married Last car is a used car Own cars 6 Clustering ก ก ก ก 4. Deviation Detection ก ก ก ก ก ก ก ก (Visualization)
13 ก ก ก ก 5. Link Analysis Link Analysis ก link ก associations recode ก recode link analysis ก 3 -associations discovery -sequential pattern discovery -similar time sequence discovery Data Mining Data Warehouse ก Data Mining ก ก ก ก mining Data mining ก ก ก Data warehouse ก ก ก mining ก - Data warehouse ก ก ก ก mining ก predictive models - Data warehouse ก mining ก ก Data warehouse ก - ก ก record fields Data mining ก ก query Data warehouse - ก ก กก Data mining ก ก ก Data warehouse ก ก Data mining Data warehouse ก ก Data mining Data warehouse ก ก ก Data Mining
ก ก Data Mining ก ก ก ก Midas ก ก ก ก ก ก ก ก Bouygues Telecom ก ก ก ก ก ก ก ก ก ก ก ก ก ก France Telecom ก ก ก ก ก ก ก Data Mining ก ก - ก ก ก ก ก - ก ก - ก ก ก ก - ก ก ก ก - ก ก ก ก 6 ก ก - 70 % ก ก ก ก ก - ก - ก Text Mining ก Data Mining ก SDP Infoware ก ก ก e-commerce 14
15 - ก ก ก ก web ก - ก web site web ก กก ก ก Data Mining ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก (Mining Objective) ก กก ก ก ก ก ก ก 10 ก ก ก ก ก ก ก (knowledge) กก ก ก ก ก ก 10 2 1 ก 2 ID Sex Address SchoolGPA Major GPA 1 ก 86/9 2 2.5... 2.3... 2.. 54/2 7 3.4... 3.2... 1
16 ก 1 ก ก ก ก ID Subject Section Term Year Grade 1 001 1 1 2537 C+ 1 002 1 1 2537 D 1 005 1 1 2537 B+ 2 ก ก 2 ก ก ก ก ก ก 1. ก (data cleaning) ก ก ก ก ก ก ก ก ก 1 ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก 1 ก ก ก ก ก ก ก ก
17 ก ก ก ก ก ก ก ก (NULL) ก ก 2 Grade ก ก ก ก 1 1.3 ก ก Bangkok Non-Bangkok ก ก ก ก (Binning Data) ก ก ก ก 10 ก {A,B+,B,C+,C,D+,D,F,W,I} ก ก ก ก ก ก ก 3 ก ก {A,B+,B} High, ก {C+,C} Meduim ก {D+,D,F,W,I} Low ก 1 ก - ก ก ก - ก ก ก ก ก ก 2 ก ก ก 6 ก School = 0 ก ก ก ก 6 School = 1 - ก ก กก ก 1 3 ID Sex Term School Major GPA 1 Female Bangkok 1 ELEC 2.3 2 Male Non-Bangkok 0 CIVIL 3.2 3
18 ก 2 ก ก - ก ก ก - ก ก ก ก กก 2 4 ID Subject Term Year Grade 1 001 1 2537 Meduim 1 002 1 2537 Low 1 005 1 2537 High 4 ก 2. ก ก (Data Selection) ก - ก ก ก ก 10 ก ก ก ก ก ก ก ก - ก ก 6 ก ก ก ก ก ก ก ก ก ก ก 6 ก 6 ก ก ก ก ก ก ก ก ก 3. ก (Data Transformation)
19 ก 4 ก ก ก ก ก ก 3 4 ก ก ก 5 ID Sex Address 001 002 Major GPA 1 Male Bangkok Meduim Low ELEC 2.3 2 Female Non-Bangkok High High CIVIL 3.2 5 ก 5 ก ก Web Mining ก ก Application Data Mining ก Web Mining Web Data Mining ก Data Mining e-commerce e-research ก ก ( Mass market technology ) Web mining ก ก ก Web Mining ก ก กก Data Mining ก ก ก Web Mining ก web ก ก ก Data Mining ก
ก ก web ก ก ก ก Web Mining ก ก ก ก web web ก ก ก ก ก ก Web Mining ก ก web ก Web Mining ก ก web ก ก ก ก (Text ) ก ก กก ก ก ก web ก ก Web Mining ก ก ก ก ก Links web web page ก ก ก Search Engines ก ก ก ก ก Link ก web ก ก ก ก ก ก ก ก ( Image ) ก ก Search Engines ก ก Web Mining ก ก ก e-commerce ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก กก ก log file ก ก web กก ก ก (user tracking ) web ก ก กก ก ก ก ก ก ก 3 ก 1. Demographics ก ก ก web ก ก 20
21 2. Phychographics ก กก ก ก web 3. Technolographics ก ก 3 ก ก ก ก ก ก ก ก ก ก ก ก ก Web Mining ก Data Mining ก ก ก ก ก กก ก ก ก Data Mining ก ก ก ก (pattern recognition technology) ก ก ก ก (machinelearning & genetic algorithms) ก ก ก (Netural & Polynomial networks) ก ก Data Mining ก ก ก ก ก (Who) ก ก ก (What) (Where) (When) ก ก ก (Why) ก ก ก ก ก ก ก Data Mining ก ก ก ก ก ก ก ก ก ก ก Data Mining ก (Data warehouse) ก (Data marts) ก ก (Customer information file) ก ก กก ก ก ก ก ก ก ก
ก ก (electronic commerce) ก ก Data Mining ก ก ก ก ก ก ก ก ก ก ก ก ก Data Mining ก ก ก ก ก ก ก ( ก ) ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก กก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก กก ก ก กก (Site cookie file) ก (Registration form) ก (Web site traffic report) ก ก ก ก ก ก ก ก ก ก Accure sight, DoubleClick NetCount ก ก web tracking software ก / ก ก ก ก ก ก ก ก ก IP address ก ก IP address ก ก ก ก ก ก ก IP address dynamic Ips ก ก ก proxy server IP address ก ก IP address ก กก 22
กก ก ก (web browser) ก ก ก ก ก กก (cookies) ก (serail number) ก ก ก ก กก ก ก ก กก ก ก กก ก ก ก ก ก ก ก ก กก ก ก ก ก ก! ก ก ก ก ก ก ก ก - กก ก ก ก ก ก กก ก ก ก ก ก กก ( ก ก Netcape 3.0 ก ก ก Option ก Protocol ก Networked Preferences ก ก Show An Alert Before Accepting A Cookie) ก ก กก ก ก ก กก ก ก ก ก ก ก dynamic Ips Proxy server ก กก ก ก ก ก (ISPs) ก ก ก ก กก proxy server ก.netcom.ibm.byu.aol ก ก ก ก ก (Registry form) ก ก ก ก ก ก ก ก ก ก ก ก ก 23
24 ก ก ก ก ก ก ก ก ก ก 5%-10% ก ก กก ก ก ก ก ก ก ก ก ก ก ก ก ก ก กก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก กก ก ก ก ก ก (e-mail address) ก ก ก ก ก ก ก ก ก ก ก ก ก ( ก ก ก ก ) ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก Site-tracking software
ก ก ก ก กก ก ก ก ก (Log file) ก ก ก ก ก ก ก ก ก Internet Protocaol (IP) ก ก ก ก ก( ก ก IP address ก ก ก ) ก Accure Insight ก http://www.gauge.com/ ก Accure ก ก (several databases) ก (single entiry report) ก ก ก ก ก ก ก ก ก ก ก กก ก ก ( ก ก Accure Insight ก hrad Count netcount ก ก ) ก ก ก Customer loyalty ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก 25
ก ก ก กก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก CACI Marketing System ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก กก ก ก ก (ZIP code) 55114, 01103, 20064 ก ก ก ก ก ก ก ก ก, ก ก ก ก ก, ก ก กก ก ก ก ก ก ก ก ก ก ก 30% ก ก 30% ก ก ก กก 20% ก ก ก ก ก ก ก ก ก (lifestyle) ก ก ก ก ก ก ก,,, ก ก ก ก ก ก Data Mining ก ก ก ก ก ก ก ก กก ก ก Data Mining ก ก ก ก (pattern) ก (cluster) ก ก ก ก ก ก ก ก ก ก 26
ก ก ก ก ก ก ก ก (loyalty) ก ก ก ก Data Mining ก 2 ก ก (statistics) (Artificial Intelligence) ก ก ก ก ก (machine-learning) ก ก ก Data Mining ก ก ก ก ก Data Mining ก ก ก ก ก Data Mining ก ก ก ก database query program, report generators, statistical packages ก ก ก ก Data Mining ก ก ก ก ก ก ก ก ก ก ก Data Mining ก ก ก ก ก กก ก Data Mining ก :- ก ก ก ก ก.. 1994 ก $1500-$3300 ก ก ก ก ก ก $900 ก Data Mining ก ก ก ก ก ก ก Data Mining ก CART, CHAD, ID3, C4.5 ก ก c ก ก n ก ก ก Data mining ก ก ก ก ก ก ก ก ก ก ก ก 27
ก ก ก ก ก ก ก ก IF ZIP CODE (93011-94123) AND REGISTRATION NO.(0051-0943) AND USER ID NO. (4566jk33-4558dl01) THEN /WEBSELL/PRODUCT8.HTM 87% ก Data Mining ก กก ก ก (Reg NO 0051-0943) 93011-94123 ก 87% ก ก ก ก ก ก ก ก ก ก ก ก ก ก Data mining ก ก ก 93011-94123 ก produc8.htm ก ก Data mining ก ก ก ก ก produc8.htm ก ก ก produc5.htm order_form.htm ก ก ก ก order_form.htm ก produc8.htm ก 83% ก ก ก order_form.htm :- IF ZIP CODE (93001-94123) AND REGISTRATION NO. (0051-0943) AND PRIOR PAGE /WEBSELL/PRODUCT8.HTM THEN /WEBSELL/PRODUCT5.HTM 73% IF ZIP CODE (93011-94123) AND REGISTERATION NO. (0051-0943) AND PRIOR PAGE /WEBSELL/PRODUCT8.HTM THEN /WEBSELL/ORDER_FORM.HTM 83% ก ก 28
Data mining ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ( ก ก ก ก ) ก ก Rulebased tools ก Data mining ก ก ก ก ก ก ก,, ก ก, ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก ก Data mining กก ก ก ก ก ก ก ก ก ก ก ก ก Data Mining ก ก ก ก ก ก ก ก (Customer loyality) 29
30 Demo Demo Software ก ก Data Mining Isoft Alice Alice version 6 ก Decision Tree demo ก ก ก ก ก ก ก ก field ก ก ก ก ก field ก ก Success
ก ก - Relational Database - SPSS,SAS - Ole DB and Ole DB for OLAP - Microsoft Access - Microsoft Excel 31
32 ก filed ก ก ก ก Alice ก decision tree
root node ก ก 188,400 ก ก ก 2 ก Housing ก ก ก ก ก, ก 33
34 ก ก ก ก ก ก ก
35