SISTEM UNTUK PENGENALPASTIAN TREND BERDASARKAN ANALISIS TWITTER MENGGUNAKAN STUDIO R

Similar documents
Pengenalan Sistem Maklumat Dalam Pendidikan

Aplikasi Permainan Pembelajaran untuk Kanak-Kanak

Semasa buku ini ditulis XAMPP mengandungi empat versi:

ssk 2023 asas komunikasi dan rangkaian TOPIK 4.0 PENGALAMATAN RANGKAIAN Minggu 11

VIRTUAL PRIVATE NETWORK: ARCHITECTURE AND IMPLEMENTATIONS

B,8 PERKHIDMATAN KREDIT DAN PERBANKAN. Pemindahan Data PROSEDUR UNIT KOMPUTER. BPKP/KlOK-117 Bilangan Semakan : 0 Tarikh : PERUBAHAN.

UNIVERSITI SAINS MALAYSIA. CMT322/CMM323 Web Engineering & Technologies [Kejuruteraan & Teknologi Web]

CLOUD COMPUTING ADOPTION IN BANKING SYSTEM (UTM) IN TERMS OF CUSTOMERS PERSPECTIVES SHAHLA ASADI

Pengguna akan diberikan Username dan Password oleh Administrator untuk login sebagai admin/conference Manager bagi conference yang akan diadakan.

PEMINDAHAN DATA MENGGUNAKAN KOMUNIKASI CAHAYA BOLEH DILIHAT DAN APLIKASI MUDAH ALIH. Annisa Zakiah Binti Kamarudin Khairul Azmi Bin Abu Bakar

ssk 2023 asas komunikasi dan rangkaian TOPIK 4.0 PENGALAMATAN RANGKAIAN

AN IMPROVED PACKET FORWARDING APPROACH FOR SOURCE LOCATION PRIVACY IN WIRELESS SENSORS NETWORK MOHAMMAD ALI NASSIRI ABRISHAMCHI

MICROSOFT EXCEL. Membina Hamparan Elektronik Fungsi Hamparan Elektronik

EEE 428 SISTEM KOMPUTER


Panduan Menggunakan Autoresponder FreeAutobot.com

INSTRUCTION: This section consists of FOUR (4) structured questions. Answer ALL questions.

PANDUAN PENGGUNA (SUPPLIER) MAINTAIN CERTIFICATES/SUPPLIER DETAILS SUPPLIER RELATIONSHIP MANAGEMENT SUPPLY CHAIN MANAGEMENT SYSTEM (SCMS)

Panduan Guru Maker UNO/ Arduino

M2U MANUAL PENGGUNA USER MANUAL M2UNHJ. 0 P a g e BAHAGIAN SIMPANAN DAN PENGELUARAN JABATAN KHIDMAT PENDEPOSIT DAN OPERASI LEMBAGA TABUNG HAJI

SISTEM KOMUNIKASI BERDASARKAN ALGORITMA PENYULITAN AES

MULTIMEDIA COLLEGE JALAN GURNEY KIRI KUALA LUMPUR

IMPLEMENTATION OF UNMANNED AERIAL VEHICLE MOVING OBJECT DETECTION ALGORITHM ON INTEL ATOM EMBEDDED SYSTEM

COMBINING TABLES. Akademi Audit Negara. CAATs ASAS ACL / 1

TEKNOLOGI, GADJET & KEIBUBAPAAN

MANAGE COURSE RESOURCES LABEL TEXT PAGE URL BOOK FILE FOLDER IMS CONTENT PACKAGE

TEKNIK MESIN SOKONGAN VEKTOR UNTUK SISTEM PENGESANAN PENCEROBOHAN BERASASKAN RANGKAIAN

Disediakan oleh: Mohammad Hazmin Bin Mohamed Azri

HARDWARE/SOFTWARE SYSTEM-ON-CHIP CO-VERIFICATION PLATFORM BASED ON LOGIC-BASED ENVIRONMENT FOR APPLICATION PROGRAMMING INTERFACING TEO HONG YAP

APLIKASI MUDAH ALIH JOMDAFTAR

SEMANTICS ORIENTED APPROACH FOR IMAGE RETRIEVAL IN LOW COMPLEX SCENES WANG HUI HUI

FUZZY NEURAL NETWORKS WITH GENETIC ALGORITHM-BASED LEARNING METHOD M. REZA MASHINCHI UNIVERSITI TEKNOLOGI MALAYSIA

HERMAN. A thesis submitted in fulfilment of the requirements for the award of the degree of Doctor of Philosophy (Computer Science)

PENGESANAN PAKET RANGKAIAN UNTUK FORENSIK MEMORI NOR NADIA ABDULLAH MARZUKI KHAIRUL AKRAM ZAINOL ARIFFIN

PANDUAN PENGGUNA (SUPPLIER) MAINTAIN CERTIFICATES/SUPPLIER DETAILS SUPPLIER RELATIONSHIP MANAGEMENT SUPPLY CHAIN MANAGEMENT SYSTEM (SCMS)

PANDUAN PENGGUNA (PENTADBIR SYSTEM/SYSTEM ADMINISTRATOR) (INFOTECH, BPPF DAN POLIS

ISOGEOMETRIC ANALYSIS OF PLANE STRESS STRUCTURE CHUM ZHI XIAN

SISTEM PEMANTAUAN PENSIJILAN HALAL


UNIVERSITI SAINS MALAYSIA. CST232 Operating Systems [Sistem Pengendalian]

EEE 348 PENGANTAR REKABENTUK LITAR BERSEPADU

VISUALISASI DATA SISTEM SOKONGAN EKSEKUTIF UNIVERSITI. Illi Nadia binti Mohd Khairuddin Prof. Madya Dr. Mohd Zakree bin Ahmad Nazri

APLIKASI E-DAGANGAN PERALATAN KAMERA BERASASKAN WEB

INSTRUCTION: This section consists of TWO (2)short answers and TWO (2) structured essays. Answer ALL questions.

Prototaip Pembangunan Papan Mesej Elektronik Tanpa Wayar Menggunakan Raspberry PI

INSTRUCTION: This section consists of FOUR (4) structured questions. Answer ALL questions.

1. Threats bermaksud ancaman, atau lebih dikenali sebagai malware (malicious

OOP ONLINE JUDGE: SISTEM SEMAKAN ATAS TALIAN UNTUK KURSUS PENGATURCARAAN BERORIENTASIKAN OBJEK

INSTRUCTION: This section consists of TWO (2) short answer and structured essay questions. Answer ALL questions.

APLIKASI MUDAH ALIH SISTEM SEMAKAN SAMAN KENDERAAN

Prepared by: Assoc. Prof. Dr Bahaman Abu Samah Department of Professional Development and Continuing Education Faculty of Educational Studies

ISU DAN CABARAN PELAKSANAAN SISTEM PENGURUSAN KESELAMATAN MAKLUMAT (ISMS) 15 Jun 2016 Dewan Taklimat Serdang

AUTOMATIC APPLICATION PROGRAMMING INTERFACE FOR MULTI HOP WIRELESS FIDELITY WIRELESS SENSOR NETWORK

A SEED GENERATION TECHNIQUE BASED ON ELLIPTIC CURVE FOR PROVIDING SYNCHRONIZATION IN SECUERED IMMERSIVE TELECONFERENCING VAHIDREZA KHOUBIARI

UNIVERSITI SAINS MALAYSIA. CST131 Computer Organisation [Organisasi Komputer]

SKS 3124 PENDAWAIAN RANGKAIAN

PANDUAN PENGGUNA (PENSYARAH)

SISTEM INTERAKTIF PROFIL PUSTAKAWAN MALAYSIA Interactive Profile System (IPS) for Malaysian Librarians

UNIVERSITI SAINS MALAYSIA. CCS522 Advanced Data Communication & Computer Networks [Rangkaian Komputer & Komunikasi Data Lanjutan]

Panduan Pengguna Autodesk Education Community

APLIKASI MUDAH ALIH MENGUKUR DAYA TAHAN KOMUNIKASI RANGKAIAN DATA RAYA (CheckLine)

MULTIMEDIA COLLEGE JALAN GURNEY KIRI KUALA LUMPUR

SISTEM PENYULITAN DAN PENYAHSULITAN MAKLUMAT MENGGUNAKAN ALGORITMA RIVEST SHAMIR ADELMAN

ANALISA PERPINDAHAN DATA MODEL SURFACE DI ANTARA PLATFOM CAD YANG BERBEZA ASFAEZUDDIN BIN ZAKARIA UNIVERSITI TEKNIKAL MALAYSIA MELAKA

ONTOLOGY-BASED SEMANTIC HETEROGENEOUS DATA INTEGRATION FRAMEWORK FOR LEARNING ENVIRONMENT

Pengaturcaraan web ASP.NET. Sinopsis:

MULTICHANNEL ORTHOGONAL FREQUENCY DIVISION MULTIPLEXING -ROF FOR WIRELESS ACCESS NETWORK MOHD JIMMY BIN ISMAIL

PENGECAMAN NOMBOR PLAT KENDERAAN MENGGUNAKAN CONVOLUTIONAL NEURAL NETWORK. Lim Woo Shaun Siti Norul Huda Sheikh Abdullah

TINGKAP PINTAR DAN RESPONSIF UNTUK RUMAH NUR AMANINA HAZIQAH BINTI ABDUL HALIM KHAIRUL AKRAM ZAINOL ARIFFIN

SYSTEMATIC SECURE DESIGN GUIDELINE TO IMPROVE INTEGRITY AND AVAILABILITY OF SYSTEM SECURITY ASHVINI DEVI A/P KRISHNAN

JABATAN KIMIA Kategori Arahan Kerja

BLOCK-BASED NEURAL NETWORK MAPPING ON GRAPHICS PROCESSOR UNIT ONG CHIN TONG UNIVERSITI TEKNOLOGI MALAYSIA

UNIVERSITI PUTRA MALAYSIA TERM FREQUENCY AND INVERSE DOCUMENT FREQUENCY WITH POSITION SCORE AND MEAN VALUE FOR MINING WEB CONTENT OUTLIERS

INSTRUCTION: This section consists of TWO (2) structured questions. Answer ALL questions.

TUITION CENTRE MANAGEMENT SYSTEM (TCMS) ZARIFAH BINTI MOHD PAHMI UNIVERSITI TEKNIKAL MALAYSIA MELAKA

GARIS PANDUAN PERMOHONAN IMBUHAN PENERBITAN JURNAL / PROSIDING / SITASI BERINDEKS SCOPUS

UNIVERSITI SAINS MALAYSIA. CPT344 Computer Vision & Image Processing [Penglihatan Komputer & Pemprosesan Imej]

ISI KANDUNGAN. Microsoft PowerPoint 2016

INSTRUCTION: This section consists of TEN (10) structured questions. Answer ALL questions.

PROBLEMS ASSOCIATED WITH EVALUATION OF EXTENSION OF TIME (EOT) CLAIM IN GOVERNMENT PROJECTS

AMBULANCE MANAGEMENT SYSTEM

PART A SULIT (EKT 221) BAHAGIAN A. Answer ALL questions. Question 1. a) Briefly explain the concept of Clock Gating.

DATASET GENERATION AND NETWORK INTRUSION DETECTION BASED ON FLOW-LEVEL INFORMATION AHMED ABDALLA MOHAMEDALI ABDALLA

Written by Mazuki Izani Thursday, 02 August :00 - Last Updated Tuesday, 03 February :54

DARI KAUNTER KE SISTEM DALAM TALIAN

FIRST TIME LOGIN & SELF REGISTRATION USER GUIDE LOG MASUK KALI PERTAMA & PENDAFTARAN SENDIRI PANDUAN PENGGUNA

Sistem Capaian Berbilang Terminal

STUDY OF FLOATING BODIES IN WAVE BY USING SMOOTHED PARTICLE HYDRODYNAMICS (SPH) HA CHEUN YUEN UNIVERSITI TEKNOLOGI MALAYSIA

SISTEM PENGURUSAN FORENSIK DIGITAL

APLIKASI MENGUKUR DAYA TAHAN KOMUNIKASI MENGGUNAKAN RANGKAIAN WI-FI. Miza Faizah Binti Amin Prof. Madya Dr. Rosilah Binti Hassan

ALAMAT IP. Sofirudman Mazuin Asmarul shazila Ainul bariah

1. Akses untuk koperasi adalah melalui

REPOSITORI PAKAIAN TRADISIONAL MELAYU BERASAS ONTOLOGI

PEMBANGUNAN PERISIAN BAGI MENGGALAKKAN PENGGUNAAN GOOGLE DRIVE DI KALANGAN AHLI UNIVERSITI KEBANGSAAN MALAYSIA

Registration of Supplier (ROS) TM Supplier Registration Renewal via SUS Portal (Pembaharuan Pendaftaran Pembekal TM melalui SUS Portal)

SISTEM KESELAMATAN PENGHANTARAN FAIL MENGGUNAKAN TEKNIK KRIPTOGRAFI DAN STEGANOGRAFI SATHIAPRIYA A/P RAMIAH

APLIKASI MUDAH ALIH PEMANTAUAN PESAKIT DALAM AMBULANS MELALUI PANGGILAN NUR ALYA AQILAH MOHD NAZRI PROF. DR. MASRI AYOB

Laporan Aktiviti Pusat Internet 1 Malaysia Kg. Kuala Sungga

SUPERVISED MACHINE LEARNING APPROACH FOR DETECTION OF MALICIOUS EXECUTABLES YAHYE ABUKAR AHMED

UNIVERSITI PUTRA MALAYSIA ADAPTIVE METHOD TO IMPROVE WEB RECOMMENDATION SYSTEM FOR ANONYMOUS USERS

Transcription:

SISTEM UNTUK PENGENALPASTIAN TREND BERDASARKAN ANALISIS TWITTER MENGGUNAKAN STUDIO R HAZIMAH AB HALIM LAILATUL QADRI ZAKARIA Fakulti Teknologi & Sains Maklumat, Universiti Kebangsaan Malaysia ABSTRAK Twitter adalah salah satu aplikasi media sosial yang semakin mendapat tempat di hati pengguna internet di seluruh dunia. Pengguna Twitter boleh menyebarkan sesuatu informasi dengan pantas melalui live update dan ia juga membenarkan penggunanya berkongsi maklumat dalam bentuk teks pendek 140 karakter. Kajian ini bertujuan mengenalpasti trend yang berlaku di sekitar kawasan UKM, Bangi. Seperti sedia maklum, maklumat yang disampaikan di Twitter, teks berbentuk pendek dan penggunaan bahasanya yang bercampur. Selain itu, sistem trend yang terdapat di Twitter hanya memfokuskan pada perkataan trend sahaja tanpa menyediakan maklumat tambahan berkaitan dengan trend tersebut. Secara umumnya, pengguna perlu membaca setiap tweet secara manual bagi mendapatkan maklumat yang dikehendaki dan ianya akan mengambil masa yang agak lama. Oleh itu, sebuah sistem analisis trend dibangunkan bagi menganalisis tweet secara automatik dan mengenalpasti trend berdasarkan analisis statistikal perkataan. Pengkaji menggunakan teknik frekuensi perkataan dan TF-IDF serta pengecaman entiti nama untuk mengenalpasti trend di sekitar UKM menggunakan perisian Studio R. Berdasarkan pengujian kajian, teknik TF-IDF tidak sesuai untuk digunakan pada teks yang pendek. Hasil menemukan frekuensi perkataan boleh digunakan untuk mengenalpasti trend, manakala pengecaman entiti nama boleh juga digunakan untuk mendapatkan maklumat tambahan mengenai trend atau data Twitter tersebut. PENGENALAN Media sosial merujuk kepada sebuah media untuk manusia berhubung antara satu sama lain yang dilakukan secara online tanpa mengira masa dan tempat dengan hanya memerlukan capaian internet. Ia meliputi dalam pelbagai bentuk aplikasi seperti Facebook, Twitter, Instagram dan juga blog. Pada era yang semakin berkembang teknologinya, kebanyakkan pengguna media sosial bukan sahaja menggunakan media sosial sebagai tempat meluahkan perasaan malah juga ia digunakan untuk tujuan perniagaan. Populariti laman media sosial dan mudahnya data didapati membuatkan platform ini dijadikan sebagai sumber utama untuk penyelidikan sosial (Verzani 2011). Twitter adalah salah satu media sosial yang semakin mendapat tempat di hati pengguna internet di seluruh dunia. Ini kerana Twitter menawarkan fungsi yang berbeza berbanding dengan media sosial yang lain. Antaranya, Twitter boleh menyebarkan sesuatu informasi dengan lebih pantas atau dengan kata lain live update dan ia juga membenarkan penggunanya menghantar dan membaca teks dalam 140 karakter (Acar & Deguchi 2013). Analisis trend boleh diertikan sebagai analisis yang digunakan untuk mengenalpasti corak dalam sesuatu informasi yang diperolehi secara menyeluruh. Analisi trend ini dilakukan berdasarkan maklumat yang dikumpul pada masa lepas bertujuan untuk mengetahui kecenderungan keadaan pada masa akan datang. Antara kepentingan analisis trend ini ialah salah satunya dapat mengkaji ramalan politik di sesuatu kawasan berdasarkan pilihan pengguna di media sosial. Analisis trend ini juga boleh digunakan untuk mengetahui isu-isu panas ataupun sensasi yang hangat diperkatakan di laman sosial. PERMASALAHAN KAJIAN Beberapa masalah sudah dikenalpasti. Seperti sedia maklum, maklumat yang disampaikan di Twitter, teks berbentuk pendek dan penggunaan bahasanya yang bercampur.

Jikalau sistem ini tidak dibangunkan, pengguna perlu membaca setiap tweet yang dikumpul secara manual ataupun satu persatu. Sistem yang boleh menganalisis tweet secara automatik diperlukan untuk menganalisis maklumat yang dikongsi oleh pengguna Twitter di sekitar kawasan UKM untuk mengetahui isu-isu yang sedang trend. Selain itu, sistem trend yang terdapat di Twitter hanya memfokuskan pada perkataan trend sahaja. Tiada maklumat tambahan yang berkaitan dengan trend tersebut. Tambahan pula, pengkaji juga menghadapi masalah dalam melakukan analisis trend itu sendiri. Dalam pelaksanaan analisis trend ini, ada masalah dari sudut pemprosesan bahasa tabii di mana pengkaji perlu menggunakan input data dari tweets yang dikumpul. Seperti yang diketahui, pelbagai gaya ataupun cara penulisan yang wujud dalam tweets yang dikumpul seperti perkataan singkatan, emotikon. Selain itu, untuk proses pemprosesan ayat di mana pengkaji perlu mengenalpasti kata kunci ataupun perkataan penting yang boleh dijustifikasi ianya sebagai trend ataupun tidak. Manakala masalah dari sudut teknik yang akan digunakan, di mana dalam opennnlp banyak teknik yang diperkenalkan seperti frekuenci perkataan, TF-IDF dan juga pengecaman entiti nama. Pengkaji perlu mengkaji teknik-teknik tersebut boleh digunakan untuk mengenalpasti perkara yang sedang trend di sekitar UKM. Di sini, boleh dikatakan agak kompleks untuk melaksanakan sesuatu analisis trend. OBJEKTIF KAJIAN Matlamat utama kajian adalah untuk mengenalpasti trend terkini berdasarkan analisis Twitter di kawasan UKM, Bangi dengan mengetahui isu-isu tersebut dapat diberi perhatian oleh sesuatu pihak. Bagi mencapai matlamat kajian ini, pengkaji telah meletakkan beberapa objektif yang perlu dicapai iaitu membangunkan sistem analisis trend menggunakan pemprosesan bahasa tabii dan menguji keberkesanan sistem analisis trend yang dikenal pasti di UKM. METOD KAJIAN Metodologi yang digunakan dalam membangunkan sistem pengenalpastian analisis trend ialah Model Air Terjun (Waterfall Model) tetapi ia diolah bersesuaian dengan tajuk kajian. Model ini mempunyai lima fasa yang penting dalam membangunkan sistem ini iaitu analisis masalah dan keperluan pembangunan sistem, mekanisma mengenal pasti trend, reka bentuk dan pembangunan sistem, implementasi dan penambahbaikan dan akhir sekali pengujian dan penyelenggaraan sistem. Analiasis masalah dan keperluan pembangunan aplikasi Mekanisma mengenal pasti trend Reka bentuk dan pembangunan aplikasi Implementasi dan penambahbaikan Pengujian dan penyelenggaraan aplikasi. Rajah 1: Proses Model Air Terjun Fasa Analisis Masalah Dan Keperluan Pembangunan Sistem Fasa analisis masalah dan keperluan pembangunan sistem adalah merupakan fasa pertama dalam membangunkan sistem pengenalpasian trend di Twitter. Dalam fasa ini pemilihan

tajuk telah dijalankan. Setelah tajuk yang dipilih mendapat kelulusan daripada penyelia projek, kajian untuk mengenalpasti permasalahan beserta permintaan terhadap sistem pula akan dijalankan. Selain itu, kajian turut dijalankan untuk mendapatkan latar belakang, objektif yang perlu dicapai, kekangan, skop kajian dan rangka penyelesaian. Fasa Mekanisma Mengenal Pasti Trend Dalam fasa mekanisma mengenal pasti trend, proses ini adalah untuk mengenal pasti bagaimana cara ataupun prosedur untuk mendapatkan trend yang terkini dengan menggunakan studio R. Dalam penjanaan korpus, pengkaji mengumpul data daripada Twitter dengan bantuan Twitter API. Pengkaji telah menggunakan kedua-dua REST API dan Streaming API untuk mendapatkan pelbagai jenis koleksi data. Carian Twitter API adalah salah satu daripada tiga API iaitu carian, penstriman dan firehose. Carian API ini membolehkan akses kepada subset tweets popular ataupun tweet yang terkini (dalam masa empat hingga enam hari yang lepas). Carian ini membenarkan tweet pertanyaan yang lepas walaupun hanya sebahagian kecil tweets yang ketara. Ini adalah cara yang terbaik untuk mengumpul dan membersihkan dataset tweets. Walau bagaimanapun, ia tidak memberi apa-apa utiliti yang sebenar untuk tujuan penyelidikan. Sebahagian kecil daripada tweets yang diterima mungkin tidak dapat menggambarkan keseluruhan aliran tweets. Dalam proses mengenal pasti konsep yang penting, tweets yang dikumpul mungkin akan mengandungi ataupun tidak mengandungi pandangan peribadi pengguna. Oleh kerana itu, orientasi pengguna telah ditetapkan oleh pengkaji. Ini adalah penting untuk membangunkan pengelasan berdasarkan kandungan ini. Antara teknik yang boleh digunakan ialah penggunaan frekuensi perkataan dan TF-IDF serta pengecaman entiti nama. Tweets boleh mempunyai pelbagai bahagian seperti teks, URL, hashtags, user mention dan lain-lain.

Rajah 2: Rangakerja Analisis Trend Fasa Reka Bentuk Dan Pembangunan Sistem Fasa rekabentuk merupakan rancangan mengenai sistem yang akan dibangunkan berdasarkan hasil analisis. Maklumat-maklumat yang dikumpul dari pelbagai sumber akan dianalisis untuk menentukan bagaimana sistem ini beroperasi. Dalam kajian pengenalpastian trend berdasarkan analisis Twitter, pengkaji meggunakan Studio R. Dalam Studio R ini, pengkaji telah menggunakan pakej twitter, ROAuth, plyr, stringr, ggplot2, RColorBrewer, opennlp, wordcloud dan juga tm iaitu rangka untuk perlombongan teks apikasi di Studio R. Fasa Implementasi Dan Penambahbaikan Fasa implementasi dan penambahbaikan ini merupakan fasa untuk melaksanakan system yang dibangunkan. Ini adalah bertujuan untuk memastikan tiada masalah yang akan berlaku ketika sistem ini dijalankan dan dapat mencapai objektif. Setiap pandangan mahupun komen akan dititikberatkan bagi penambahbaikan sistem. Perisian dan perkakasan adalah keperluan yang utama dalam membangunkan sesebuah sistem. Beberapa perisian dan perkakasan yang telah dikenal pasti untuk digunakan dalam proses pengenalpastian trend berdasarkan analisis Twitter. Pembangunan projek ini menggunakan perisian R Studio. R Studio digunakan untuk sebagai program antara muka yang memenuhi keperluan kajian. Selain itu, R Studio digunakan kerana program ini mudah untuk dikemudikan dan mudah untuk difahami. R Studio adalah sumber bebas, percuma dan ia bergerak dengan baik pada Windows. Senarai spesifikasi keperluan perkakasan yang dicadang untuk mengenalpasti trend berdasarkan analisis Twitter adalah seperti dalam jadual.

PERANTI Jenama Sistem Operasi (OS) ASUS K460 SERIES ASUS Windows 7 (64 bit) PROCESSOR Jenis Processor Kod Processor Frekuensi Base Processor Intel Core i5 3317U 1.70 GHz MEMORI Saiz Memori Capain Rawak (RAM) SKRIN 6.00GB Resolusi Skrin 14 Keluasan Skrin 1366 x 768 HASIL Latihan sistem terhadap data Twitter yang dikumpul dijalankan dengan menggunakan perisian Studio R bagi mengenalpasti sesuatu topik itu boleh diklasifikasikan sebagai tepat ataupun tidak secara tidak langsung juga membantu pengkaji menghasilkan satu analisis trend di UKM. Perisian Studio R juga membantu dalam menunjukkan grafik terhadap analisis yang dijalankan. Beberapa modul yang dilakukan untuk mendapatkan analisis yang terbaik. Terdapat tiga modul utama iaitu modul pengumpulan data, modul pembersihan data dan juga modul pengesanan trend. Dalam modul pengumpulan data, pengkaji perlu mencipta satu permohonan di Twitter untuk melakukan analisis Twitter. Ini membolehkan analisis Twitter dijalankan dengan menghubungkan konsol R dengan Twitter menggunakan Twitter API. Pengkaji perlu memasukkan nama dan menghuraikan aplikasi yang dimohon. Bagi proses di Studio R, beberapa pakej dan library perlu dimuat turun. Kemudian, pengkaji perlu mengakses Twitter API dengan menggunakan Consumer Key dan Consumer Secret yang telah diberi. Pengkaji telah mengumpul data tweets yang berbahasa Inggeris sebanyak 13346 tweets dari tarikh 25 April 2017 sehingga 10 Mei 2017. Data yang di kumpul daripada Twitter dengan bantuan Twitter API adalah bergantung kepada jumlah tweets yang diterima pada sesuatu masa. Pengkaji menetapkan lokasi kajian pada titik kedudukan utamanya iaitu kawasan Dewan Canselori Tun Abdul Razak ataupun dikenali sebagai DECTAR sekitar 2 radius. Selepas diberi kelulusan daripada Twitter, pengkaji boleh mendapatkan data tweets kemudian data tersebut disimpan dalam fail berformat CSV. Apabila data tweets berjaya disimpan, pengkaji perlu menggunakan beberapa fungsi untuk menukarkan data-data tersebut menjadi maklumat yang berguna. Ia dipanggil sebagai proses pembersihan data. Daripada proses tersebut, pengkaji boleh mendapatkan perkataan-perkataan yang boleh digunakan untuk dianalisis. Untuk modul pembersihan data, teks dalam tweets berbeza dengan teks dalam artikel, buku ataupun dalam bahasa pertuturan. Ia termasuk juga teks yang mempunyai emotikon, Universal Resouce Locator (URL), RT untuk retweet, @ untuk user mention, # untuk hashtags dan juga pengulangan. Jadi adalah perlu untuk melakukan pembersihan data. Terdapat banyak alat NLP yang ada tetapi tidak semua yang sesuai untuk membuat analisis trend di Twitter. Teks di Twitter adalah pendek dan penggunaan bahasanya juga yang tidak rasmi.

Pengkaji memulakan pembersihan data dengan mengambil teks sahaja daripada data tweet kepada perkataan. Pengkaji menapis data tweets dengan beberapa cara seperti menukarkan teks kepada berhuruf kecil, menghapuskan nombor, menghapuskan tanda baca, menghapuskan lebihan white space dan juga membuang tanda-tanda seperti @-mentions, emotikon, URL dan hashtags. Kemudian disinilah penggunaan stopword digunakan. Stopword ialah perkataan biasa yang banyak digunakan dalam sesuatu ayat dan tidak memberi sebarang maklumat seperti a, an. be, the, of dan lain-lain. Pengkaji telah menambah stopword yang telah sedia ada dengan stopword berbahasa Malaysia. Stopword berfungsi sebagai salah satu cara untuk mencantikkan data yang akan dikaji oleh pengkaji. Ini kerana bagi mendapatkan hasil analisis yang terbaik, pengkaji memerlukan data yang berkualiti. Perkataan yang kerap kali diulang dan tidak memberi sebarang maksud telah dibuang bagi mendapatkan hasil yang cantik dan bermaklumat. Dengan membuang stopword, ia akan mengurangkan saiz korpus tanpa menghilangkan maklumat yang penting. Perbezaan pada wordcloud sebelum dan selepas menggunakan kaedah stopword merujuk pada rajah di bawah. Rajah 3a: WordCloud sebelum analisis kata henti Rajah 3b: WordCloud selepas analisis kata henti Manakala untuk modul pengesanan trend, dengan koleksi data yang dikumpul oleh pengkaji dari tarikh 25 April 2017 sehingga 10 Mei 2017, pengkaji berjaya mengumpul sebanyak 13346 tweets yang berada di sekitar UKM. Dalam modul pengesanan trend ini, terdapat 3 teknik yang digunakan oleh pengkaji untuk mengetahui trend di kawasan sekitar UKM iaitu frekuensi perkataan, TF-IDF dan pengecaman entiti nama. Hasil analisis berdasarkan teknik frekuensi perkataan, pengkaji telah menggunakan kaedah frekuensi perkataan kerana dengan mengetahui perkataan yang tinggi bilangannya, ia mungkin memberi maksud ataupun makna yang penting. Dengan itu, ia memberi satu gambaran kepada pengkaji untuk mengetahui perkara apakah yang sering dikongsi di kawasan kajian. Untuk analisi menggunakan kaedah ini, terdapat 20 perkataan yang mencatatkan frekuensi tertinggi telah diambil kira pada setiap hari bermula pada hari bulan 25 April 2017 sehingga 10 Mei 2017. Daripada 20 perkataan tersebut, pengkaji mendapati terdapat 5 perkataan yang berkaitan dengan perasaan ataupun emosi seperti love, good, please, happy, feel. Senarai frekuensi perkataan turut mengandungi satu perkataan lokasi iatu Putrajaya. Pengguna Twitter juga berkongsi maklumat mengenai ucapan-ucapan sapaan seperti morning, Perkataan birthday turut dikenalpasti sebagai salah satu frekuensi perkataan yang

direkod tinggi. Ini menunjukkan pengguna Twitter mengucapkan ucapan hari jadi kepada orang yang berkenaan. Jadual di bawah menunjukkan perkataan yang paling tinggi jumlah bilangannya adalah btsbbmas. Jenis Perkataan Bilangan Perkataan Love 421 People 238 Good 255 Never 183 Please 62 Life 163 Happy 252 Btsbbms 451 Putrajaya 73 Feel 222 Source 201 Know 156 Votefor 409 Done 104 Really 211 New 166 Shop 140 Morning 196 birthday 90 Maklumat yang diperolehi berkaitan dengan perasaan ataupun emosi mempunyai data yang stabil. ia tiada peningkatan ataupun penurunan secara mendadak.perkataan-perkataan tersebut lazimnya hampir setiap hari diucap menyebabkan tiada yang trend untuk dikenalpasti. Namun, ada dua perkataan yang menarik perhatian pengkaji iatu btsbbma dan votefor. Perkataan-perkataan tersebut telah menunjukkan peningkatan yang selari dan meningkat daripada 25 April 2017 sehingga 10 Mei 2017. Ini adalah kerana btsbbmas ini merujuk kepada perkataan gabungan antara nama ahli kumpulan popular di Korea iaitu Bangtan Boys atau dikenali BTS dengan satu syarikat penerbitan majalah yang popular di Amerika Syarikat yang dikenali sebagai Billboard. Majalah Billboard adalah satu jenama media hiburan Amerika yang dimiliki oleh Hollywood Reporter-Billboard Media Group, sebahagian dari Eldridge Industri. BBMA itu merupakan singkatan bagi BillBoard Music Award. Pengguna Twitter menggunakan Twitter untuk mengundi kumpulan tersebut dalam Billboard Music Award 2017 yang akan berlangsung pada 21 May 2017. Diangggarkan data ini akan terus meningkat sehingga pada tarikh tersebut. Bagi hasil analisis berdasarkan teknik TF-IDF, hasil analisis yang dilakukan menggunakan teknik ini tidak dapat mengeluarkan keputusan yang baik merujuk rajah 4.12. Pengkaji mendapati Teknik TF-IDF tidak sesuai digunakan untuk teks yang pendek untuk mengenalpasti trend dengan menggunakan data tweets yang dikumpul. Oleh itu, trend tidak dapat dikenalpasti di kawasan sekitar UKM. Hasil analisis berdasarkan teknik pengecaman entiti nama, pengkaji telah menggunakan teknik ini bagi menguatkan lagi matlumat untuk mengenalpasti trend di sekitar kawasan kajian. Untuk teknik pengecaman entiti nama, terdapat 2 entiti yang telah dikenalpasti iaitu lokasi dan organisasi. Untuk entity lokasi,pengguna banyak berkongsi

maklumat tentang negara seperti Malaysia, Indonesia, Manchester, China, Real Madrid, Cambodia, India. Apabila diperhalusi, perhubungan antara lokasi dengan data yang pengkaji ada, didapati pengguna Twitter berkongsi maklumat mengenai isu-isu semasa seperti lokasi Manchester. Lokasi tersebut muncul pada tarikh pada 27 April 2017. Pada masa ini, terdapat perlawanan bola sepak antara Manchester United dengan Manchester City yang mencatatkan keputusan seri (Paul Doyle, 2017). Kawasan sekitar pusat kajian turut dapat dikesan seperti Putrajaya, Bangi dan Kajang. Lokasi seperti Korea dikenalpasti pada tarikh 25 April 2017 kerana pada tarikh tersebut Running Man Korea telah datang ke Malaysia untuk berjumpa dengan peminat-peminat Manakala untuk entiti organisasi, ia berjaya mengenalpasti organisasi yang berada di sekitar kawasan kajian dengan menggunakan maklumat yang dikaji seperti German Malaysia Institut, KPM Beranang, IOI City Mall, SMK Bandar Baru, UPM, Villa Seafood Restaurant, Gateway Shopping Complex, Bates Motel, Alamanda Shopping Complex dan juga UKM. Berdasarkan pemerhatian pengkaji, name-entity-recognition tidak dapat mengenalpasti kesemua organisasi berikutan kekangan pakej opennlp yang digunakan oleh pengkaji. KESIMPULAN Sistem pengenalpastian trend berdasarkan analisis Twitter menggunakan perisian Studio R telah berjaya mengenal pasti trend maklumat terkini yang berada disekitar kawasan UKM. Kajian ini telah mendapati teknik TFIDF tidak sesuai digunakan untuk teks pendek seperti teks yang terdapat dalam tweets. Teknik TF dapat mengenal pasti trend dengan mendapatkan senarai perkataan yang mempunyai frekuensi yang tinggi manakala teknik pengecaman entiti nama telah dapat membantu menambah maklumat baharu yang berkaitan dengan trend tersebut. RUJUKAN 11 Mac 2011 - Bencana Yang Meragut Nyawa Lebih 10,000 Orang. (n.d.). http://pmr.penerangan.gov.my/index.php/antara/9006-11-mac-2011-bencana-yang-meragutlebih-10000-orang.html Acar, A. & Deguchi, A. 2013. Culture and social media usage: Analysis of japanese twitter users. International Journal of Electronic Commerce Studies, 4(1), 21 32. Bhola, A. 2014. Twitter and Polls: Analyzing and estimating political orientation of Twitter users in India General #Elections2014. arxiv preprint arxiv:1406.5059,. Bontcheva, K., Gorrell, G. & Wessels, B. 2013. Social Media and Information Overload: Survey Results. arxiv preprint arxiv:1306.0813, 1 31. Gayo-Avello, D. 2012. No, you cannot predict elections with twitter. IEEE Internet Computing, 16(6), 91 94. Jacoby, J., Speller, D. E. & Kohn, C. A. 1974. Brand Choice Behavior as a Function of Information Load: Replication and Extension. Journal of Consumer Research, 1(1), 33 42. doi:10.2307/3150994 Kumar, S., Morstatter, F. & Liu, H. 2013. Twitter Data Analytics. Springer, 89. Milstein, S., Chowdhury, A., Hochmuth, G., Lorica, B., Magoulas, R. & Reilly, T. O. 2008. Twitter and the Micro-Messaging Revolution: Communication, Connections, and Immediacy-140 Characters at a time. Business, (November), 1 49. Miyabe, M., Miura, A. & Aramaki, E. 2012. Use trend analysis of twitter after the great east japan earthquake. of the ACM 2012 conference on, 175 178. Peta. (n.d.). http://www.ukm.my/sebumi3/peta.html Signorini, A., Segre, A. M. & Polgreen, P. M. 2011. The Use of Twitter to Track Levels of Disease Activity and Public Concern in the U. S. during the Influenza A H1N1 Pandemic 6(5).

doi:10.1371/journal.pone.0019467 Skoric, M., Poor, N., Achananuparp, P., Lim, E. P. & Jiang, J. 2011. Tweets and votes: A study of the 2011 Singapore General Election. Proceedings of the Annual Hawaii International Conference on System Sciences, 2583 2591. Tumasjan, A., Sprenger, T., Sandner, P. & Welpe, I. 2010. Predicting elections with Twitter: What 140 characters reveal about political sentiment. Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media, 178 185. Wang, H., Can, D., Kazemzadeh, A., Bar, F. & Narayanan, S. 2012. A System for Real-time Twitter Sentiment Analysis of 2012 U.S. Presidential Election Cycle. Jeju, Republic of Korea, 115 120.