Dua Metode Deteksi Outlier

Outlier adalah data yang perbedaanya menyipang jauh dari data-data yang lain sehingga dapat menyebabkan hasil analisis terhadap suatu data tidak mencerminkan hasil yang sebenarnya. Outlier juga dikenal dengan sebutan nilai ekstrim.

1). CBLOF (Cluster Based Local Outlier Factor), yaitu metode deteksi outlier yang mengukur suatu  klaster berdasarkan ukuran klaster dimana ia berada dan jaraknya terhadap klaster terdekat jika ia terdapat dalam obyek kecil.

Gambar 1

Pada Gambar 1 ditunjukkan data dua dimensi yang terdiri dari 4 klaster C1, C2, C3, dan C4. Dari sudut pandang klaster, obyek-obyek data pada C1 dan C3 dapat dianggap sebagai outlier karena tidak terdapat pada klaster yang besar yaitu C2 dan C4. C2 dan C4 disebut klaster besar karena C2 dan C4 merupakan klaster yang dominan pada set data, yaitu memuat sebagian besar obyek pada set data. Hal ini sesuai dengan definisi outlier lokal.

Definisi 1 : Misalkan A1, A2, …, Am adalah himpunan atribut dengan domain D1, D2, …,

Dm. Set data D terdiri dari record atau transaksi t : tεD1 x D2 x …xDm. Hasil

klasterisasi pada D dinotasikan sebagai C= {C1, C2, …, Ck} dimana Ci ∩Cj = Ø dan C1υC2 …υCk=D, dengan k adalah jumlah klaster.

Masalah yang penting pada tahap selanjutnya adalah pendefinisian klaster besar (large cluster) dan klaster kecil (small cluster).

Definisi 2 : Misalkan C= {C1, C2, …, Ck} adalah himpunan klaster pada set data dengan urutan ukuran klaster adalah |C1|≥ |C2|≥ …≥|Ck|. Diberikan dua parameter numerik α dan β. Didefinisikan b sebagai batas antara klaster besar dan kecil jika memenuhi formula berikut:

(|C1|+|C2|+…+|Cb|)≥|D|*α …………………………………. (1)

|Cb|/|Cb+1|≥β ………………………………………….. (2)

Didefinisikan himpunan klaster besar (large cluster) sebagai LC = {Ci, / i ≤ β} dan klaster kecil (small cluster) didefinisikan dengan SC = {Ci, / i >β}.

Definisi 2 memberikan ukuran kuantitatif untuk membedakan klaster besar dan kecil.

Rumus (1) menunjukkan bahwa sebagian besar data bukan outlier. Oleh karena itu klaster besar mempunyai porsi yang jauh besar. Sebagai contoh jika a diberikan 90% maka artinya lebih klaster besar memuat lebih dari 90% dari total obyek data pada set data. Rumus (2) menunjukkan fakta bahwa klaster besar dan kecil harus memiliki perbedaan yang signifikan. Jika diberikan b=5, artinya setiap klaster besar minimal 5 kali lebih besar dari klaster kecil.

Definisi 3 : Misalkan C = {C1, C2, …, Ck} adalah himpunan klaster dengan urutan ukuran |C1|≥ |C2|≥ …≥|Ck|. Didefinisikan LC dan SC sebagaimana Definisi 2 (pada metode CBLOF). Untuk sebarang record t, didefinisikan cluster-based local outlier factor sebagaimana persamaan (3).

Fungsi sim(C,t) pada persamaan (3) adalah fungsi kemiripan transaksi t terhadap kelas C.

Meskipun CBLOF diperuntukkan untuk data kategorikal, tapi dapat dikembangkan untuk data numerik. Ini dilakukan dengan mendefiniskan CBLOF dengan mendefinisikan perhitungan derajat outlier sebagaimana persamaan (3).

2). MixCBLOF (Mix Cluster Based Local Outlier Factor), yaitu metode deteksi outlier yang merupakan gabungan dari beberapa metode yaitu klasterisasi sub data, deteksi outlier berbasis klaster pada sub data numeric dan kategorikal, dan penggunaan MADM (Multi-Attribute Decision Making). Metode MixCBLOF dapat digunakan untuk mendeteksi outlier pada data campuran antara data numerik dan data kategorikal.

Algoritma MixCBLOF :

1). Bagi set data campuran menjadi dua bagian, set data numerik, D1, dan set data kategorikal, D2.

2). Lakukan klasterisasi pada subset data numerik D1 sehingga diperoleh sejumlah klaster C11, C12,…, C1p dengan ukuran berturut-turut

|C11| ≥ |C12| ≥ … ≥ |C1p|

Tentukan klaster besar (LC) dan klaster kecil (SC) menggunakan Definisi 2 (pada metode CBLOF).

3). Terapkan deteksi outlier berbasis klaster menggunakan atribut numerik terhadap obyek-obyek dalam klaster pada langkah menggunakan teknik deteksi outlier berbasis klaster seperti persamaan di bawah ini.

4). Terapkan deteksi outlier berbasis klaster menggunakan atribut kategorikal terhadap obyek-obyek dalam klaster pada langkah menggunakan CBLOF sebagaimana persamaan di bawah ini

5). Lakukan klasterisasi pada sub set data kategorikal sehingga diperoleh sejumlah klaster C21, C22,…, C2q dengan ukuran berturut-turut

|C21| ≥ |C22| ≥ … ≥ |C2q|

Tentukan klaster besar (LC) dan klaster kecil (SC) menggunakan Definisi 2(pada metode CBLOF).

6). Terapkan deteksi outlier berbasis klaster menggunakan atribut kategorikal terhadap obyek-obyek dalam klaster pada langkah menggunakan CBLOF:

7). Terapkan deteksi outlier berbasis klaster menggunakan atribut numerik terhadap obyek-obyek dalam klaster pada langkah menggunakan teknik berbasis klasterisasi.

8). Susun derajat outlier pada langkah 3, 4, 6, dan 7 dalam matrik keputusan A=[aij].

9). Lakukan pembobotan secara default (bobot sama) atau dengan metode Entropy

10). Gabungkan bobot outlier tiap obyek t1, t2, .., tn pada langkah 9 dengan fungsi

agregat untuk mendapatkan derajat outlier akhir OF dari sebuah obyek ti

Dari dua metode deteksi outlier yang telah disebutkan di atas, metode deteksi outlier yang lebih dapat diandalkan adalah metode MixCBLOF. Hal ini karena metode MixCBLOF dapat lebih diandalkan untuk digunakan pada data campuran yang terdiri dari data numerik dan data kategorikal daripada metode CBLOF. Seperti yang ditunjukkan oleh hasil uji coba, diperoleh hasil bahwa algoritma MixCBLOF cukup efektif untuk mendeteksi outlier pada set data campuran dengan rata-rata pencapaian coverage sebesar 73,54%. Hasil ini lebih baik jika dibandingkan dengan algoritma CBLOF yang diterapkan pada set data yang sama yang telah didiskritisasi dengan metode equal width, yang hanya menghasilkan rata-rata coverage sebesar 59,48%. Sebagaimana kita ketahui pada kenyataannya di lapangan bahwa data yang muncul adalah gabungan dari data numerik dan data kategorikal. Oleh karena itu diperlukan suatu metode yang dapat digunakan untuk mendeteksi outlier pada data campuran tersebut.

 

Jika ada penulisan yang tidak jelas(karena wordpress tidak bisa membaca sebagian simbol karakter persamaan matematika) maka silakan download artikel ini di sini http://www.mediafire.com/?5ckrk3di68fbo4k

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: