Yüksek Boyutlu Veri Kümeleri için Robust BACON Temel Bileşenler
Transkript
Yüksek Boyutlu Veri Kümeleri için Robust BACON Temel Bileşenler
Yüksek Boyutlu Veri Kümeleri için Robust BACON Temel Bileşenler Analizi Gülsen Kıral Ç.Ü. İ.İ.B.F. Ekonometri Böl. Nedret Billor A.U. Dep. of Discrete and Statistical Science Özet: Temel bileşenler analizi (TBA) çoklu iç ilişki problemini ortadan kaldırmak amacı ile kullanılan bir tekniktir. Ancak klasik kovaryans matrisine dayalı olarak tanımlandığından sapan değerlerin varlığında etkinliğini kaybetmektedir. Bu nedenle araştırmacılar çalışmalarında klasik TBA kullanmak yerine robust kestiricilerden yararlanarak robust temel bileşenler analizi kullanmayı tercih etmeye başlamışlardır. Bu çalışmada robust temel bileşenler analizi çerçevesinde yüksek boyutlu verilerin değerlendirilmesinde bize yardımcı olacak yeni bir yöntem tanımlanacaktır. Bu konu ile ilgili olarak yapılan ilk çalışma robust dağılım matrisine (örneğin:MCD ya da S tahmin edicisi) dayalı olup sadece düşük boyutlu veri kümelerinde kullanılan bir yöntemdi. İkincisi projection–pursuit yöntemine dayalı olup yüksek boyutlu verilerde de kullanılabilen bir yöntemdi. Ardına projection-pursuit ve robust dağılım matrisine dayalı yüksek boyutlu veri kümelerinde de etkin olan yeni bir yöntem önerildi. Ancak bu yöntemde kullanılan robust kestiriciler hesaplama problemi içerdiğinden bu çalışmamızda alternatif bir ölçü tanımlandı. Yöntem kirletilmiş ve temiz veri kümelerinde etkin olarak işleyip benzer sonuçları vermektedir. Daha hızlı olarak sonuca ulaşılabilmekte ve gerçek kestiricileri bulabilmektedir. Ayrıca veri değerlendirilmesinde bize yardımcı olacak birkaç tanılama grafiği de önerilecektir. Bu grafikler büyük veri kümelerinde sapan değerlerin sınıflandırılması ve gözlemlenmesinde bize yardımcı olacaktır. Anahtar Kelimeler: BACON algoritması, Yüksek boyutlu veri, Aykırı değer, Robust temel bileşenler analizi 1. Giriş Yüksek boyutlu veri kümeleri ile uğraşma her zaman için problemlidir. Çünkü bu tip verilerin analizi hesaplama problemleri içermektedir. Bunun yanında pek çok istatistiksel analiz birbiri ile ilişkili gözlemlerin veride bulunmasından (çoklu içi ilişki problemi) kötü olarak etkilenmektedir. Bu problemlerin üstesinden gelebilmek için veri boyutunun indirgenmesi yoluna başvurulur ve bu amaçla da temel bileşenler analizinden yararlanılır. Ancak bu analiz klasik varyans-kovaryans matrisine dayalı olarak hesaplandığından aykırı değerlerin varlığı durumunda sağlıklı sonuç vermemektedir. Bu nedenle aykırı değer olması olasılığına karşın robust temel bileşenler analiz tekniklerinin kullanımı önerilmektedir. Burada amaç aykırı değerlerden etkilenmeyen temel bileşenlerin belirlenmesi ve bu bileşenler üzerinden problemli gözlemlerin ortaya çıkarılmasıdır. Bu konu ile ilgili olarak yapılan ilk çalışma varyans-kovaryans matrisinin özdeğerlerine dayalı olarak tanımlanmış olup sadece düşük boyutlu veri kümelerinde etkin olarak kullanılmaktadır (Lie ve Chen, 1985). Bu yaklaşımlarda analiz klasik varyans-kovaryans matrisinin robust varyans-kovaryans kestiricileri ile yer değiştirilmesi ile gerçekleştirilmektedir. Sonuç daha robust olmasına rağmen birtakım eksikliklerle karşı karşıya kalınmaktadır. Örneğin; MCD kestiricisinin hesabında ortalama ve varyans-kovaryans matrisi n elemanlı bir kümede en küçük determinanta sahip h<<n gözleme dayalı olarak hesaplanmaktadır.Eğer p veri kümemiz içerisindeki değişken sayımız ise MCD tahmin edicisi p<h iken hesaplanabilir aksi taktirde h alt kümenin kovaryans matrisinin determinantı sıfır çıkacaktır. Karşılaşabileceğimiz bir diğer problem yüksek boyutta robust kestiricilerin hesaplama problemidir. İkinci yaklaşım projection-pursuit yöntemine dayalı olup yüksek boyutlu verilerde etkin olarak kullanılmaktadır (Croux, Ruiz ve Gazen, 1996, 2000). Bu yöntemler verinin yansıtılacağı ardışık doğrultuları bulmada yayılımın robust ölçüsünü maksimize etmeye çalışır. Bu fikir genel temel bileşenlere de genelleştirilebilir. (Boente and Orellana, 2001). Bu yöntem hızlı ve çok değişkenli ve/ya çok gözlemli veri kümeleri üzerinde etkin şekilde kullanılmaktadır. Sonuncusu ise ilk iki çalışmanın birleşiminden oluşmakta olup hem projection-pursuit hem de robust varyans-kovaryans tahminine dayalı olarak tanımlanan yüksek boyutlu veri kümelerinde de aktif olarak kullanılabilen bir yöntemdir (Hubert ve ark.,2003). Çalışmamızda yukarıda verdiğimiz yöntemlere alternatif olarak robust temel bileşenler analizi için yeni bir yöntem önerilmiştir. Robust BACON Temel Bileşenler Analizi (ROBTBA) adını verdiğimiz yöntemin performansı gerçek veri kümeleri üzerinde gösterilecektir. Burada esas olarak incelemek istenilen şey gözlem sayısının parametre sayısından fazla olması durumunda önerdiğimiz yöntemin etkinliğinin testidir. Önerilen yöntem Billor ve ark. (2003) tarafından önerilen BACON yönteminin uygulanması sonucu elde edilen robust kestiriciler yardımıyla robust temel bileşenler yönteminin uygulanmasına karşılık gelmektedir. Bu çalışmada verinin değerlendirilmesinde bize yardımcı olabilecek birkaç tanılama grafiği de önerilecektir. Bu grafikler büyük veri kümelerinde sapan değerlerin sınıflandırılması ve gözlemlenmesinde bize yardımcı olacaktır. Çalışmanın ikinci bölümünde önerilen yöntem algoritmik olarak açıklanacak hemen ardına üçüncü bölümde ise yöntemin performansı farklı tipteki 2 farklı veri kümesi üzerinde gösterilecektir. Son olarak dördüncü bölümde ise yöntem ile ilgili elde edilen bilgiler özetlenecektir. 2. Robust BACON Temel Bileşenler Analizi (RBTBA) Yöntemi Dayanıklı kestiricilerle yapılan işlemler çoğu zaman için sağlıklı sonuç verirler ama bilindiği gibi yapılması gereken işlemler problemli ve zaman alıcıdır. Gözlem ve parametre sayılarının artması durumunda hesaplamalar iyice artmaktadır. Bunun yanında kullanılan veri kümesine ve istatistiğe bağlı olarak etkinliklerinde değişikliklerin olabilmesi ve sadece belli tipteki aykırı değerleri ortaya çıkarıyor olmaları da karşılaşılabilecek problemlerdendir. O halde bu problemlerden etkilenmeyen daha hızlı işleyip sağlıklı sonuç veren bir yönteme gereksinim duyulmaktadır. Bu amaçla; bu çalışmada Billor ve ark. (2000) tarafından tanımlanan BACON algoritması kullanılarak dayanıklı temel bileşenlerin belirlenmesini sağlayan yeni bir algoritma tanımlanmıştır. Algoritma iki temele dayandırılmaktadır. Bunlar projection-pursuit yönteminin kullanımı ile veriyi temsil eden düşük boyutlu verinin oluşturulması ve hemen ardına BACON algoritmasından elde edilen robust kovaryans tahmini yardımı ile problemli gözlemlerin belirlenmesidir. RBTBA yöntemi; ROBPCA (Hubert ve ark., 2003) tarafından tanımlanan yöntem içinde kullanılan dayanıklı FAST-MCD kestiricisi yerine BACON algoritmasından elde edilen robust ortalama ve kovaryans matrisinin kullanılmasına dayalı olarak yürütülmektedir. RBTBA yönteminde ana düşünce büyük veri kümelerinde etkinliği ispatlanmış BACON algoritması (Billor ve ark., 2000) kullanmak ve hemen ardından projectionpursuıt yöntemi ve temel bileşenler analizini uygulamaktır. Böylece analizci aykırı değerlerden arındırılmış X veri matrisini temsil edebilen en önemli bileşenleri belirleyebilir ve bu bileşenler üzerinden kolaylıkla problemli gözlemleri belirleyebilir. RBTBA Algoritması Adim 1: n gözlemi temsil edebilecek olan veri indirgemesini projection-pursuit yöntemini kullanılarak yapılır. Bunun için merkezileştirilmiş veri matrisi X n , p − 1n µˆ 0′ = U n ,r0 Dr0 ,r0 Vr′0 , p (1) şekilde ayrıştırılır. Burada µ̂ 0 klasik ortalama vektörü, r0 = rank ( X n , p − 1n µˆ 0′ ) , D r0xr0 tipinde köşegenel matris ve U ′U = I r0 = V ′V şeklinde tanımlanmıştır. Burada I r0 r0xr0 tipinde birim matristir. p>n olduğunda (1) eşitliğinin ayrıştırması Kernel yaklaşımı olarak bilinen ( X − 1n µ 0′ )′ ( X − 1n µ 0′ ) matrisinin özdeğer ve özvektörlerinin hesaplanmasına bağlı olarak yapılmaktadır (Wu ve ark. , 1997). Adım 2: Z n ,r0 = UD matrisini inşa et. Adım 3: Z n ,r0 matrisi içerisindeki önemli bileşen sayısını belirle ve sayıya bağlı olarak indirgenmiş veri kümesini Z n ,r1 belirle ( r1 ≤ r0 ). Adım 4: Z n ,r1 veri matrisimize BACON algoritmasını uygulayarak temel alt kümeyi belirle. Adım 5: Temel alt kümedeki gözlemlerin ortalama ve varyans-kovaryans matrisleri sırasıyla, Z b ve Sb olmak üzere d i (Z b , S b ) = (z i ′ − Z b ) S b−1 (z i − Z b ) i=1,2,…,n uzaklıkları hesaplanır.(zi , Z matrisinin i. satırı.) Adım 6: d i (Z b , S b ) < C npq .χ p ,α n olan gözlemlerle yeni temel alt küme belirlenir. χ p2 ,α ; p serbestlik dereceli, 1−α ki-kare değeri, C npq = C np + C hq olan bir yüzdelikli düzeltme faktörü, q; şu an ki temel alt kümede bulunan eleman sayısı, p; temel alt kümede C np = 1 + bulunan bileşen sayısı, C hq = max{0, (h − q ) (h + q )} ve p +1 1 + olarak tanımlıdır (h = [ (n + p + 1) 2 ]) . n− p n−h− p Adım 7: 5. ve 6. adımlar temel alt kümede değişme olmayana kadar tekrarlanır. Adım 8: Yedinci adımda elde edilen temel alt küme dışında kalan gözlemler aykırı değer olarak tanımlanır. Adım 9: Aykırı değer olarak belirlenen gözlemler veri kümesinden atılarak indirgenmiş veri kümesi elde edilir ( Z r ,r2 ) Adım 10: Z r ,r2 veri matrisine ait ortalama vektörü µ̂1 ve varyans-kovaryans matrisi S1 hesaplanır. Ardına S1 matrisinin spectral ayrıştırılması S1 = P1 L1 P1′ ~ ~ olacak şekilde yapılır. ( L1 = diag ( l1 ,..., lr 2 ) and r2 ≤ r1). Adım 11: Veri S1 in sıfırdan farklı özdeğerlerine karşılık gelen özvektörleri tarafından gerilen uzay içerisine yansıtılır. Yani ( Pr2 ,r2 ) Z n*,r2 = Z n ,r2 − 1n µ1′ Pr2 ,r2 Z n*,r2 Adım 12: BACON algoritması kullanılarak içindeki temiz gözlemlerin matrisi belirlenir. Adım 13: Temiz gözlemlere ait ortalama vektörü µ̂ 2 ve varyans–kovaryans matrisi S2 hesaplanır. Adım 14: Varyans kovaryans matrisinin spectral ayrıştırılması yapılır. S 2 = P2 L2 P2′ Adım 15: Veri kümelerini S2 in sıfırdan farklı özdeğerine karşılık gelen özvektörleri Pr*2 ,r2 tarafından gerilen uzay içerisine yansıtılır. Bunun için ( ) Z n**,r2 = Z n*,r2 − 1n µ 2′ Pr*2 ,r2 veri matrisi hesaplanır. Adım 16: Z n*,r1 ve Z n*,r2 veri matrisleri ne ait varyans-kovaryans matrislerinin (S1 ve S2) determinantları hesaplanır. Adım 17: det(S0)<det(S1) ise final veri matrisi (Z ) , Z final * n ,r2 ‘e aksi taktirde Z n**,r2 ’e eşitlenir. Final veri matrisine ait ortalama ve varyans-kovaryans matrisleri sırasıyla µ̂ 3 ve S4 hesaplanır Adım 18: Bu değerlerden yaralanılarak ortagonal uzaklıklar (ODi) ve robust uzaklıklar (RDi) hesaplanır. RDi = (Z finali ) ′ − µˆ 3 S 4 (Z finali − µˆ 3 ) ODi = Z finali − µ̂ 3 − P t i ′ Burada P, final matrisinin varyans-kovaryans matrisinin özdeğerlerine karşılık (~ ) gelen özvektörlerin matrisini, ti ise Tn ,k = X n ,k − 1n µ 3′ P matrisinin i. satırını temsil etmektedir. Adım 18: Verinin grafiksel incelemesi için RDİ karşın indeks, ODi karşın indeks, RDi karşın ODi, Zfinal[,i] karşın Zfinal[,j] (i,j=1,2,…,r2 ve i ≠ j ) grafikleri çizilebilir . Grafiklerin yorumlanmasında araştırmacı grafik içerisine RDi karşın ODi grafiğinde düşey eksene x = (µˆ + σˆ .Z 0.975 ) 32 ve y = C npr .χ p ,α n doğruları çizilmelidir. Bu doğrular dört dikdörtgen belirlemektedir. Alt ve sol taraftaki dikdörtgen içerisinde kalan gözlemler temiz dışarısındakiler ise problemli gözlemlere karşılık gelmektedir. Alt sağ tarafta ki iyi leverage gözlemleri üst sol taraftaki ortogonal sapan değerleri ve üst sağ taraftaki gözlemler de kötü leverage gözlemleri belirtmektedir. 3. Uygulama Bu bölümde RBTBA yönteminin performansı iki farklı tipteki veri kümesi üzerinde gösterilecektir. Bunun yanında RBTBA yönteminden elde ettiğimiz sonuçları klasik temel bileşenler analizi (KTBA) den elde edilen sonuçlarla karşılaştırılacaktır. 3.1. Cars data Cars veri kümesi 111 satır ve 11 kolondan oluşan düşük boyutlu bir veri kümesidir. Bu veri kümesinde rasgele seçilmiş 111 arabanın uzunluğu, genişliği ve ağırlığı ile ilgili bilgileri içermektedir. Veri kümesine ait ikili serpilme grafikleri ve spearman rank korelasyon değerleri x1 ile x2 ve x3 ile x9 arasında yüksek bir korelasyon olduğunu göstermektedir ( r12 = 0.83 , r39 = 0.87 ). Bu nedenle KTBA yöntemi kullanılarak veriyi temsil eden en iyi bileşenlerin belirlenmesi işlemi tercih edilmektedir. Bu veri kümesine RBTBA yöntemini uyguladığımızda en önemli bileşenlerin ~ ~ ~ belirlenmesi işini verinin varyans-kovaryans matrisinin özdeğerlerine l1 ≥ l2 ≥ ...lr (r = rank ( S 0 ) ) bakarak karar vermekteyiz. Bunun için de k ~ r ~ ∑l ∑l j =1 j j =1 j ≈ 90% OD 5 10 15 20 25 30 olacak şekilde k değerini belirlenmektedir. 0 20 40 60 80 100 index 0 10 20 OD 30 40 50 Şekil 1: Cars veri kümesine ait scree grafiği 0 2 4 6 8 CDi 1.5*10^-11 Şekil 2(a): Cars veri kümesine ait tanılama grafiği (iki klasik temel bileşene ait) 32 30 96 10^-11 36 34 6 5*10^-12 OD 25 103 105 104 108 111 110 109 107 106 0 102 0 2 4 6 8 RDi Şekil 2(b): Cars veri kümesine ait tanılama grafiği (iki robust temel bileşene ait) 2000 6 108 -2000 t2 0 110 104 111 102 107 104 -4000 96 30 32 34 36 25 -10000 -5000 0 5000 t1 Şekil 3(a) : Cars veri kümesinin en önemli robust iki bileşenine ait skor grafiği ~ ~ Bu veri kümesi için l1 + l2 11 ~ ∑l j =1 j = 94% olduğundan k=2 olarak belirlenmiştir. Şekil2(a) ve (b) de sırasıyla klasik ve robust yöntem kullanılarak elde edilen tanılama grafiklerini göstermektedir. Robust yöntem kullanılarak elde edilen grafikten problemli olan gözlemlerin rahatlıkla belirlenebildiği gözlemlenmektedir. Bu grafik 25,30,32,34,36,102-110 nolu gözlemleri sapan değer olarak belirlemektedir. Ayrıca 6 -40 -20 t2 0 20 ve 96 nolu gözlemlerin iyi leverage oldukları da rahatlıkla söylenebilir. -60 -40 -20 0 20 40 t1 Şekil 3(b) : Cars veri kümesinin en önemli iki bileşeninin birbirine karşın serpilme grafiği Elde ettiğimiz bu sonuçları KTBA den elde edilenler (Şekil 2 (b)) ile karşılaştıracak olursak robust için elde edilenin klasik için elde edilenden çok farklı olduğunu göreceğiz. En dikkat çeken kısmı ciddi anlamda problemli olan 25, 30,32,34,36 nolu gözlemlerin klasik yöntemde problemsiz gözlemler olarak görülmesidir. RBTBA ve KTBA arasında ki farkı (t i1 , t i 2 ) bileşenlerine ait serpilme grafiklerine (Şekil 3(a), Şekil 3(b) ve Şekil 3(c) ) bakarak ta söyleyebiliriz. 1500 102 106 111 105 108 107 109 110 103 500 t3 1000 104 6 0 30 96 -500 36 25 34 32 -4000 -2000 0 2000 t2 Şekil 3(c) : Cars veri kümesinin robust üçüncü bileşeni karşın ikinci bileşenine ait serpilme grafiği 106 102 105 103 500 t3 1000 1500 111 107 110 104 108 109 6 0 96 30 36 -500 34 32 25 -10000 -5000 0 5000 t1 Şekil 3(d) : Cars veri kümesinin robust birinci bileşeni karşın ikinci bileşenine ait serpilme grafiği Şekil 3(a); RBTBA yönteminden elde edilen en önemli iki bileşene ait serpilme grafiğini göstermektedir. Veri kümesine ait skor uzaklığı için sınır değeri χ 22, 0.975 dir. Gözlemlerin yoğunlaştığı kısım dışarısında kalan gözlemler problemli gözlemler olarak bilinmektedir. Grafikten hangi gözlemlerin problemli olduğu rahatlıkla söylenebilir. Şekil 3(b) ise KTBA den elde edilen skorlara ait serpilme grafiğidir. Grafikten 25, 30, 32, 34 ve 36 nolu gözlemler dışında problemli gözlem görülmemektedir. Benzer bilgiler Şekil 3(c) ve Şekil 3(d) için de söylenebilir. 3.2. Octanes data Octanes veri kümesi Esbensen ve ark. (1994) tarafından tanımlanmıştır. Bu veri kümesi parametre sayısının gözlem sayısından fazla olması durumunda yöntem performansının gösterilmesi amacı ile seçilmiştir. Veri kümesinde n=39, p=226 dır. Veri kümesinde ki 25,26,36-39 nolu gözlemlerin problemli gözlemler oldukları önceden bilinmektedir. 120 pc 60 0.818 40 Variances 80 100 0.529 20 0.914 0.976 0.992 0.995 0.997 0.998 0.999 0 0.986 Comp. 1 Comp. 2 Comp. 3 Comp. 4 Comp. 5 Comp. 6 Comp. 7 Comp. 8 Comp. 9 Comp. 10 0.4 OD 0.8 1.2 Şekil 4: Octanes veri kümesine ait scree grafiği 0.0 26 0 2 4 6 8 10 CDi Şekil 5(a): Octanes veri kümesine ait tanılama grafiği (KTBA den elde edilen) 4*10^-15 39 2*10^-15 OD 6*10^-15 26 25 0 37 0 1 36 2 38 3 4 RDi Şekil 5(b): Octanes veri kümesine ait tanılama grafiği (RBTBA den elde edilen) KTBA için tanılama grafiği Şekil 5(a) da görülmektedir. Grafikten klasik yöntemin sadece 26 nolu gözlemi problemli olarak belirlediğini görmekteyiz. Buna karşın RBTBA yöntemine ait grafikte problemli gözlemlerin tamamı sapan değer olarak görülmektedir. 4. Sonuç Bu çalışmada robust temel bileşenler analizi ile ilgili yeni bir algoritma önerildi. Yöntem orijinal veriye projection-pursuit tekniğini uygulanarak daha az boyutlu olacak şekilde düzenledikten sonra robust yöntem uygulayarak veriyi temsil edecek bir alt uzaya gözlemleri yansıtmaktadır. Bu uzay içerisinde veri kümesine ait robust kovaryans matrisinin tahminini kullanarak robust uzaklıklar hesaplanır. Grafiksel yöntemler yardımıyla problemli gözlemler belirleniyor. İnceleme sonuçları gösteriyor ki; RBTBA yöntemi hem n<<p hem de p<<n durumlarında etkin olarak sonuç vermekte ve robust tahminler sunmaktadır. RBTBA yöntemi robust temel bileşenler regresyonun çerçevesinde tanımlanmıştır. Yöntem veride sapan değer olması ve çoklu iç ilişki probleminin bulunması durumlarında etkin olarak kullanılmaktadır. Ayrıca en önemli özelliği yüksek boyutlu veri kümelerinde sorunsuz olarak sonuç verebilmesidir. Araştırmamızda S-Plus 6.0 paket programını kullanıldı. İlgili bilgiler gkiral@mail.cu.edu.tr adresinden temin edilebilir. KAYNAKLAR • Billor , N., Hadi, A. S., Velleman, P. F., 2000. BACON: Blocked Adaptive Computationally-Efficient Outlier Nominators, Computational Statistics And Data Analysis, 34, 279-298. • Billor, N., Hadi, A. S. And Kiral, G. (2003) “A Comparison Of Recent Multiple Outlier Detection Methods For Regression Data”, Proceedings Of JSM, Pg:1718-1723. • Boente, G., Pires, A.M. , And Rodrigues, I (2002), “Influence Functions And Outlier Detection Under The Common Principal Component Model:A Robust Approach.” Biometrika, 89,861-875. • Croux, C., Abd Ruiz-Gazen, A. (2000), “ High Breakdown Estimators For Principal Components: The Projection-Pursuit Approach Revisited”, Under Revision. • Esbensen, K., H., Schonkopf, S., And Midtgaard, T. (1994), Multivariate Analysis İn Practica. Camo, Trondheim. • Hubert, M.,Rousseeuw, P.J., And Branden, K., V. (2003), ”ROBPCA:A New Aprroach To Robust Principal Component Analysis” • Lie, G., And Chen, Z. (1985),”Projection-Pursuit Approach To Robust Dispersion Matrices And Principal Components: Primary Theory And Monte Carlo,” Journal Of The American Statistical Association, 80, 759-766. • Wu, W., Massart, D.L., And De Jong, S. (1997), “The Kernel PCA Algorithms For Wide Data. Part 1: Theory And Algorithms.” Chemometrics And Intelligent Laboratory Systems, 36, 165-172. Robust BACON Principle Component Analysis for High-Dimensional Regressors: (RBPCA) Abstract: In this study we have presented the Robust BACON Principle Component Analysis (RBPCA) method for robust principal components. It is able to handle highdimensional spectra and several concentration variables at once and detect the latent variables that explain the variability of the good data points. It can deal with situations where there are more variables than objects, and combines numerical accuracy with computation speed. PCA is a technic to handle the problem of multicollinearity and produce stable and meaningful estimates for regression coefficient. But unfortunatelly it gives very unreliable results when data set contains outlying observations. So in this study we prefer to use robust PCA method. In the past three robust approaches have been developed. The first is based on the eigenvectors of a robust scatter matrix, and is limited to relatively low-dimensional data (Lie and Chen, 1985). The second approach is based on projection pursuit and can handle high-dimensional data(Croux, Ruiz Gazen, 1996,2000). And the last one is based on both projection pursuit and robust covariance estimation and can handle high-dimensional matrix (Hubert et.al., 2003). In this study we propose the RBPCA approach which combines robust estimation. It yields more accurete estimates at non-contaminated data and more robust estimates at contaminated data. RBPCA can be computed fast, and is able to detect exact fit situations. Also we introduce several diagnostic plots which are helpful to visualize and classify the outliers in the analysis of large data sets . We can show the performance of this method by using real data sets. Key Words: Principal Component Analysis (PCA), Robust Methods, Highdimensional data, BACON method