2017-01-04 25 views
7

R kullanarak çok değişkenli aykırı değerleri tanımlamak için en iyi yöntem için her yerde araştırıyorum ama henüz inandırıcı bir yaklaşım bulamadık sanmıyorum. Benim veriler de, ben her ikisi sonuçlandı kütüphaneye MVNÇok Değişkenli Outlier R kullanarak olasılık kullanarak saptama

library(MVN) 
result <- mvOutlier(df, qqplot = TRUE, method = "quan") #non-adjusted 
result <- mvOutlier(df, qqplot = TRUE, method = "adj.quan") #adjusted Mahalonobis distance 

den Mahalonobis mesafeyi kullanıyorum birden çok alan

Öncelikle
data(iris) 
df <- iris[, 1:4] #only taking the four numeric fields 

içerdiğinden

Biz iris örnek olarak veri alabilir daha fazla titizliğe ihtiyaç duyduğunu düşündüğüm fazla sayıda aykırı değer (ayarsız ve ayarlanmış için 49/150 için 50'den 50). (Biz daha az sayıda sahip olacak şekilde, sonuçların dışında olma noktasına olasılığını artırarak diyor) ne yazık ki

İkincisi, ben aykırı kütüphane kullanılan eşiğini ayarlamak için mvOutlier yönteminde bir değişken bulmak için görünmüyor olabilir . Bu, tek değişkenli dışkılananları bulmaktır. Böylece, planım, verilerin her boyutunda aykırı olanları bulmak ve bu boyutların tüm boyutlarında aykırı olan noktalar veri kümesinin aykırı değerleri olarak kabul edilir. Bu biz olasılık ayarlayabilirsiniz, ama çok değişkenli aykırı algılama yerini alabilir sanmıyorum İçin

library(outliers) 
result <- scores(df, type="t", prob=0.95) #t test, probability is 0.95 
result <- subset(result, result$Sepal.Length == T & result$Sepal.Width == T & result$Petal.Length == T & result$Petal.Width == T) 

.

Ben

  • kitaplığı (mvoutlier) denedik Diğer bazı yaklaşımlar: Bu sadece grafiğini göstermektedir. 'un otomatik olarak aykırı değerleri bulmak zordur. Ve bu
  • aşçının mesafeye (link) içine olasılığını nasıl ekleneceğini bilmiyorum: Bir adam aşçı mesafe kullanılan ama için herhangi bir güçlü akademik kanıtı bu olduğunu kanıtlamak olduğunu sanmıyorum söyledi tamam.

Cook'un Mesafe

cevap

3

İlk ikincisi R. bu nasıl uygulanacağı bakıyor iken, çok değişkenli taşma bulmada farklı yöntemler üzerinde bir kağıttır, bu iki bağlantılar da bırakacağım olduğunu Bir veri noktasının sahip olduğu etkiyi incelemek için geçerli bir yoldur ve bu şekilde yardımcı noktalar dışarıdadır. Mahalanobis Mesafe da düzenli olarak kullanılmaktadır.

Test örneğinizde, iris veri kümesi kullanışlı değildir. Net bir şekilde ayrılabilir olduğundan, sınıflandırma problemleri için kullanılır. 50 veri noktasını hariç tutmanız, tüm türlerden kurtulacaktır.

Aykırı Algılama Birden fazla varyasyon içinde Veriler-

http://www.m-hikari.com/ams/ams-2015/ams-45-48-2015/13manojAMS45-48-2015-96.pdf

R uygulaması

http://r-statistics.co/Outlier-Treatment-With-R.html

+0

Merhaba Andrew, Yorumlarınız için teşekkürler. Cook'un mesafesi iyi gözüküyor ama uygun bir çizgi lm yapmak zorunda kaldığınızda Y'ye ne yazacağımı bilmiyorum (Y ~.tüm veri alanları eşdeğer bağımsız olduğunda. Mahalanobis Mesafesi için, herhangi bir R uygulaması gördüğümü sanmıyorum. Ayrıca, kağıt eşiği arttırmak/azaltmak için bir şey söylemedi. Eşiği, aşırılıklar için aşçının 3 saatlik mesafesine indirgemem ne olur diye merak ediyorum. Son olarak, bu yöntemlerin güvenini/doğruluğunu nasıl test edeceğinizi biliyor musunuz? –