R kullanarak çok değişkenli aykırı değerleri tanımlamak için en iyi yöntem için her yerde araştırıyorum ama henüz inandırıcı bir yaklaşım bulamadık sanmıyorum. Benim veriler de, ben her ikisi sonuçlandı kütüphaneye MVNÇok Değişkenli Outlier R kullanarak olasılık kullanarak saptama
library(MVN)
result <- mvOutlier(df, qqplot = TRUE, method = "quan") #non-adjusted
result <- mvOutlier(df, qqplot = TRUE, method = "adj.quan") #adjusted Mahalonobis distance
den Mahalonobis mesafeyi kullanıyorum birden çok alan
Öncelikledata(iris)
df <- iris[, 1:4] #only taking the four numeric fields
içerdiğinden
Biz iris örnek olarak veri alabilir daha fazla titizliğe ihtiyaç duyduğunu düşündüğüm fazla sayıda aykırı değer (ayarsız ve ayarlanmış için 49/150 için 50'den 50). (Biz daha az sayıda sahip olacak şekilde, sonuçların dışında olma noktasına olasılığını artırarak diyor) ne yazık ki
İkincisi, ben aykırı kütüphane kullanılan eşiğini ayarlamak için mvOutlier yönteminde bir değişken bulmak için görünmüyor olabilir . Bu, tek değişkenli dışkılananları bulmaktır. Böylece, planım, verilerin her boyutunda aykırı olanları bulmak ve bu boyutların tüm boyutlarında aykırı olan noktalar veri kümesinin aykırı değerleri olarak kabul edilir. Bu biz olasılık ayarlayabilirsiniz, ama çok değişkenli aykırı algılama yerini alabilir sanmıyorum İçin
library(outliers)
result <- scores(df, type="t", prob=0.95) #t test, probability is 0.95
result <- subset(result, result$Sepal.Length == T & result$Sepal.Width == T & result$Petal.Length == T & result$Petal.Width == T)
.
Ben
- kitaplığı (mvoutlier) denedik Diğer bazı yaklaşımlar: Bu sadece grafiğini göstermektedir. 'un otomatik olarak aykırı değerleri bulmak zordur. Ve bu
- aşçının mesafeye (link) içine olasılığını nasıl ekleneceğini bilmiyorum: Bir adam aşçı mesafe kullanılan ama için herhangi bir güçlü akademik kanıtı bu olduğunu kanıtlamak olduğunu sanmıyorum söyledi tamam.
Cook'un Mesafe
Merhaba Andrew, Yorumlarınız için teşekkürler. Cook'un mesafesi iyi gözüküyor ama uygun bir çizgi lm yapmak zorunda kaldığınızda Y'ye ne yazacağımı bilmiyorum (Y ~.tüm veri alanları eşdeğer bağımsız olduğunda. Mahalanobis Mesafesi için, herhangi bir R uygulaması gördüğümü sanmıyorum. Ayrıca, kağıt eşiği arttırmak/azaltmak için bir şey söylemedi. Eşiği, aşırılıklar için aşçının 3 saatlik mesafesine indirgemem ne olur diye merak ediyorum. Son olarak, bu yöntemlerin güvenini/doğruluğunu nasıl test edeceğinizi biliyor musunuz? –