2015-09-12 20 views
6

Ölçümden toplanmış bir dizi> 2000 numaram var. Bu veri setinden, her bir testte yaklaşık 10 kez örnekleme yapmak istiyorum; olasılık dağılımı genel olarak korunurken ve her testte (yaklaşık olarak mümkün olduğunca). Örneğin, her testte, küçük bir değer, bazı orta sınıf değeri, büyük bir değer, orjinal dağılımı yaklaşık olarak ortalama ve varyans ile istiyorum. Tüm testleri birleştirerek, tüm örneklerin orijinal dağılımına yaklaşık olarak yakın olan ortalama ve varyansını da istiyorum. Benim veri kümesi deBir veri kümesinden rasgele örnekleme, orijinal olasılık dağılımı korunurken

bir long-tail probability distribution, her bir dağılım veri miktarı aynı değildir: ve

Probability density

Şekil 1 Yoğunluk arsa ~ veri 2k elemanları.

Java kullanıyorum ve şu anda ben bir uniform distribution kullanıyorum ve veri kümesinden rasgele int kullanın ve o pozisyonda veri elemanını döndürür:

public int getRandomData() { 
    int data[] ={1231,414,222,4211,,41,203,123,432,...}; 
    length=data.length; 
    Random r=new Random(); 
    int randomInt = r.nextInt(length); 
    return data[randomInt]; 
} 

ben bilmiyorum İstediğim gibi çalışıyor, çünkü büyük miktarda seri korelasyona sahip olduğu ölçülü veriyi kullanıyorum.

cevap

3

İstediğiniz gibi çalışır. Verilerin sırası alakasız.

+0

Beni daha iyi doldurdun. :-) Ama bunu nasıl kanıtlayabilirim? Ve hala her testte yeterince küçük ve büyük değerler almadığım için endişeleniyorum. – Ho1

+0

@ Ho1, araç ve standart sapma sipariş tarafından değiştirilmez. Aynı dağılımı istiyorsanız, değerleri sıralamanız ve numunelerin farklı bölümlerini rastgele seçmeniz gerekir. Elbette, istediğiniz sonuçları kısıtladığınız için bu tamamen rastgele değildir. –

+0

@PeterLawrey: Dedikleriniz FALSE. –

2

Rastgele örnekleme olasılık dağılımını korur.