Dispersi dalam statistik. Varians dan deviasi standar di MS EXCEL

Penyebaranvariabel acak- ukuran penyebaran suatu hal variabel acak, yaitu dia penyimpangan dari ekspektasi matematis. Dalam statistik, notasi (sigma kuadrat) sering digunakan untuk menunjukkan dispersi. Akar kuadrat dari varians yang sama disebut deviasi standar atau penyebaran standar. Deviasi standar diukur dalam satuan yang sama dengan variabel acak itu sendiri, dan variansnya diukur dalam kuadrat dari satuan tersebut.

Meskipun sangat mudah untuk menggunakan hanya satu nilai (seperti mean atau mode dan median) untuk memperkirakan keseluruhan sampel, pendekatan ini dapat dengan mudah menghasilkan kesimpulan yang salah. Alasan untuk situasi ini bukan terletak pada nilai itu sendiri, namun pada kenyataan bahwa satu nilai sama sekali tidak mencerminkan penyebaran nilai data.

Misalnya, dalam sampel:

nilai rata-ratanya adalah 5.

Namun, dalam sampel itu sendiri tidak ada satu pun elemen yang bernilai 5. Anda mungkin perlu mengetahui derajat kedekatan setiap elemen dalam sampel terhadap nilai rata-ratanya. Atau dengan kata lain, Anda perlu mengetahui varians nilainya. Mengetahui tingkat perubahan data, Anda dapat menafsirkannya dengan lebih baik nilai rata-rata, median Dan mode. Sejauh mana perubahan nilai sampel ditentukan dengan menghitung varians dan deviasi standarnya.



Varians dan akar kuadrat dari varians, yang disebut deviasi standar, mencirikan deviasi rata-rata dari mean sampel. Diantara dua besaran tersebut nilai tertinggi Memiliki deviasi standar. Nilai ini dapat dianggap sebagai jarak rata-rata elemen dari elemen tengah sampel.

Varians sulit untuk ditafsirkan secara bermakna. Namun, akar kuadrat dari nilai ini adalah simpangan baku dan dapat dengan mudah diinterpretasikan.

Standar deviasi dihitung dengan terlebih dahulu menentukan variansnya kemudian menghitungnya akar pangkat dua dari dispersi.

Misalnya, untuk array data yang ditunjukkan pada gambar, akan diperoleh nilai berikut:

Gambar 1

Disini nilai rata-rata selisih kuadratnya adalah 717,43. Untuk mendapatkan simpangan baku, yang tersisa hanyalah mengambil akar kuadrat dari bilangan tersebut.

Hasilnya kira-kira 26,78.

Ingatlah bahwa deviasi standar diartikan sebagai jarak rata-rata item dari mean sampel.

Deviasi standar mengukur seberapa baik mean menggambarkan keseluruhan sampel.

Katakanlah Anda seorang manajer Departemen produksi perakitan komputer. Laporan triwulanan menyatakan bahwa produksi pada kuartal terakhir adalah 2.500 PC. Apakah ini baik atau buruk? Anda meminta (atau sudah ada kolom ini di laporan) untuk menampilkan deviasi standar untuk data ini di laporan. Angka simpangan baku, misalnya, adalah 2000. Menjadi jelas bagi Anda, sebagai kepala departemen, bahwa lini produksi memerlukan manajemen yang lebih baik(penyimpangan terlalu besar dalam jumlah PC rakitan).

Ingatlah bahwa ketika deviasi standarnya besar, data tersebar luas di sekitar mean, dan ketika deviasi standarnya kecil, data-data tersebut berkelompok mendekati mean.

Empat fungsi statistik VAR(), VAR(), STDEV() dan STDEV() dirancang untuk menghitung varians dan deviasi standar angka dalam rentang sel. Sebelum Anda dapat menghitung varians dan deviasi standar suatu kumpulan data, Anda perlu menentukan apakah data tersebut mewakili suatu populasi atau sampel dari suatu populasi. Dalam kasus sampel dari populasi umum, Anda harus menggunakan fungsi VAR() dan STDEV(), dan dalam kasus populasi umum, fungsi VAR() dan STDEV():

Populasi Fungsi

DISPR()

STANDOTLONP()
Sampel

DISP()

STDEV()

Dispersi (serta deviasi standar), seperti yang telah kami catat, menunjukkan sejauh mana nilai-nilai yang termasuk dalam kumpulan data tersebar di sekitar mean aritmatika.

Nilai varians atau deviasi standar yang kecil menunjukkan bahwa semua data terkonsentrasi di sekitar mean aritmatika, dan nilai yang besar dari nilai-nilai ini menunjukkan bahwa data tersebar pada rentang nilai yang luas.

Dispersi cukup sulit untuk diartikan secara bermakna (apa maksudnya nilai kecil, nilai besar?). Pertunjukan Tugas 3 akan memungkinkan Anda secara visual, dalam grafik, menunjukkan arti varians suatu kumpulan data.

Tugas

· Latihan 1.

· 2.1. Berikan konsep: dispersi dan simpangan baku; sebutan simbolisnya untuk pemrosesan data statistik.

· 2.2. Lengkapi lembar kerja sesuai dengan Gambar 1 dan buatlah perhitungan yang diperlukan.

· 2.3. Berikan rumus dasar yang digunakan dalam perhitungan

· 2.4. Jelaskan semua sebutan ( , , )

· 2.5. Jelaskan arti praktis dari konsep dispersi dan deviasi standar.

Tugas 2.

1.1. Berikan konsepnya: populasi umum dan sampel; nilai yang diharapkan dan penunjukan simbolik rata-rata aritmatikanya untuk pemrosesan data statistik.

1.2. Sesuai Gambar 2, siapkan lembar kerja dan lakukan perhitungan.

1.3. Berikan rumus dasar yang digunakan dalam perhitungan (untuk populasi umum dan sampel).

Gambar 2

1.4. Jelaskan mengapa dimungkinkan untuk memperoleh nilai rata-rata aritmatika dalam sampel seperti 46,43 dan 48,78 (lihat file Lampiran). Menarik kesimpulan.

Tugas 3.

Ada dua sampel dengan kumpulan data berbeda, namun rata-ratanya akan sama:

Gambar 3

3.1. Lengkapi lembar kerja sesuai dengan Gambar 3 dan buatlah perhitungan yang diperlukan.

3.2. Berikan rumus perhitungan dasar.

3.3. Buatlah grafik sesuai dengan Gambar 4, 5.

3.4. Jelaskan ketergantungan yang diperoleh.

3.5. Lakukan perhitungan serupa untuk data dua sampel.

Sampel asli 11119999

Pilih nilai sampel kedua agar mean aritmatika sampel kedua sama, misalnya:

Pilih sendiri nilai untuk sampel kedua. Susunlah perhitungan dan grafik seperti Gambar 3, 4, 5. Tunjukkan rumus dasar yang digunakan dalam perhitungan.

Menarik kesimpulan yang tepat.

Selesaikan semua tugas dalam bentuk laporan dengan semua gambar, grafik, rumus dan penjelasan singkat yang diperlukan.

Catatan: konstruksi grafik harus dijelaskan dengan gambar dan penjelasan singkat.

Pada bagian sebelumnya, kami telah menyajikan sejumlah rumus yang memungkinkan kita menemukan karakteristik numerik suatu fungsi ketika hukum distribusi argumen diketahui. Namun, dalam banyak kasus, untuk menemukan karakteristik numerik suatu fungsi, bahkan tidak perlu mengetahui hukum distribusi argumen, tetapi cukup mengetahui beberapa karakteristik numeriknya saja; pada saat yang sama, kita umumnya tidak mempunyai hukum distribusi apa pun. Menentukan karakteristik numerik suatu fungsi dari karakteristik numerik argumen tertentu banyak digunakan dalam teori probabilitas dan secara signifikan dapat menyederhanakan solusi sejumlah masalah. Sebagian besar metode yang disederhanakan ini berkaitan dengan fungsi linier; namun, beberapa fungsi nonlinier dasar juga memungkinkan pendekatan serupa.

Saat ini kami akan menyajikan sejumlah teorema tentang karakteristik numerik suatu fungsi, yang bersama-sama mewakili peralatan yang sangat sederhana untuk menghitung karakteristik ini, yang dapat diterapkan dalam berbagai kondisi.

1. Ekspektasi matematis terhadap nilai non-acak

Sifat yang dirumuskan cukup jelas; hal ini dapat dibuktikan dengan menganggap suatu variabel non-acak sebagai jenis acak khusus, dengan satu nilai yang mungkin dengan probabilitas satu; maka menurut rumus umum ekspektasi matematis:

.

2. Varians suatu besaran yang tidak acak

Jika merupakan nilai non-acak, maka

3. Mengganti nilai non-acak dengan tanda ekspektasi matematis

, (10.2.1)

artinya, nilai non-acak dapat diambil sebagai tanda ekspektasi matematis.

Bukti.

a) Untuk jumlah yang terputus-putus

b) Untuk besaran kontinyu

.

4. Mengganti tanda dispersi dan deviasi standar dengan nilai non-acak

Jika merupakan besaran yang tidak acak, dan acak, maka

, (10.2.2)

artinya, nilai non-acak dapat dikeluarkan dari tanda dispersi dengan mengkuadratkannya.

Bukti. Menurut definisi varians

Konsekuensi

,

artinya, nilai non-acak dapat dikeluarkan dari tanda simpangan baku dengan nilai absolutnya. Kita memperoleh buktinya dengan mengambil akar kuadrat dari rumus (10.2.2) dan memperhitungkan bahwa r.s.o. - nilai positif signifikan.

5. Ekspektasi matematis terhadap jumlah variabel acak

Mari kita buktikan bahwa untuk dua variabel acak dan

yaitu ekspektasi matematis dari jumlah dua variabel acak sama dengan jumlah ekspektasi matematisnya.

Sifat ini dikenal sebagai teorema penjumlahan ekspektasi matematis.

Bukti.

a) Misalkan suatu sistem variabel acak diskontinu. Mari kita terapkan rumus umum (10.1.6) pada jumlah variabel acak untuk ekspektasi matematis dari fungsi dua argumen:

.

Ho mewakili tidak lebih dari probabilitas total bahwa kuantitas tersebut akan bernilai :

;

karena itu,

.

Kami juga akan membuktikannya

,

dan teorema tersebut terbukti.

b) Misalkan suatu sistem variabel acak kontinu. Menurut rumus (10.1.7)

. (10.2.4)

Mari kita ubah integral pertama (10.2.4):

;

demikian pula

,

dan teorema tersebut terbukti.

Perlu dicatat secara khusus bahwa teorema penjumlahan ekspektasi matematis berlaku untuk semua variabel acak - baik dependen maupun independen.

Teorema untuk menjumlahkan ekspektasi matematis digeneralisasikan ke sejumlah suku yang berubah-ubah:

, (10.2.5)

yaitu ekspektasi matematis dari jumlah beberapa variabel acak sama dengan jumlah ekspektasi matematisnya.

Untuk membuktikannya cukup menggunakan metode induksi lengkap.

6. Ekspektasi matematis fungsi linear

Pertimbangkan fungsi linier dari beberapa argumen acak:

di mana adalah koefisien non-acak. Mari kita buktikan itu

, (10.2.6)

yaitu ekspektasi matematis dari suatu fungsi linier sama dengan fungsi linier yang sama dari ekspektasi matematis argumennya.

Bukti. Menggunakan teorema penjumlahan m.o. dan aturan menempatkan besaran non-acak di luar tanda m.o., kita memperoleh:

.

7. Tampilanhaljumlah variabel acak ini

Varians dari jumlah dua variabel acak sama dengan jumlah variansnya ditambah dua kali momen korelasi:

Bukti. Mari kita tunjukkan

Menurut teorema penjumlahan ekspektasi matematis

Mari beralih dari variabel acak ke variabel terpusat yang sesuai. Mengurangi persamaan (10.2.9) suku demi suku dari persamaan (10.2.8), kita mendapatkan:

Menurut definisi varians

Q.E.D.

Rumus (10.2.7) untuk varians suatu jumlah dapat digeneralisasikan ke sejumlah suku berapa pun:

, (10.2.10)

dimana adalah momen korelasi besaran, tanda di bawah penjumlahan berarti penjumlahan berlaku untuk semua kemungkinan kombinasi berpasangan variabel acak .

Pembuktiannya mirip dengan yang sebelumnya dan mengikuti rumus kuadrat polinomial.

Rumus (10.2.10) dapat ditulis dalam bentuk lain:

, (10.2.11)

dimana jumlah ganda meluas ke semua elemen matriks korelasi sistem besaran , berisi momen korelasi dan varians.

Jika semua variabel acak , termasuk dalam sistem, tidak berkorelasi (yaitu kapan ), rumus (10.2.10) berbentuk:

, (10.2.12)

yaitu, varians dari jumlah variabel acak yang tidak berkorelasi sama dengan jumlah varians dari suku-suku tersebut.

Posisi ini dikenal sebagai teorema penjumlahan varians.

8. Varians suatu fungsi linier

Mari kita perhatikan fungsi linier dari beberapa variabel acak.

dimana adalah besaran non-acak.

Mari kita buktikan bahwa dispersi fungsi linier ini dinyatakan dengan rumus

, (10.2.13)

dimana adalah momen korelasi besaran , .

Bukti. Mari kita perkenalkan notasinya:

. (10.2.14)

Menerapkan rumus (10.2.10) untuk dispersi jumlah ke ruas kanan ekspresi (10.2.14) dan dengan memperhitungkan bahwa , kita memperoleh:

dimana momen korelasi besaran:

.

Mari kita hitung momen ini. Kita punya:

;

demikian pula

Mengganti ekspresi ini ke (10.2.15), kita sampai pada rumus (10.2.13).

Dalam kasus khusus ketika semua kuantitas tidak berkorelasi, rumus (10.2.13) berbentuk:

, (10.2.16)

yaitu, varians fungsi linier dari variabel acak yang tidak berkorelasi sama dengan jumlah produk kuadrat koefisien dan varians dari argumen yang bersesuaian.

9. Ekspektasi matematis dari suatu produk variabel acak

Ekspektasi matematis dari hasil kali dua variabel acak sama dengan hasil kali ekspektasi matematisnya ditambah momen korelasi:

Bukti. Kita akan melanjutkan dari definisi momen korelasi:

Mari kita ubah ekspresi ini menggunakan properti ekspektasi matematis:

yang jelas setara dengan rumus (10.2.17).

Jika variabel acak tidak berkorelasi, maka rumus (10.2.17) berbentuk:

artinya, ekspektasi matematis dari hasil kali dua variabel acak yang tidak berkorelasi sama dengan hasil kali ekspektasi matematisnya.

Ketentuan ini dikenal dengan teorema perkalian ekspektasi matematis.

Rumus (10.2.17) tidak lebih dari ekspresi momen pusat campuran kedua dari sistem melalui momen awal campuran kedua dan ekspektasi matematis:

. (10.2.19)

Ungkapan ini sering digunakan dalam praktik ketika menghitung momen korelasi dengan cara yang sama seperti untuk satu variabel acak, variansnya sering dihitung melalui momen awal kedua dan ekspektasi matematis.

Teorema perkalian ekspektasi matematis digeneralisasikan ke sejumlah faktor yang berubah-ubah, hanya dalam hal ini, untuk penerapannya, tidak cukup besaran-besaran yang tidak berkorelasi, tetapi diperlukan beberapa momen campuran yang lebih tinggi, yang jumlahnya tergantung pada jumlah istilah dalam produk, lenyap. Kondisi ini tentu terpenuhi jika variabel acak yang dimasukkan dalam produk adalah independen. Pada kasus ini

, (10.2.20)

yaitu, ekspektasi matematis dari produk variabel acak independen sama dengan produk ekspektasi matematisnya.

Proposisi ini dapat dengan mudah dibuktikan dengan induksi lengkap.

10. Varians hasil kali variabel acak bebas

Mari kita buktikan untuk besaran bebas

Bukti. Mari kita nyatakan . Menurut definisi varians

Karena besarannya tidak bergantung pada, dan

Jika tidak bergantung, besarannya juga tidak bergantung; karena itu,

,

Tetapi tidak ada yang lain selain momen besaran awal kedua, dan oleh karena itu, dinyatakan melalui dispersi:

;

demikian pula

.

Mengganti ekspresi ini ke dalam rumus (10.2.22) dan membawa suku-suku serupa, kita sampai pada rumus (10.2.21).

Dalam kasus ketika variabel acak terpusat (variabel dengan ekspektasi matematis sama dengan nol) dikalikan, rumus (10.2.21) berbentuk:

, (10.2.23)

yaitu, varians hasil kali variabel acak terpusat independen sama dengan hasil kali variansnya.

11. Momen tertinggi dari jumlah variabel acak

Dalam beberapa kasus, perlu untuk menghitung momen tertinggi dari jumlah variabel acak independen. Mari kita buktikan beberapa hubungan terkait.

1) Jika besaran-besaran tersebut bebas, maka

Bukti.

dari mana, menurut teorema perkalian ekspektasi matematika

Namun momen sentral pertama untuk besaran apa pun adalah nol; kedua suku tengahnya hilang, dan rumus (10.2.24) terbukti.

Relasi (10.2.24) mudah digeneralisasikan dengan induksi ke sejumlah suku independen:

. (10.2.25)

2) Momen sentral keempat dari penjumlahan dua peubah acak bebas dinyatakan dengan rumus

di mana varian besarannya dan .

Buktinya sangat mirip dengan yang sebelumnya.

Dengan menggunakan metode induksi lengkap, mudah untuk membuktikan generalisasi rumus (10.2.26) ke sejumlah suku independen yang berubah-ubah.

Rentang variasi (atau rentang variasi) - inilah selisih antara nilai maksimum dan minimum suatu karakteristik:

Dalam contoh kita, kisaran variasi output shift pekerja adalah: pada brigade pertama R = 105-95 = 10 anak, pada brigade kedua R = 125-75 = 50 anak. (5 kali lebih banyak). Hal ini menunjukkan bahwa keluaran brigade pertama lebih “stabil”, namun brigade kedua mempunyai lebih banyak cadangan untuk meningkatkan keluaran, karena Jika seluruh pekerja mencapai output maksimal untuk brigade ini, maka dapat menghasilkan 3 * 125 = 375 suku cadang, dan pada brigade 1 hanya 105 * 3 = 315 suku cadang.
Jika nilai ekstrim suatu karakteristik tidak khas untuk suatu populasi, maka digunakan rentang kuartil atau desil. Rentang kuartil RQ= Q3-Q1 mencakup 50% volume penduduk, rentang desil pertama RD1 = D9-D1 mencakup 80% data, rentang desil kedua RD2= D8-D2 – 60%.
Kerugian dari indikator rentang variasi adalah nilainya tidak mencerminkan semua fluktuasi sifat.
Indikator umum paling sederhana yang mencerminkan semua fluktuasi suatu karakteristik adalah rata-rata deviasi linier , yang merupakan rata-rata aritmatika dari deviasi absolut masing-masing opsi dari nilai rata-ratanya:

,
untuk data yang dikelompokkan
,
dimana xi adalah nilai atribut dalam deret diskrit atau titik tengah interval dalam distribusi interval.
Dalam rumus di atas, selisih pembilangnya diambil modulo, jika tidak, menurut sifat mean aritmatika, pembilangnya akan selalu sama dengan nol. Oleh karena itu, deviasi linier rata-rata jarang digunakan dalam praktik statistik, hanya dalam kasus di mana penjumlahan indikator tanpa memperhitungkan tanda masuk akal secara ekonomi. Dengan bantuannya, misalnya, komposisi tenaga kerja, profitabilitas produksi, dan perputaran perdagangan luar negeri dianalisis.
Varians sifat adalah kuadrat rata-rata deviasi dari nilai rata-ratanya:
varians sederhana
,
varians tertimbang
.
Rumus penghitungan varians dapat disederhanakan:

Jadi, variansnya sama dengan selisih antara rata-rata kuadrat pilihan dan kuadrat rata-rata pilihan populasi:
.
Namun karena penjumlahan deviasi kuadrat, varians memberikan gambaran deviasi yang menyimpang, sehingga rata-rata dihitung berdasarkan deviasi tersebut. deviasi standar , yang menunjukkan seberapa besar rata-rata varian tertentu dari suatu sifat menyimpang dari nilai rata-ratanya. Dihitung dengan mengambil akar kuadrat dari varians:
untuk data yang tidak dikelompokkan
,
untuk seri variasi

Bagaimana nilainya lebih sedikit varians dan deviasi standar, semakin homogen populasinya, rata-ratanya akan semakin dapat diandalkan (tipikal).
Rata-rata linier dan rata-rata deviasi standar- bilangan-bilangan yang diberi nama, yaitu dinyatakan dalam satuan pengukuran suatu sifat, identik isinya dan mempunyai arti yang dekat.
Menghitung indikator absolut variasi disarankan menggunakan tabel.
Tabel 3 - Perhitungan karakteristik variasi (menggunakan contoh periode data keluaran shift pekerja awak kapal)


Jumlah pekerja

Pertengahan interval

Nilai yang dihitung

Total:

Output shift rata-rata pekerja:

Deviasi linier rata-rata:

Varians produksi:

Standar deviasi output masing-masing pekerja dari output rata-rata:
.

1 Perhitungan dispersi menggunakan metode momen

Menghitung varians melibatkan penghitungan yang rumit (terutama jika nilai rata-rata dinyatakan jumlah yang besar dengan beberapa tempat desimal). Perhitungan dapat disederhanakan dengan menggunakan rumus sederhana dan sifat dispersi.
Dispersi mempunyai sifat sebagai berikut:

  1. Jika semua nilai suatu karakteristik dikurangi atau ditambah dengan nilai A yang sama, maka dispersinya tidak akan berkurang:

,

, lalu atau
Dengan menggunakan sifat-sifat dispersi dan terlebih dahulu mereduksi semua varian populasi dengan nilai A, kemudian membaginya dengan nilai interval h, kita memperoleh rumus untuk menghitung dispersi dalam deret variasi dengan interval yang sama. cara momen:
,
dimana dispersi dihitung dengan menggunakan metode momen;
h – nilai interval deret variasi;
– opsi nilai baru (yang diubah);
A adalah nilai konstanta yang digunakan sebagai titik tengah interval dengan frekuensi tertinggi; atau opsi dengan frekuensi tertinggi;
– kuadrat momen orde pertama;
– momen orde kedua.
Mari kita menghitung dispersi menggunakan metode momen berdasarkan data keluaran shift pekerja tim.
Tabel 4 - Perhitungan varians menggunakan metode momen


Kelompok pekerja produksi, pcs.

Jumlah pekerja

Pertengahan interval

Nilai yang dihitung

Prosedur perhitungan:


  1. Kami menghitung variansnya:

2 Perhitungan varians suatu karakteristik alternatif

Di antara ciri-ciri yang dipelajari statistik, ada juga yang hanya mempunyai dua makna yang saling eksklusif. Ini adalah tanda-tanda alternatif. Masing-masing diberikan dua nilai kuantitatif: pilihan 1 dan 0. Frekuensi pilihan 1, yang dilambangkan dengan p, adalah proporsi unit yang memiliki karakteristik ini. Selisih 1-р=q adalah frekuensi pilihan 0. Jadi,


xi

Rata-rata aritmatika dari tanda alternatif
, karena p+q=1.

Varians sifat alternatif
, Karena 1-p=q
Jadi, varians suatu karakteristik alternatif sama dengan hasil kali proporsi unit yang memiliki karakteristik tersebut dan proporsi unit yang tidak memiliki karakteristik tersebut.
Jika nilai 1 dan 0 sering muncul sama, yaitu p=q, maka varians mencapai maksimum pq=0,25.
Varians atribut alternatif digunakan dalam survei sampel, misalnya kualitas produk.

3 Varians antar kelompok. Aturan penjumlahan varians

Dispersi, tidak seperti karakteristik variasi lainnya, merupakan besaran tambahan. Artinya secara agregat yang dibagi menjadi beberapa kelompok menurut karakteristik faktornya X , varians dari karakteristik yang dihasilkan kamu dapat diuraikan menjadi varians dalam setiap kelompok (dalam kelompok) dan varians antar kelompok (antar kelompok). Kemudian, bersamaan dengan mempelajari variasi suatu sifat di seluruh populasi secara keseluruhan, variasi di setiap kelompok, serta di antara kelompok-kelompok tersebut, juga dapat dipelajari.

Varians total mengukur variasi suatu sifat pada secara keseluruhan dipengaruhi oleh semua faktor yang menyebabkan variasi (penyimpangan) tersebut. Ini sama dengan deviasi kuadrat rata-rata dari nilai individual atribut pada dari rata-rata keseluruhan dan dapat dihitung sebagai varian sederhana atau tertimbang.
Varians antarkelompok mencirikan variasi sifat yang dihasilkan pada disebabkan oleh pengaruh tanda-faktor tersebut X, yang menjadi dasar pengelompokan. Ini mencirikan variasi rata-rata kelompok dan sama dengan kuadrat rata-rata deviasi rata-rata kelompok dari rata-rata keseluruhan:
,
dimana mean aritmatika dari kelompok ke-i;
– jumlah unit pada kelompok ke-i (frekuensi kelompok ke-i);
– rata-rata keseluruhan populasi.
Varians dalam kelompok mencerminkan variasi acak, yaitu bagian variasi yang disebabkan oleh pengaruh faktor-faktor yang tidak terhitung dan tidak bergantung pada atribut-faktor yang menjadi dasar pengelompokannya. Ini mencirikan variasi nilai individu relatif terhadap rata-rata kelompok dan sama dengan deviasi kuadrat rata-rata dari nilai individu atribut pada dalam suatu kelompok dari rata-rata aritmatika kelompok ini (rata-rata kelompok) dan dihitung sebagai varians sederhana atau tertimbang untuk setiap kelompok:
atau ,
di mana adalah jumlah unit dalam grup.
Berdasarkan varians dalam kelompok untuk setiap kelompok, seseorang dapat menentukan rata-rata keseluruhan varians dalam kelompok:
.
Hubungan antara ketiga dispersi tersebut disebut aturan untuk menambahkan varians, yang menyatakan varians total sama dengan jumlah varians antarkelompok dan rata-rata varians dalam kelompok:

Contoh. Ketika mempelajari pengaruh kategori tarif (kualifikasi) pekerja terhadap tingkat produktivitas tenaga kerjanya, diperoleh data sebagai berikut.
Tabel 5 – Distribusi pekerja berdasarkan output rata-rata per jam.



hal/hal

Pekerja kategori 4

Pekerja kategori 5

Keluaran
pekerja, buah.,

Keluaran
pekerja, buah.,

1
2
3
4
5
6

7
9
9
10
12
13

7-10=-3
9-10=-1
-1
0
2
3

9
1
1
0
4
9

1
2
3
4

14
14
15
17

14-15=-1
-1
0
2

1
1
0
4

DI DALAM dalam contoh ini pekerja dibagi menjadi dua kelompok menurut karakteristik faktornya X– kualifikasi, yang dicirikan oleh peringkatnya. Sifat yang dihasilkan—produksi—bervariasi baik karena pengaruhnya (variasi antarkelompok) maupun karena faktor acak lainnya (variasi intrakelompok). Tujuannya adalah untuk mengukur variasi ini menggunakan tiga varian: total, antar kelompok, dan dalam kelompok. Koefisien determinasi empiris menunjukkan proporsi variasi karakteristik yang dihasilkan pada di bawah pengaruh tanda faktor X. Sisanya variasi total pada disebabkan oleh perubahan faktor lain.
Pada contoh, koefisien determinasi empiris adalah:
atau 66,7%,
Artinya, 66,7% variasi produktivitas pekerja disebabkan oleh perbedaan kualifikasi, dan 33,3% disebabkan oleh pengaruh faktor lain.
Hubungan korelasi empiris menunjukkan hubungan erat antara pengelompokan dan karakteristik kinerja. Dihitung sebagai akar kuadrat dari koefisien determinasi empiris:

Rasio korelasi empiris, seperti , dapat mengambil nilai dari 0 hingga 1.
Jika tidak ada koneksi, maka =0. Dalam hal ini =0, artinya rata-rata kelompok sama satu sama lain dan tidak ada variasi antarkelompok. Artinya pengelompokan ciri – faktor tersebut tidak mempengaruhi terbentuknya variasi umum.
Jika koneksi berfungsi, maka =1. Dalam hal ini, varians rata-rata kelompok sama dengan varians total (), artinya tidak ada variasi dalam kelompok. Artinya pengelompokan ciri sangat menentukan variasi ciri yang dihasilkan yang diteliti.
Semakin dekat nilai rasio korelasi dengan kesatuan, maka semakin dekat pula ketergantungan fungsional hubungan antar karakteristik.
Untuk menilai secara kualitatif kedekatan hubungan antar karakteristik digunakan relasi Chaddock.

Dalam contoh , yang menunjukkan hubungan erat antara produktivitas pekerja dan kualifikasi mereka.

Selain mempelajari variasi suatu karakteristik di seluruh populasi secara keseluruhan, seringkali perlu untuk menelusuri perubahan kuantitatif dalam karakteristik di seluruh kelompok di mana populasi tersebut dibagi, serta antar kelompok. Studi variasi ini dicapai melalui perhitungan dan analisis berbagai jenis varians.
Ada varian total, antargrup dan intragrup.
Varians total σ 2 mengukur variasi suatu sifat di seluruh populasi di bawah pengaruh semua faktor yang menyebabkan variasi tersebut.

Varians antarkelompok (δ) mencirikan variasi sistematis, yaitu perbedaan nilai sifat yang dipelajari yang timbul di bawah pengaruh faktor sifat yang menjadi dasar kelompok. Itu dihitung menggunakan rumus:
.

Varians dalam kelompok (σ) mencerminkan variasi acak, yaitu bagian dari variasi yang terjadi di bawah pengaruh faktor-faktor yang tidak terhitung dan tidak bergantung pada atribut-faktor yang menjadi dasar kelompok tersebut. Itu dihitung dengan rumus:
.

Rata-rata varians dalam kelompok: .

Ada hukum yang menghubungkan 3 jenis dispersi. Varians total sama dengan jumlah rata-rata varians dalam kelompok dan varians antar kelompok: .
Rasio ini disebut aturan untuk menambahkan varians.

Indikator yang banyak digunakan dalam analisis adalah proporsi varians antar kelompok dalam total varians. Ini disebut koefisien determinasi empiris (η 2): .
Akar kuadrat dari koefisien determinasi empiris disebut rasio korelasi empiris (η):
.
Mencirikan pengaruh ciri-ciri yang menjadi dasar kelompok terhadap variasi ciri-ciri yang dihasilkan. Rasio korelasi empiris berkisar antara 0 hingga 1.
Mari kita tunjukkan penggunaan praktisnya menggunakan contoh berikut (Tabel 1).

Contoh No.1. Tabel 1 - Produktivitas tenaga kerja dua kelompok pekerja di salah satu bengkel NPO "Cyclone"

Mari kita hitung rata-rata dan varians keseluruhan dan kelompok:




Data awal untuk menghitung rata-rata varians intragrup dan antargrup disajikan pada tabel. 2.
Meja 2
Perhitungan dan δ 2 untuk dua kelompok pekerja.


Kelompok pekerja
Jumlah pekerja, orang Rata-rata, anak-anak/shift Penyebaran

Pelatihan teknis yang telah selesai

5 95 42,0

Mereka yang belum menyelesaikan pelatihan teknis

5 81 231,2

Semua pekerja

10 88 185,6
Mari kita hitung indikatornya. Rata-rata varians dalam kelompok:
.
Varians antarkelompok

Varians total:
Jadi, rasio korelasi empiris: .

Selain variasi dalam karakteristik kuantitatif, variasi dalam karakteristik kualitatif juga dapat diamati. Studi variasi ini dicapai dengan menghitung jenis varian berikut:

Penyebaran bagian dalam kelompok ditentukan oleh rumus

Di mana dan saya– jumlah unit dalam kelompok terpisah.
Bagian dari sifat yang diteliti dalam seluruh populasi, yang ditentukan dengan rumus:
Ketiga jenis varians tersebut saling berkaitan satu sama lain sebagai berikut:
.

Relasi varians ini disebut teorema penjumlahan varians bagian sifat.

Varians adalah ukuran dispersi yang menggambarkan deviasi komparatif antara nilai data dan mean. Ini adalah ukuran dispersi yang paling banyak digunakan dalam statistik, dihitung dengan menjumlahkan dan mengkuadratkan deviasi setiap nilai data dari mean. Rumus untuk menghitung varians diberikan di bawah ini:

s 2 – varians sampel;

x av—rata-rata sampel;

N ukuran sampel (jumlah nilai data),

(xi – x avg) adalah deviasi dari nilai rata-rata setiap nilai kumpulan data.

Untuk lebih memahami rumusnya, mari kita lihat sebuah contoh. Saya tidak terlalu suka memasak, jadi saya jarang melakukannya. Namun, agar tidak kelaparan, dari waktu ke waktu saya harus pergi ke kompor untuk melaksanakan rencana memenuhi tubuh saya dengan protein, lemak, dan karbohidrat. Kumpulan data di bawah ini menunjukkan berapa kali Renat memasak setiap bulannya:

Langkah pertama dalam menghitung varians adalah menentukan mean sampel, yang dalam contoh kita adalah 7,8 kali per bulan. Perhitungan selanjutnya dapat dipermudah dengan menggunakan tabel berikut.

Tahap terakhir penghitungan varians terlihat seperti ini:

Bagi mereka yang ingin melakukan semua perhitungan sekaligus, persamaannya akan terlihat seperti ini:

Menggunakan metode penghitungan mentah (contoh memasak)

ada lagi metode yang efektif perhitungan varians, yang dikenal sebagai metode "penghitungan mentah". Meskipun persamaannya mungkin tampak rumit pada pandangan pertama, sebenarnya tidak terlalu menakutkan. Anda dapat memastikannya, lalu memutuskan metode mana yang paling Anda sukai.

adalah jumlah setiap nilai data setelah dikuadratkan,

adalah kuadrat dari jumlah semua nilai data.

Jangan kehilangan akal sehatmu saat ini. Mari kita masukkan semuanya ke dalam tabel dan Anda akan melihat bahwa perhitungan yang dilakukan lebih sedikit dibandingkan contoh sebelumnya.

Seperti yang Anda lihat, hasilnya sama seperti saat menggunakan cara sebelumnya. Keuntungan metode ini menjadi jelas ketika ukuran sampel (n) meningkat.

Perhitungan varians di Excel

Seperti yang mungkin sudah Anda duga, Excel memiliki rumus yang memungkinkan Anda menghitung varians. Selain itu, mulai Excel 2010, Anda bisa menemukan 4 jenis rumus varians:

1) VARIANCE.V – Mengembalikan varians sampel. Nilai dan teks Boolean diabaikan.

2) DISP.G - Mengembalikan varians populasi. Nilai dan teks Boolean diabaikan.

3) VARIANCE - Mengembalikan varians sampel, dengan mempertimbangkan nilai Boolean dan teks.

4) VARIANCE - Mengembalikan varians populasi, dengan mempertimbangkan nilai logis dan teks.

Pertama, mari kita pahami perbedaan antara sampel dan populasi. Tujuan dari statistik deskriptif adalah untuk meringkas atau menampilkan data sehingga Anda dapat dengan cepat mendapatkan gambaran besarnya, atau gambaran umum. Inferensi statistik memungkinkan Anda membuat kesimpulan tentang suatu populasi berdasarkan sampel data dari populasi tersebut. Populasi mewakili semua kemungkinan hasil atau pengukuran yang menarik bagi kita. Sampel adalah sebagian dari suatu populasi.

Misalnya, kita tertarik pada sekelompok mahasiswa dari salah satu universitas Rusia dan kita perlu menentukan nilai rata-rata kelompok tersebut. Kita dapat menghitung rata-rata kinerja siswa, dan kemudian angka yang dihasilkan akan menjadi parameter, karena seluruh populasi akan dilibatkan dalam perhitungan kita. Namun jika kita ingin menghitung IPK seluruh siswa di negara kita, maka kelompok ini yang akan menjadi sampel kita.

Selisih rumus menghitung varians antara sampel dan populasi adalah penyebutnya. Dimana untuk sampel akan sama dengan (n-1), dan untuk populasi umum hanya n.

Sekarang mari kita lihat fungsi menghitung varians dengan akhiran A, uraiannya menyatakan bahwa teks dan nilai logika diperhitungkan dalam perhitungan. Dalam hal ini, saat menghitung varians kumpulan data tertentu di mana nilai non-numerik muncul, Excel akan menafsirkan teks dan nilai Boolean palsu sama dengan 0, dan nilai Boolean sebenarnya sama dengan 1.

Jadi, jika Anda memiliki array data, menghitung variansnya tidak akan sulit menggunakan salah satu fungsi Excel yang tercantum di atas.



Publikasi terkait