Statistika Deskriptif
Statistik adalah sekumpulan prosedur untuk
mengumpulkan, mengukur, mengklasifikasi, menghitung, menjelaskan,
mensintesis, menganalisis, dan menafsirkan data kuantitatif yang
diperoleh secara sistematis. Secara garis besar, statistik dibagi
menjadi dua komponen utama, yaitu
Statistik Deskriptif dan
Statistik inferensial.
Statistik deskriptif menggunakan prosedur numerik dan grafis dalam meringkas gugus data dengan cara yang jelas dan dapat dimengerti, sementara
Statistik inferensial
menyediakan prosedur untuk menarik kesimpulan tentang populasi
berdasarkan sampel yang kita amati. Statistik Deskriptif membantu kita
untuk menyederhanakan data dalam jumlah besar dengan cara yang logis.
Data yang banyak direduksi dan diringkas sehingga lebih sederhana dan
lebih mudah diinterpretasi.
Terdapat
dua metode dasar dalam statistik deskriptif, yaitu
numerik dan
grafis.
- Pendekatan numerik dapat digunakan untuk menghitung nilai statistik dari sekumpulan data, seperti mean dan standar deviasi. Statistik ini memberikan informasi tentang rata-rata dan informasi rinci tentang distribusi data.
- Metode grafis lebih sesuai daripada metode numerik
untuk mengidentifikasi pola-pola tertentu dalam data, dilain pihak,
pendekatan numerik lebih tepat dan objektif. Dengan demikian,
pendekatan numerik dan grafis satu sama lain saling melengkapi, sehingga
sangatlah bijaksana apabila kita menggunakan kedua metode tersebut
secara bersamaan.
Terdapat tiga karakteristik utama dari variabel tunggal:
- Distribusi data (distribusi frekuensi)
- Ukuran pemusatan/tendensi sentral (Central Tendency)
- Ukuran penyebaran (Dispersion)
Info: Bahasan selengkapnya akan diuraikan pada topik tersendiri…
Distribusi Data
Pengaturan, penyusunan, dan peringkasan data dengan membuat tabel
seringkali membantu, terutama pada saat kita bekerja dengan sejumlah
data yang besar. Tabel tersebut berisi daftar nilai data yang mungkin
berbeda (baik data tunggal ataupun data yang sudah
dikelompok-kelompokan) beserta nilai frekuensinya. Frekuensi
menunjukkan banyaknya kejadian/kemunculan nilai data dengan kategori
tertentu. Distribusi data yang sudah diatur tersebut sering disebut
dengan
distribusi frekuensi. Dengan demikian,
Distribusi frekuensi didefinisikan sebagai daftar sebaran data (baik
data tunggal maupun data kelompok), yang disertai dengan nilai
frekuensinya. Data dikelompokkan ke dalam beberapa kelas sehingga
ciri-ciri penting data tersebut dapat segera terlihat.
Distribusi frekuensi yang paling sederhana adalah distribusi yang
menampilkan daftar setiap nilai dari variabel yang disertai dengan nilai
frekuensinya.
Distribusi frekuensi dapat digambarkan dalam dua cara, yaitu sebagai
tabel atau sebagai
grafik.
Distribusi juga dapat ditampilkan dengan menggunakan nilai persentase.
Penyajian distribusi dalam bentuk grafik lebih mempermudah dalam
melihat karakteristik dan kecenderungan tertentu dari sekumpulan data.
Grafik data kuantitatif meliputi Histogram, Poligon Frekuensi dll,
sedangkan grafik untuk data kualitatif meliputi Bar Chart, Pie Chart
dll.
Distribusi frekuensi akan memudahkan kita dalam melihat pola dalam
data, namun demikian, kita akan kehilangan informasi dari nilai
individunya.
Bentuk Distribusi
Aspek penting dari “deskripsi” suatu variabel adalah bentuk
distribusinya, yang menunjukkan frekuensi dari berbagai selang nilai
variabel. Biasanya, seorang peneliti yang tertarik pada seberapa baik
distribusi dapat diperkirakan oleh distribusi normal. Statistik
deskriptif sederhana dapat memberikan beberapa informasi yang relevan
dengan masalah ini. Sebagai contoh, jika skewness (kemiringan), yang
mengukur kesimetrisan distribusi data, tidak sama dengan 0, maka
distribusi dikatakan tidak simetris (
a simetris), dan apabila
skewness bernilai 0 berarti data tersebut berdistribusi normal
(simetris). Jika kurtosis (keruncingan), yang mengukur keruncingan
distribusi data, tidak sama dengan 0, maka distribusi data mungkin lebih
datar atau lebih runcing dibandingkan dengan distribusi normal. Nilai
kurtosis dari distribusi normal adalah 0.
Informasi yang lebih akurat dapat diperoleh dengan menggunakan salah
satu uji normalitas yaitu untuk menentukan peluang apakah sampel berasal
dari pengamatan populasi yang berdistribusi normal ataukah tidak
(misalnya, uji Kolmogorov-Smirnov, atau uji Shapiro-Wilks’W) . Namun, di
antara uji formal tersebut tidak ada satu pun yang dapat sepenuhnya
menggantikan pemeriksaan data secara visual dengan menggunakan cara
grafis, seperti histogram (grafik yang menunjukkan distribusi frekuensi
dari variabel).
Grafik (Histogram, misalnya) memungkinkan kita untuk mengevaluasi
normalitas dari distribusi empiris karena pada histogram tersebut
disertakan juga overlay kurva normalnya. Hal ini juga memungkinkan kita
untuk memeriksa berbagai aspek dari bentuk distribusi data secara
kualitatif. Sebagai contoh, distribusi dapat bimodal (memiliki 2
puncak) ataupun multimodal (lebih dari 2 puncak). Hal ini menunjukkan
bahwa sampel tidak homogen dan unsur-unsurnya berasal dari dua populasi
yang berbeda.
Ukuran Pemusatan (Central Tendency)
Salah satu aspek yang paling penting untuk menggambarkan distribusi
data adalah nilai pusat pengamatan. Setiap pengukuran aritmatika yang
ditujukan untuk menggambarkan suatu nilai yang mewakili nilai pusat atau
nilai sentral dari suatu gugus data (himpunan pengamatan) dikenal
sebagai
ukuran tendensi sentral.
Terdapat tiga jenis ukuran tendensi sentral yang sering digunakan, yaitu:
Rata-rata hitung atau
arithmetic mean atau sering disebut dengan istilah
mean
saja merupakan metode yang paling banyak digunakan untuk menggambarkan
ukuran tendensi sentral. Mean dihitung dengan menjumlahkan semua nilai
data pengamatan kemudian dibagi dengan banyaknya data.
Mean dipengaruhi oleh nilai ekstrem.
Median adalah nilai yang membagi himpunan pengamatan
menjadi dua bagian yang sama besar, 50% dari pengamatan terletak di
bawah median dan 50% lagi terletak di atas median.
Median dari
n pengukuran atau pengamatan x
1, x
2 ,…, x
n adalah nilai pengamatan yang terletak di tengah gugus data setelah data tersebut diurutkan. Apabila banyaknya pengamatan (
n) ganjil, median terletak tepat ditengah gugus data, sedangkan bila
n genap, median diperoleh dengan cara interpolasi yaitu rata-rata dari dua data yang berada di tengah gugus data.
Median tidak dipengaruhi oleh nilai ekstrem.
Mode adalah data yang paling sering muncul/terjadi.
Untuk menentukan modus, pertama susun data dalam urutan meningkat atau
sebaliknya, kemudian hitung frekuensinya. Nilai yang frekuensinya
paling besar (sering muncul) adalah modus. Modus digunakan baik untuk
tipe data numerik atau pun data kategoris.
Modus tidak dipengaruhi oleh nilai ekstrem.
Karakteristik penting untuk ukuran pusat yang baik
Ukuran nilai pusat (average) merupakan nilai pewakil dari suatu distribusi data, sehingga harus memiliki sifat-sifat berikut:
- Harus mempertimbangkan semua gugus data
- Tidak boleh terpengaruh oleh nilai-nilai ekstrim.
- Harus stabil dari sampel ke sampel.
- Harus mampu digunakan untuk analisis statistik lebih lanjut.
Dari beberapa ukuran nilai pusat, Mean hampir memenuhi semua
persyaratan tersebut, kecuali syarat pada point kedua, rata-rata
dipengaruhi oleh nilai ekstrem. Sebagai contoh, jika item adalah 2; 4;
5; 6; 6; 6; 7; 7; 8; 9 maka mean, median dan modus yang semua sama
dengan 6. Jika nilai terakhir adalah 90 bukan 9, rata-rata akan menjadi
14.10, sedangkan median dan modus yang tidak berubah. Meskipun median
dan modus lebih baik dalam hal ini, namun mereka tidak memenuhi
persyaratan lainnya. Oleh karena itu Mean merupakan ukuran nilai pusat
yang terbaik dan sering digunakan dalam analisis statistik.
Kapan kita menggunakan nilai pusat yang berbeda?
Nilai ukuran pusat yang tepat untuk digunakan tergantung pada sifat
data, sifat distribusi frekuensi dan tujuan. Jika data kualitatif,
hanya modus yang dapat digunakan. Sebagai contoh, apabila kita tertarik
untuk mengetahui jenis tanah yang khas di suatu lokasi, atau pola tanam
di suatu daerah, kita dapat menggunakan modus. Di sisi lain, jika data
bersifat kuantitatif, kita dapat menggunakan salah satu dari ukuran
nilai pusat tersebut.
Jika data bersifat kuantitatif, kita harus mempertimbangkan sifat distribusi frekuensi gugus data tersebut.
- Bila distribusi frekuensi data tidak normal (tidak simetris), median atau modus merupakan ukuran pusat yang tepat.
- Apabila terdapat nilai-nilai ekstrim, baik kecil atau besar, lebih tepat menggunakan median atau modus.
- Apabila distribusi data normal (simetris), semua ukuran nilai
pusat, baik mean, median, atau modus dapat digunakan. Namun, mean lebih
sering digunakan dibanding yang lainnya karena lebih memenuhi
persyaratan untuk ukuran pusat yang baik.
- Ketika kita berhadapan dengan laju, kecepatan dan harga lebih tepat menggunakan rata-rata harmonik.
Jika kita tertarik pada perubahan relatif, seperti dalam kasus
pertumbuhan bakteri, pembelahan sel dan sebagainya, rata-rata geometrik
adalah rata-rata yang paling tepat.
Statistika
merupakan ilmu yang mempelajari tentang cara memperoleh, mengumpulkan,
menyajikan, menganalisis, dan menarik kesimpulan dari data. Statistika
pada dasarnya berkaitan dengan penyajian dan penafsiran kejadian yang
bersifat peluang ( ketidakpastian ) yang terjadi dalam suatu
penyelidikan / pengamatan terencana ataupun penelitian ilmiah.
Metode
statistika adalah prosedur-prosedur yang digunakan dalam pengumpulan,
penyajian, analisis, dan penafsiran data. Metode statistika dibagi
menjadi 2 kelompok, yaitu statistika deskriptif dan inferensia
statistik. Statistika deskriptif adalah metode-metode yang berkaitan
dengan pengumpulan dan penyajian suatu gugus data sehingga memberikan
informasi yang berguna. Statistika deskriptif merupakan bagian dari
statistika yang berkaitan dengan cara-cara meringkas data, dalam
ukuran-ukuran tertentu, berbentuk tabel, diagram, grafik, dan
besaran-besaran lain. Statistika deskriptif ini tidak menarik kesimpulan
apapun tentang gugus data induknya yang lebih besar. Inferensia
statistik mencangkup semua metode yang berhubungan dengan analisis
sebagian data untuk kemudian sampai pada peramalan atau penarikan
kesimpulan mengenai keseluruhan gugus data induknya.
Penyelidikan segugus data kuantitatif dapat dibantu
dengan menggunakan ukuran-ukuran numerik yang menjelaskan ciri-ciri
data yang penting. Ukuran pemusatan atau ukuran lokasi pusat adalah
sembarang ukuran yang menunjukkan pusat segugus data yang telah
diurutkan dari yang terkecil sampai yang terbesar atau sebaliknya dari
yang terbesar sampai yang terkecil. Ukuran penyebaran data diperlukan
untuk mengetahui seberapa jauh suatu pengamatan menyebar dari
rata-ratanya.
Beberapa ukuran pemusatan dan penyebaran data, antara lain :
-
Mean
Mean
( nilai rata-rata dari suatu gugus data ) merupakan suatu ukuran pusat
data bila data itu diurutkan dari yang terkecil sampai yang terbesar
atau sebaliknya. Mean diperoleh dengan cara menjumlahkan semua nilai
yang ada pada suatu gugus data yang kemudian dibagi dengan banyaknya
nilai tersebut.
=
Keterangan :
= nilai rata-rata (mean)
N = jumlah seluruh data
Xi = data sampel ( x1,x2,. . .,xn)
-
Median
Median
( nilai tengah dari data yang telah diurutkan ) merupakan sekelompok
data yang telah diurutkan dari yang terkecil sampai yang terbesar adalah
nilai pengamatan yang tepat berada di tengah-tengah jika banyaknya
pengamatan itu ganjil atau rata-rata kedua nilai pengamatan yang di
tengah jika banyaknya pengamatan genap.
Me=+c
Keterangan :
Me = median
L0 = nilai batas bawah dari kelas yang memuat median
c =lebar kelas antara nilai batas bawah dan nilai batas atas dari kelas yang
memuat median
n = banyaknya observasi (= total frekuensi)
Fm0 = jumlah frekuensi dari semua kelas di bawah kelas yang memuat median
fm = frekuensi dari kelas yang memuat median
-
Modus
Modus adalah nilai yang yang paling sering muncul atau yang mempunyai frekuensi paling tinggi.
Mod=+c
Keterangan :
Mod = modus
L0 = nilai batas bawah dari kelas yang memuat modus
c = lebar kelas antara nilai batas bawah dan nilai batas atas dari kelas yang
memuat modus
f10 = selisih frekuensi kelas yang memuat modus dengan frekuensi kelas
sebelumnya
f20 =selisih frekuensi kelas yang memuat modus dengan frekuensi kelas
sesudahnya
-
Varian
Varian
adalah harga rata-rata hitung dari pangkat dua simpangan-simpangan
antara nilai-nilai pengamatan dengan harga rata-rata hitung dari
kumpulan data tersebut. Varian merupakan ukuran dari pangkat dua
simpangan.
=
Keterangan:
S = standard deviasi
n = jumlah seluruh data
Xi = nilai (xi,x2,...,xn) untuk data tunggal atau nilai tengah untuk data
berkelompok
= nilai rata-rata (mean)
-
Standard Deviasi
Standard
deviasi adalah suatu nilai yang diperoleh dengan cara menarik akar
pangkat dua dari varian atau merupakan ukuran penyimpangan sejumlah data
dari nilai rata-ratanya.
S =
Keterangan:
S = standard deviasi
n = jumlah seluruh data
Xi = nilai (xi,x2,...,xn) untuk data tunggal atau nilai tengah untuk data
berkelompok
= nilai rata-rata
-
Q1 dan Q3
Kuartil adalah nilai-nilai yang membagi segugus pengamatan menjadi 4 bagian yang sama besar. Q1 dan merupakan kuartil. Q1 adalah kuartil pertama dimana nilai Xi memiliki frekuensi kumulatif kurang dari sebesar ¼ dari jumlah data. Artinya Q1 mempunyai sifat bahwa 25% data jatuh di bawah Q1. Sedangkan Q3 adalah kuartil ketiga dimana nilai Xi memiliki frekuensi kumulatif kurang dari ¾ dari jumlah data. Artinya Q3 mempunyai sifat bahwa 75% data jatuh di bawah Q3.
Rumus Q1 :
Q1 = L0+c
Rumus Q3 :
Q3 = Lo+ c
Keterangan :
L0 = nilai batas bawah dari kelas yang memuat kuartil ke‐i
c = lebar kelas antara nilai batas bawah dan nilai batas atas dari kelas yang
memuat kuartil ke-i
n = banyaknya observasi (= total frekuensi)
Fq0 = jumlah frekuensi dari semua kelas di bawah kelas yang memuat kuartil
ke-i
fq = frekuensi dari kelas yang memuat kuartil ke‐i
-
Nilai Minimum
Nilai minimum adalah nilai terkecil pada suatu gugus data.
-
Nilai Maksimum
Nilai maksimum adalah nilai terbesar / tertinggi pada suatu gugus data.
-
Range
Range
adalah selisih antara nilai terbesar ( nilai maksimum ) dengan nilai
terkecil ( nilai minimum ) pada suatu gugus data. Range bukan merupakan
ukuran penyebaran data yang baik karena ukuran ini hanya memperhatikan
kedua nilai ekstrem dan tidak mengatakan apa-apa mengenai sebaran
bilangan-bilangan yang ada diantara kedua nilai ekstrem tersebut.
Range = Nilai Maksimum – Nilai Minimum