Histogram, Manfaat dan Kegunaannya

Gambar Class-stratified histogram petal length di dataset Iris
 

Pada bidang statistik, histogram adalah tampilan grafis dari tabulasi frekuensi yang digambarkan dengan grafis batangan sebagai manifestasi data binning. Tiap tampilan batang menunjukkan proporsi frekuensi pada masing-masing deret kategori yang berdampingan dengan interval yang tidak tumpang tindih.

Histogram dapat dipahami dengan tampilan bentuk grafis untuk menunjukkan distribusi data secara visual atau seberapa sering suatu nilai yang berbeda itu terjadi dalam suatu kumpulan data. Histogram juga merupakan salah satu alat dari 7 alat pengendalian kualitas (QC 7 Tools yaitu Diagram Pareto (Pareto chart), check sheet, diagram kontrol (control chart), Diagram ishikawa (cause-and-effect diagram), Diagram alir (flowchart), dan scatter diagram). 

Histogram juga dapat diartikan sebagai salah satu teknik visualisasi paling dasar untuk memahami frekuensi kemunculan nilai. Histogram menunjukkan distribusi data dengan memplot frekuensi kejadian dalam suatu rentang.

Dalam histogram, atribut inkuiri ditampilkan pada sumbu horizontal dan frekuensi kemunculannya pada sumbu vertikal. Untuk tipe data numerik kontinu, rentang atau nilai binning untuk mengelompokkan rentang nilai perlu ditentukan. Misalnya, dalam kasus tinggi manusia dalam sentimeter, semua kejadian antara 152,00 dan 152,99 dikelompokkan dalam 152. Tidak ada jumlah optimal bin atau lebar bin yang berfungsi untuk semua distribusi. Jika lebar bin terlalu kecil, distribusi menjadi lebih tepat tetapi mengungkapkan noise karena pengambilan sampel. Aturan umumnya adalah memiliki jumlah bin yang sama dengan akar kuadrat atau akar pangkat tiga dari jumlah titik data.

Kata histogram berasal dari bahasa Yunani: histos, dan gramma. Pertama kali digunakan oleh Karl Pearson pada tahun 1895 untuk memetakan distribusi frekuensi dengan luasan area grafis batangan menunjukkan proporsi banyak frekuensi yang terjadi pada tiap kategori.

Manfaat dari penggunaan Histogram adalah untuk memberikan informasi mengenai variasi dalam proses dan membantu manajemen dalam membuat keputusan dalam upaya peningkatan proses yang berkesimbungan (Continous Process Improvement). Selain itu kegunaan Histogram juga untuk mencari lokasi pusat, jangkauan, dan bentuk sebaran.

Gambar Histogram petal length di dataset Iris


Dalam kasus atribut petal width dalam dataset Iris diatas, datanya adalah multimodal, dimana distribusinya tidak mengikuti pola kurva lonceng. Sebaliknya, ada dua puncak distribusi. Hal ini disebabkan oleh fakta bahwa terdapat 150 observasi dari tiga spesies berbeda (karenanya, distribusi) dalam dataset.

Histogram dapat dikelompokkan untuk memasukkan kelas yang berbeda untuk mendapatkan lebih banyak wawasan. Histogram yang disempurnakan dengan label kelas menunjukkan dataset dibuat dari tiga distribusi berbeda. Distribusi I. setosa menonjol dengan rata-rata sekitar 1,25 cm dan berkisar antara 1 2 cm. Distribusi I. versicolor dan I. virginica tumpang tindih dengan I. setosa memiliki cara terpisah.

Sekian.

0 Komentar