“Severity Ratings”
Review Journal : The Relationship Between Problem Frequency and Problem Severity in Usability Evaluations
J Sauro, Journal of Usability Studies
Sering terjadi, usability testing justru menghasilkan lebih banyak permasalahan yang tidak tertangani oleh tim pengembang. Untuk memprioritaskan masalah mana yang perlu diperbaiki pengembang, para ahli UX harus menjelaskan dua “elemen penting tapi terpisah” yang ditemui para peserta usability testing. Apakah “elemen penting tapi terpisah itu?”, yaitu frekuensi masalah dan tingkat keparahan. Misalnya, bisa jadi 1 dari 10 peserta memiliki masalah dengan situs web keuangan yang secara tidak sengaja memposting informasi pribadinya untuk dilihat semua orang (frekuensi rendah dan tingkat keparahan tinggi). Atau 9 dari 10 peserta dalam studi yang sama mungkin agak jengkel karena harus membatalkan pilihan untuk menerima komunikasi pemasaran dari perusahaan keuangan (frekuensi tinggi dan tingkat keparahan rendah).
Mengukur frekuensi suatu masalah pada umumnya mudah. Jumlah peserta dalam tes kegunaan yang menemui masalah dibagi dengan jumlah total peserta, menghasilkan proporsi yang mengalami masalah. Misalnya, jika 1 dari 5 peserta mengalami masalah, frekuensi masalahnya adalah, 20 atau 20%. Dibandingkan dengan frekuensi, penilaian tingkat keparahan masalah kurang objektif daripada menemukan frekuensi masalah. Pertama, ada sejumlah cara untuk menetapkan peringkat keparahan dan cenderung ada ketidaksepakatan antara evaluator ketika menetapkan keparahan (Nielsen, 1993). Meskipun ada sejumlah sistem peringkat keparahan yang berbeda yang diusulkan selama beberapa dekade terakhir, secara umum, masing-masing metode mengusulkan struktur yang serupa: seperangkat kategori yang dipesan yang mencerminkan dampak yang dirasakan masalah pada pengguna, dari kecil ke besar (Hertzum , 2006).
Lewis (2012) membuat perbedaan antara penilaian yang didorong dari jugdment dan data untuk tingkat keparahan. Peringkat yang didorong dari judgment bergantung pada para pemangku kepentingan penelitian untuk menentukan seberapa besar dampak masalah kegunaan. Sedangkan peringkat yang didorong berdasarkan data menggunakan kriteria seperti kemudahan koreksi, kemungkinan penggunaan, dan dampak pada penyelesaian tugas (Hassenzahl, 2000). Sebagai contoh, Nielsen (1993) mengusulkan skala 5 poin dari “kosmetik” (1) ke “bencana” (4) dengan nol (0) yang menunjukkan tidak ada masalah kegunaan. Rubin dan Chisnell (2008) mengusulkan skala 4 poin dari “tidak dapat digunakan” (poin 4) menjadi menjengkelkan (1). Dumas dan Redish (1999) juga mengusulkan skala 4 poin dari “masalah halus” (4) ke “masalah yang lebih besar yang mencegah penyelesaian tugas” (1). Dua pendekatan terakhir adalah contoh-contoh prioritas yang didorong oleh data.
Makalah ini menganalisis sembilan studi dan menunjukkan tidak ada korelasi antara frekuensi masalah dan tingkat keparahan masalah dalam set masalah usability. Dengan sedikit bukti yang mendukung korelasi, itu menunjukkan beberapa pengguna pertama tidak lebih mungkin untuk mengungkap masalah yang lebih parah — bertentangan dengan salah satu temuan Virzi (1992) dan mendukung temuan Lewis (1994). Analisis ini tidak bertentangan dengan temuan penting lain dari Virzi dan Lewis – bahwa beberapa pengguna pertama cenderung mengungkap masalah yang paling sering terjadi – tetapi menyarankan praktisi masih dapat menggunakan ukuran sampel kecil untuk mengidentifikasi masalah kegunaan yang lebih umum. Para praktisi mungkin dapat melihat korelasi yang tinggi pada frekuensi masalah dan tingkat keparahan dalam banyak studi, tetapi mereka juga cenderung tidak melihat korelasi pada persoalan usability. Satu-satunya strategi yang aman bagi seorang praktisi adalah mengasumsikan bahwa satu-satunya pendorong penemuan adalah asumsi “bahwa masalah berdampak tinggi akan selalu memiliki frekuensi tinggi”.
Yogyakarta, 14 Maret 2019