Saya beberapa kali melihat di sosial media ada orang melakukan analisis terhadap suatu isu publik dengan melakukan scraping ratusan ribu data di sosial media. Utamanya dari data komentar-komentar dari postingan yang membahas isu publik tersebut.
Hasil dari analisis tersebut kurang lebih disampaikan begini:
Dari ratusan ribu data komentar netizen di platform A, B, C, diketahui bahwa sentimen publik terhadap isu ini adalah 72% cenderung negatif, 23% positif, 5% netral, dengan keyword yang paling banyak diucapkan adalah X.
Sekilas, analisis seperti ini terlihat keren dan meyakinkan. Karena yang diolah adalah data. Data yang berasal dari komentar-komentar netizen yang jumlahnya mencapai ratusan ribu data.
Tapi tentu saja, analisis tersebut keliru.
Kenapa?
Karena analisis tersebut belum melakukan normalisasi data dari noise atau data pengganggu.
Apakah semua komentar tersebut benar-benar dilakukan oleh manusia?
Apakah komentar tersebut diberikan oleh orang yang relevan terhadap isu itu?
Berapa banyak jumlah orang yang asal ikut komentar karena topik tersebut sedang viral?
Berapa banyak orang yang sebenarnya hanya nge-troll saja?
Dan masalahnya, tidak ada cara mudah untuk bisa membersihkan data noise tersebut.
Kalau noise-nya masih berupa komentar sarkas (yang kalimatnya positif tapi maksudnya negatif--atau sebaliknya), hal itu masih cukup mudah dibersihkan. Tapi untuk membersihkan noise dari relevansi komentar terhadap topik tersebut? Sepertinya masih jauh.
Hal serupa pun bisa kita lihat satu tahun lalu di masa pilpres. Ketika dilakukan survei di platform sosial media, calon A selalu unggul. Orang-orang di sosial media pun beranggapan kalau calon A akan menang. Tapi di dunia nyata, ternyata calon B yang menang. Bagaimana bisa? Kenapa? Karena banyak data noise di sosial media.
Analisis data itu bukan hanya sekedar mengolah data yang ada menjadi informasi. Tapi lebih jauh lagi, kita perlu memastikan kalau sumber data tersebut relevan dengan informasi yang ingin didapatkan.
Dan mencari tau sentimen publik terhadap suatu isu lewat data komentar di sosial media? Jelas itu bukan hal yang tepat jika dilakukan tanpa ada filter terhadap noise.
Ya ngga gitu juga.
Analisis berdasarkan data komentar bisa saja tetap dibutuhkan. Tapi, harus diketahui batasan-batasannya. Toh mengabaikan komentar-komentar tersebut sama sekali pun juga tidak dapat dibenarkan.
Jika data dari komentar sosial media tersebut dianggap mewakili keseluruhan respon publik, jelas itu hal yang keliru.
Jika data dari komentar sosial media tersebut dianggap mewakili respon dari sekelompok pengguna media sosial, bisa jadi informasinya bisa diterima.
Hal ini penting, karena jika kesimpulan yang diambil dari analisis data tersebut keliru, justru respon yang diberikan pun akan makin keliru nantinya.