Ada Kode Tersembunyi Dalam Tulisan yang Dihasilkan ChatGPT


ChatGPT, kecerdasan buatan yang punya 'keahlian' membuat esai level akademik, memicu kerisauan soal kasus pencontekan karya alias plagiarisme. Bagaimana cara membedakan hasil AI dan buatan manusia?

Tak bisa disangkal bahwa ChatGPT itu revolusioner, setidaknya dalam hal popularitas dan kecepatan mengadopsi kemampuan manusia yang belum pernah terjadi sebelumnya, serta didukung situs yang gratisan. Prediksi bahwa ChatGPT bisa menjadi pembunuh Google pun mengemuka.

Salah satu keandalannya menghasilkan esai level akademik membuat kabut batas antara ciptaan manusia dan AI. Para akademisi dan jurnalis pun menyadari 'karya' ChatGPT tak bisa dibedakan dari karya manusia sebenarnya.

Bahaya di depan mata adalah banjir tulisan plagiat atau hasil mencontek dari ChatGPT, terutama dalam bidang akademik. Bisa dibayangkan bakal ada profesor-profesor baru yang cuma bersenjatakan kemampuan mengetik pertanyaan pada kolom platform-nya OpenAI ini.

Lebih jauh berandai-andai, efek teknologi ini adalah membuat masyarakat tidak lagi dapat mempercayai kata-kata tertulis, karena ragu apakah ini buatan mesin atau orang sungguhan. Potensi ini yang mesti diantisipasi.

Tanda air

Scott Aaronson, profesor komputer di University of Texas, dalam sebuah blog mengungkapkan OpenAI, pembuat ChatGPT, sedang mensimulasikan penerapan stylema (semacam sidik jari tersembunyi dalam bahasa) berupa tanda air (watermark) dalam proses kreatif ChatGPT.

"Proyek utama saya sejauh ini adalah alat untuk menandai secara statistik keluaran model teks seperti GPT. Pada dasarnya, setiap kali GPT menghasilkan teks panjang, kami ingin ada sinyal rahasia yang tidak terlalu mencolok dalam pilihan kata-katanya, yang dapat Anda gunakan untuk membuktikan nanti bahwa, ya, ini berasal dari GPT.

"Kami ingin lebih sulit untuk mengambil keluaran GPT dan menyebarkannya seolah-olah itu berasal dari manusia. Ini dapat membantu untuk mencegah plagiarisme akademik, pembuatan propaganda secara massal, atau meniru gaya penulisan seseorang untuk memberatkan mereka."

Aaronson juga mengatakan, ia ingin orang-orang tidak dengan mudah menyangka kalau tulisan GPT adalah buatan manusia. "Itu bisa membantu mencegah plagiarisme akademik, propaganda masif, atau meniru gaya tulisan seseorang," tulisnya.

OpenAI, katanya, sudah memiliki prototipe yang menurutnya "tampak berfungsi dengan baik."

"Secara empiris, beberapa ratus token sepertinya cukup untuk mendapatkan sinyal yang masuk akal bahwa ya, teks ini berasal dari GPT. Pada prinsipnya, Anda bahkan dapat mengambil teks panjang dan mengisolasi bagian mana yang mungkin berasal dari GPT dan bagian mana yang mungkin tidak."

Ini berarti beberapa paragraf cukup untuk mengetahui apakah konten tersebut berasal dari ChatGPT atau tidak.

"Saya dapat membayangkan para penulis, Shakespeare, Wodehouse, David Foster Wallace, yang memiliki gaya yang begitu khas sehingga ketika mencoba berpura-pura menjadi orang lain pun mereka tidak bisa melakukannya. Semua orang akan menyadari bahwa itu adalah mereka."

"[AI] itu akan dibangun dari bawah ke atas sehingga semua keluarannya mengandung tanda yang tak terhapuskan, apakah kriptografi atau gaya, memberi tahu asalnya. AI tidak bisa dengan mudah bersembunyi dan berpura-pura menjadi manusia atau apa pun itu," ucap dia.

Lalu bagaimana penerapannya secara teknis? Dikutip dari The Algorithmic Bridge, setidaknya ada beberapa pengaturan yang mungkin dari fitur ini.

Pertama, pengguna tidak akan memiliki sarana untuk melihat tanda air itu, kecuali OpenAI membagikan kuncinya.

Kedua, Aaronson mengakui tanda air bisa saja diakali dengan pendekatan sepele. Misal dengan menghapus/menyisipkan kata atau mengatur ulang paragraf, atau memparafrasakan output ChatGPT dengan AI lain.

Ketiga, hanya OpenAI yang mengetahui kuncinya. Mereka dapat membaginya dengan siapa pun yang mereka inginkan, sehingga pihak ketiga juga dapat menilai asal-usul teks tertentu.

Keempat, tanda air tidak akan berfungsi dengan model open source karena siapa pun dapat masuk ke kode dan menghapus fungsinya.

Rangkaian token

Styelama AI itu memungkinkan karena setiap input dan output dari GPT adalah rangkaian token yang bisa berupa kata-kata, tanda baca, bagian dari sebuah kata, dan lainnya. Totalnya mencapai 100 ribu token.

Pada pusatnya, GPT secara konstan menghasilkan distribusi probabilitas pada sebuah token. Distribusi itu dihasilkan bergantung kepada rangkaian token yang ada sebelum token tersebut.

Setelah jaringan neural menghasilkan sebuah distribusi, server OpenAI kemudian benar-benar mencuplik sebuah token berdasarkan distribusi itu atau distribusi yang dimodifikasi dalam sebuah parameter bernama 'temperatur'.

Sepanjang temperatur itu bukan nol, biasanya akan ada semacam ketidakberaturan (randomness) di dalam pilihan token berikutnya. Karena itulah pengguna bisa mengulang-ulang lagi dengan perintah yang sama namun mendapatkan jawaban berbeda setiap waktu.

"Itu tidak akan membuat perbedaan yang bisa dideteksi oleh pengguna akhir, dengan asumsi mereka tidak bisa membedakan nomor-nomor pseudoacak dengan yang benar-benar diacak," tulisnya lagi.

Related

Technology 1380472790380234920

Recent

Hot in week

Ebook

Koleksi Ribuan Ebook Indonesia Terbaik dan Terlengkap

Dapatkan koleksi ribuan e-book Indonesia terbaik dan terlengkap. Penting dimiliki Anda yang gemar membaca, menuntut ilmu,  dan senang menamb...

item