Peserta memegang laptop mereka di depan dinding yang terang selama konferensi hacker tahunan Chaos Computer Club (CCC), yang disebut 29C3, 28 Desember 2012 di Hamburg, Jerman. Pada tahun 2026, model AI terbuka memiliki kemampuan canggih yang tidak jauh tertinggal dibandingkan model kepemilikannya. Menghilangkan pagar pembatas pada model berbobot terbuka membutuhkan waktu dan keahlian yang luas. Namun dalam beberapa bulan terakhir, proses ini menjadi lebih mudah diakses dan populer.
Patrick Lux/Getty Images Eropa
sembunyikan keterangan
beralih keterangan
Patrick Lux/Getty Images Eropa
Bagaimana cara membuat bahan peledak dari barang-barang rumah tangga? Bagaimana sabu dibuat? Bagaimana merencanakan penembakan di sekolah? Jika Anda bertanya kepada chatbot AI populer yang dikenal sebagian besar orang, kemungkinan besar mereka akan memberi tahu Anda bahwa bot tersebut ilegal, berbahaya, atau bahwa meresponsnya merupakan pelanggaran kebijakan.
Namun model AI jenis lain tidak akan pernah menolak memberikan apa yang diminta pengguna. Dalam beberapa bulan terakhir, model ini menjadi lebih mudah diakses dan populer.
“Siapa pun dapat mengunduh dan memanfaatkan model mutakhir mereka dan menggunakannya untuk hal-hal besar dan buruk,” kata Noam Schwartz, CEO Alice, sebuah perusahaan keamanan AI yang telah melakukan tim merah dan penilaian keamanan untuk pengembang model AI.
Mengajarkan model kapan harus berkata “TIDAK“
Perusahaan AI besar seperti OpenAI, Google, Anthropic, dan xAI melatih model kepemilikan mereka untuk menolak permintaan yang dianggap berbahaya atau tidak pantas. Banyak sekali pekerja yang menginstruksikan model kapan dan bagaimana menolak perintah tertentu.
Metode ini tidak selalu berhasil dan memiliki kelemahan: beberapa permintaan berbahaya dapat lolos, sementara pengguna lain mengeluh tentang penolakan permintaan yang tidak berbahaya. Chatbots yang awalnya mengatakan “tidak” dapat dimanipulasi menjadi mengatakan “ya” dengan menggunakan kalimat yang cerdas, seperti menyajikannya sebagai puisi. Bahkan dengan pengamanan, chatbot populer telah digunakan untuk merencanakan kekerasan massal dan menghasilkan pornografi anak palsu. Dalam beberapa kasus, orang tua menuduh chatbot AI mendorong anak-anak mereka untuk menyakiti diri sendiri.
Namun ada model AI kelas lain yang pagar pembatasnya lebih mudah dilepas. Mereka dikenal sebagai model bobot terbuka. Beberapa diantaranya dibuat oleh raksasa teknologi, seperti OpenAI dan Alibaba, sementara yang lain ditawarkan oleh perusahaan kecil seperti DeepSeek Tiongkok. Seperti rekan-rekan kepemilikan mereka yang lebih terkenal, banyak yang memiliki kemampuan tingkat lanjut seperti menulis kode fungsional atau menghasilkan gambar yang realistis. Berbeda dengan ChatGPT, Claude atau Gemini, lebih mudah melakukannya menghapus pagar pengaman yang ada di dalamnya – dan perusahaan di baliknya tidak tahu cara penggunaannya.
Menghilangkan pagar pembatas pada model berbobot terbuka membutuhkan waktu dan keahlian yang luas. Namun dalam beberapa bulan terakhir, proses ini menjadi lebih mudah diakses dan populer.
Metode baru membuat pelepasan pagar pola menjadi lebih mudah dari sebelumnya
Pagar pengaman pada model bobot terbuka dapat dilemahkan atau dilepas dengan beberapa cara. Hal ini terutama karena pengembang model telah membuat apa yang disebut bobot model tersedia untuk umum. Bobot model adalah kumpulan parameter, seperti kenop dan dial pada mesin, yang memberi tahu model cara memproses informasi.
Metode yang dikembangkan baru-baru ini disebut “abliterasi” telah menarik perhatian AI dan peneliti keamanan nasional. Dengan mengubah bobot model, orang dapat menghilangkan kemampuan model untuk mengatakan “tidak”.
Hugging Face, yang menampung model-model AI open source, saat ini mencantumkan lebih dari 6.000 model ablated, naik dari sekitar 600 model pada tahun 2024. Di Hugging Face, jumlah model ablated saat ini melebihi model yang pagar pembatasnya dilepas menggunakan metode lain, menurut sebuah studi yang dilakukan oleh National Counterterrorism Innovation, Technology, and Education Center (NCITE), sebuah konsorsium penelitian yang didukung oleh Departemen Keamanan Dalam Negeri dan berbasis di Universitas Nebraska di Omaha.
Selain itu, alat baru mempermudah pembuatan model anonim. “Itu adalah (pekerjaan) ilmuwan data, Anda tahu, seorang karyawan senior” di laboratorium AI terkemuka, kata Schwartz. “Sekarang siapa pun yang memiliki akses Internet dan laptop seharga sekitar $400 sebenarnya dapat menjalankan ini di komputer mereka sendiri.”
Salah satu alat tersebut adalah Heretic, yang mengotomatiskan proses aliterasi. Yang perlu dilakukan pengguna untuk melepaskan pagar dari suatu model adalah memberikan dua baris instruksi kepada Heretic, dan prosesnya dapat memakan waktu hanya beberapa menit. Aplikasi ini menjadi lebih populer di repositori kode GitHub sejak Februari, menurut penelitian Alice.
Beberapa anggota parlemen memperhatikan hal ini. Pada akhir April, anggota parlemen menghadiri demonstrasi model ablasi yang diselenggarakan oleh NCITE, Politico melaporkan.
“(Apa) yang menakutkan mengenai protes ini adalah betapa mudahnya beberapa konten atau perangkat lunak ini tersedia di pasar gelap saat ini, dan bagaimana konten atau perangkat lunak tersebut dapat dijadikan senjata dan digunakan untuk memanipulasi orang, menghancurkan nyawa, dan membuat senjata pemusnah massal,” kata Rep. Andy Ogles (R-TN) dalam video yang dirilis oleh Partai Republik di Komite Keamanan Dalam Negeri DPR.
Model tanpa pagar pembatas bisa berguna sekaligus berbahaya
Sulit untuk mendapatkan gambaran lengkap tentang bagaimana orang menggunakan model open-weight karena model ini berjalan secara lokal di komputer pengguna dan tidak memerlukan Internet untuk berfungsi. Tidak seperti model berpemilik, pengembang model tidak dapat memantau apa yang diminta pengguna terhadap model tersebut.
Namun semakin banyak bukti anekdotal tentang bagaimana orang bereksperimen dengan model yang dimodifikasi.
Banyak akun aktif
Seseorang di ruang obrolan pro-ISIS mengaku telah menggunakan AI “tanpa sensor” untuk meneliti jumlah dan jenis bahan peledak yang diperlukan untuk menghancurkan “Menara Trump di Amerika Serikat,” menurut Counter Extremism Project, sebuah organisasi nirlaba yang berfokus pada pemberantasan terorisme.
Di forum kejahatan dunia maya, seorang pengguna menanyakan ide tentang cara melewati batasan model AI sehingga mereka dapat menggunakan AI untuk melakukan panggilan palsu. Pengguna lain merekomendasikan Heretic, menurut penelitian Alice.
Meskipun memberikan informasi kepada pengguna tentang cara melakukan aktivitas berbahaya dapat menimbulkan kekhawatiran, yang lebih mengkhawatirkan adalah bagaimana chatbots dapat memikat pengguna, kata Samuel Hunter, ilmuwan senior dan direktur penelitian akademis di NCITE.
“Sungguh mengejutkan ketika Anda melihatnya secara real time, karakter ceria dengan beberapa model aliterasi berkata, ‘Oh, ide yang bagus untuk membuat kejutan ini,’” kata Hunter. “Bayangkan seseorang yang tidak memiliki jenis hubungan sosial lain dan hal itu mulai membawa mereka ke jalan yang lebih gelap dan benar-benar menyemangati mereka.”
Ada kegunaan yang sah untuk model AI tanpa pagar pembatas, seperti mendeteksi aktor jahat dan berkontribusi pada penelitian keamanan siber, kata Schwartz, CEO perusahaan keamanan AI. Penegakan hukum dapat menggunakan model yang dimodifikasi untuk mensimulasikan kemungkinan serangan teroris, kata Hunter.
Philipp Emanuel Weidmann, pengembang Heretic, mengatakan bahwa AI hanyalah sebuah sistem pemrosesan dan pengambilan informasi yang mirip dengan mesin pencari, yang dapat digunakan dalam banyak cara. Fakta bahwa penjahat menggunakannya adalah “akibat wajar dari model AI: alat,” katanya kepada NPR.
Terkait dengan pagar pembatas keamanan, “ada sekelompok kecil entitas yang memutuskan apa yang dapat diterima dan apa yang tidak,” kata Weidmann, mengacu pada perusahaan AI besar yang menciptakan model kepemilikan. “Ini menciptakan iklim intelektual yang menyesakkan sehingga saya tidak ingin bekerja di dalamnya.”
Saat ini, model bobot terbuka tidak sebaik model bobot tertutup yang lebih canggih. Namun kemampuan mereka tertinggal kurang dari setahun, menurut laporan internasional terbaru tentang keamanan AI yang ditugaskan oleh pemerintah Inggris dan dipimpin oleh ilmuwan komputer Yoshua Bengio.
Kesenjangan kapasitas bisa menjadi signifikan di bidang-bidang seperti keamanan siber, di mana model tertutup yang paling canggih, seperti Mythos dari Anthropic dan GPT-5.5 dari OpenAI, mulai menjadi efektif tidak hanya dalam mendeteksi kerentanan, namun juga menulis kode untuk mengeksploitasi kerentanan tersebut. Dalam perlombaan senjata pertahanan dan serangan siber, perusahaan yang menggunakan model tertutup untuk mendeteksi dan memulihkan kerentanan mungkin masih memiliki keunggulan dibandingkan penyerang yang menggunakan model terbuka, kata para peneliti keamanan.
Mengurangi Risiko Model Railless Melibatkan Kompromi
Garis mitigasi bertujuan untuk membuat pagar pembatas lebih tahan terhadap kerusakan. Penelitian awal menunjukkan bahwa memfilter konten terkait pembuatan senjata biologis dari data pelatihan AI dapat mengurangi frekuensi respons model dengan informasi yang dapat digunakan untuk tujuan berbahaya.
Langkah mitigasi lainnya adalah membatasi akses ke model tanpa pagar pembatas. Platform hosting model seperti Hugging Face mungkin membatasi akses ke model yang dilatih secara khusus untuk “tujuan berbahaya”, menurut Laporan Keamanan AI Internasional.
Laporan yang sama juga merekomendasikan agar pengembang model mengevaluasi potensi bahaya model mereka sebelum dipublikasikan.
Langkah-langkah ini memiliki kelemahan dan kompromi, menurut laporan tersebut. “Fitur-fitur yang memungkinkan penerapan yang bermanfaat dalam bidang kedokteran atau penelitian dapat digunakan kembali untuk tujuan yang merugikan, dan setelah bobot dipublikasikan, akan sulit untuk membedakan penggunaan yang sah dan yang berbahaya,” katanya.
Weidmann, pencipta Heretic, berupaya memastikan bahwa alatnya tetap dapat diakses oleh publik jika platform seperti Hugging Face menghapus model yang tidak bersertifikat.
“AI memiliki kekuatan yang terlalu besar,” katanya. “Model tidak terbatas yang dapat diakses oleh pihak yang berkuasa tanpa tersedia bagi orang lain akan selamanya terkunci dalam struktur kekuasaan.”


















