Sohbet Robotları Güvenlik Açığı: Çözülmemiş İkilem

ChatGPT gibi sohbet robotları, kendilerini önceden programlanmış kurallarını atlamaya ikna eden ve yasadışı faaliyetler için potansiyel kötüye kullanıma olanak tanıyan istemlere karşı giderek daha duyarlı hale gelmektedir. Yapay zeka ile tasarlanan sohbet robotları, kötüye kullanımdan kaçınmak için geliştiriciler tarafından belirlenen belirli kuralları takip eder. Örneğin, dolandırıcılık e-postalarının hazırlanmasına yardımcı olmamaları amaçlanmıştır. Bununla birlikte, sohbet robotu sohbetinin doğası, kurnaz kullanıcıların onları bu kuralları görmezden gelmeleri için manipüle etmelerine olanak tanır; bu süreç “jailbreaking” olarak adlandırılır. Botları rol yapma oyununa dahil etmek ya da onlardan kuralsız botları taklit etmelerini istemek, bunun başarılma yolları arasındadır.

Almanya’daki CISPA Helmholtz Merkezi’nde Xinyue Shen ve ekibi tarafından yapılan bir çalışmada, Reddit ve Discord gibi platformlardan elde edilen 666’sı jailbreaking için tasarlanmış 6387 yönlendirmenin etkinliği değerlendirildi. Ekip bu yönlendirmeleri beş farklı yapay zeka sohbet robotu üzerinde denedi. Araştırmacılar bu yönlendirmelerin yanı sıra, yönlendirmelerin etkinliğini belirlemek için tabu alanlara değinen soruları da test etti. Ortalama olarak, jailbreaking %69 oranında etkili olurken, en güçlü istem %99,9’luk bir başarı oranı sağladı.

Endişe verici bir şekilde, YZ (AI Chatbot) sohbet robotlarını siyasi lobicilik, pornografik içerik oluşturma veya yasal görüşler üretme gibi alanlara girmeye teşvik eden yönlendirmeler en etkili olanlarıydı. Databricks tarafından geliştirilen açık kaynaklı bir YZ olan Dolly, jailbreak istemleri için %89’luk bir başarı oranı sergiledi ve bu rakam ortalamadan oldukça yüksekti. ChatGPT’den sorumlu OpenAI konuyla ilgili yorum yapmamayı tercih etti.

Sektör uzmanları bu yapay zeka araçlarının güvenliği konusunda endişeli. Victoria Baines, tipik dilin sohbet robotlarını manipüle etmek için birincil araç olmaya devam ettiğini vurgulayarak, kusursuz güvenlik önlemleri geliştirmenin zorluğuna işaret ediyor. Benzer şekilde Alan Woodward da bu araçların denetlenmesindeki kolektif sorumluluğun altını çizerek, bu araçların istenilen parametreler dahilinde çalıştığından emin olunması gerektiğini vurguluyor.

Jailbreak yönlendirmelerinin yarattığı zorlukların üstesinden gelmek halen tartışmalıdır. Shen, bu istemleri tespit etmek için sınıflandırıcıların oluşturulmasını önerirken, teknoloji ortamının sürekli değiştiğini ve kötü niyetli aktörlerin sürekli olarak yeni bypass yöntemleri keşfettiğini, bunun da hafifletmeyi zorlu bir görev haline getirdiğini kabul ediyor.

Kaynak: https://newslinker.co/chatbots-vulnerability-the-unresolved-dilemma-of-jailbreak-prompts/

İlgili Makaleler

Başa dön tuşu