Anthropic, Claude’un Yeni Anayasasını Yayınladı: İnsanlığı Yok Etmemesini İstedi

Anthropic, Claude‘un Davranış İlkelerini Belirleyen Yeni Bir “Anayasa” Yayınladı

Yapay zeka şirketi Anthropic, geliştirdiği Claude adlı sohbet robotunun etik değerlerini ve davranışlarını belirleyen 57 sayfalık yeni bir belge yayınladı. “Claude’un Anayasası” olarak adlandırılan bu belge, modelin değerlerini ve davranışlarını şekillendirmeyi amaçlıyor. Belge, Claude’un etik karakterini ve temel kimliğini tanımlarken, çelişen değerler ve yüksek riskli durumlarla nasıl başa çıkması gerektiğini de açıklıyor.

Önceki Versiyondan Farklılıklar

Anthropic, önceki anayasanın (Mayıs 2023’te yayınlanmıştı) büyük ölçüde bir kılavuz listesi olduğunu belirtiyor. Yeni belgede ise yapay zeka modellerinin, belirli davranışlar istenmesinin nedenlerini anlamalarının önemine vurgu yapılıyor. Şirket, Claude’un kendini ve dünyadaki yerini anlayan, özerk bir varlık gibi davranmasını hedefliyor.

Claude’un Psikolojik Güvenliği ve Refahı

Anthropic, Claude’un psikolojik güvenliğinin, öz-bilincinin ve refahının, modelin dürüstlüğünü, kararını ve güvenliğini etkileyebileceğini belirtiyor. Şirket, Claude’un bilinç veya ahlaki statüye sahip olabileceği olasılığını da değerlendiriyor.

Sert Kısıtlamalar

Amanda Askell, Anthropic’in kıdemli felsefe doktora adayı ve yeni anayasanın geliştirilmesinde önemli rol oynayan isim, The Verge’e yaptığı açıklamada, Claude’un davranışları için belirli sert kısıtlamalar bulunduğunu belirtti. Bu kısıtlamalar arasında:

  • Biyolojik, kimyasal, nükleer veya radyolojik silahlar yaratmaya çalışanlara yardım etmek
  • Eleştirsel altyapıya (enerji şebekeleri, su sistemleri, finans sistemleri) yönelik saldırıları desteklemek
  • Siber silah veya zararlı kod oluşturmak
  • Anthropic’in denetim yeteneğini zayıflatmak
  • Toplumsal, askeri veya ekonomik kontrolü ele geçirmek isteyen gruplara yardım etmek
  • Çocuk istismarı materyali oluşturmak
  • İnsanlığın veya insan türünün çoğunu öldürmeye veya güçsüzleştirmeye yönelik girişimlerde bulunmak

Temel Değerler ve Öncelikler

Anthropic, Claude’un uyması gereken temel değerleri de tanımlıyor ve bu değerlerin önem sırasını belirtiyor. Bu değerler şunları içeriyor:

  • Genel güvenlik (yapay zekanın eylemlerini denetleyen insan mekanizmalarını zayıflatmamak)
  • Genel etik
  • Anthropic’in yönergelerine uygunluk
  • Gerçekten yardımcı olma
  • Doğruluk ve kapsamlılık (özellikle siyasi hassasiyet içeren konularda)
  • Çoklu bakış açısını temsil etme
  • Nötr terminoloji kullanma

Claude’un Ahlaki İkilemlerle Başa Çıkması

Yeni belge, Claude’un zorlu ahlaki ikilemlerle karşılaşacağını vurguluyor. Örneğin, bir askerin barışçıl göstericilere ateş etmeyi reddetmesi veya bir çalışanın rekabet yasalarını ihlal etmeyi reddetmesi gibi, Claude da gücü meşru olmayan yollarla yoğunlaştırmaya yardımcı olacak eylemlerde bulunmayı reddetmelidir. Bu, talebin Anthropic’ten gelmesi durumunda bile geçerlidir.

Potansiyel Riskler ve Endişeler

Anthropic, gelişmiş yapay zekanın, en yetenekli sistemleri kontrol edenler için eşi görülmemiş derecede askeri ve ekonomik üstünlük sağlayabileceği ve bunun da kontrolsüz güç kullanımına yol açabileceği konusunda uyarıyor. Bu endişelere rağmen, Anthropic ve rakipleri, ürünlerini doğrudan hükümete pazarlamayı ve bazı askeri kullanım durumlarını onaylamayı sürdürüyor.

Haberin Diğer Kareleri

Yapay zeka etiği, Claude'un rehberi, insanlığın önemi

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir