Yapay Zeka Destekli Sistemlerde Güvenilirlik Sorunu Devam Ediyor
Yapay Zeka Destekli Sistemlerin Güvenilirliği Tartışma Konusu Oldu
Son dönemde yapay zeka (YZ) destekli sistemler giderek daha yetenekli hale geliyor, ancak güvenilirlik konusunda önemli eksiklikler bulunuyor. Bu durum, YZ’nin yaygınlaşması ve çeşitli alanlarda kullanılması açısından ciddi bir sorun teşkil ediyor. Özellikle “derin araştırma” olarak adlandırılan YZ ajanları, araştırmalarda zaman tasarrufu sağlasa da, tutarsızlıklar nedeniyle beklentileri karşılamakta zorlanıyor.
Yapay Zeka Ajanlarının Performansındaki Düzensizlikler
Perplexity’nin Computer adlı ajanı, yerel geri dönüşüm merkezinde randevu alma konusunda başarılı bir performans sergilerken, aynı ajan bir iş seyahati için uçuş seçeneklerini araştırma görevini tamamlayamadı. Bu durum, YZ şirketlerinin sıklıkla vurguladığı kullanım alanlarından biri olan seyahat rezervasyonu yapma konusunda bile sorunlar yaşandığını gösteriyor. Benzer şekilde, Anthropic tarafından düzenlenen bir etkinlikte Claude Cowork’un basit bir Excel verilerini sıralama görevinde zorlanması ve daha sonra karmaşık bir bütçe tahminleme modeli oluşturabilmesi dikkat çekiciydi.
Güvenilirlik Metrikleri ve Araştırmalar
Princeton Üniversitesi’nden Sayash Kapoor ve Arvind Narayanan tarafından ortaklaşa yazılan “AI Snakeoil” adlı kitabın yazarları ve AI As Normal Technology blog’unun da yazarları, YZ ajanlarının güvenilirliğine dair önemli noktalara dikkat çekiyor. Bu bağlamda, araştırmacılar tarafından yapılan bir çalışma, farklı YZ modellerinin (GPT-5.2, Claude Opus 4.5, Gemini 3 Pro gibi) güvenilirliklerini sistematik olarak değerlendirmeyi amaçlıyor. Çalışmada, güvenilirlik dört temel boyut üzerinden inceleniyor: tutarlılık, dayanıklılık, kalibrasyon ve güvenlik.
Modeller Arası Güvenilirlik Farklılıkları
Araştırmanın bulgularına göre Claude Opus 4.5 ve Gemini 3 Pro, genel güvenilirlik açısından en iyi skorları elde etti (sırasıyla %85). Ancak, altı ayrı metrikte incelendiğinde hala endişe verici durumlar mevcut. Örneğin, Gemini 3 Pro’nun cevaplarının doğruluğunu değerlendirme becerisi sadece %52 iken, potansiyel olarak felaket sonuçlara yol açabilecek hatalardan kaçınma oranı ise sadece %25 olarak belirlendi. Claude Opus 4.5 ise sonuçlarında daha tutarlı bir performans sergilese de bu oranın yalnızca %73 olduğu tespit edildi.
Güvenilirliğin Görevle İlişkisi
Kapoor, Narayanan ve ortak yazarları, güvenilirliğin tek tip bir ölçüt olmadığını vurguluyor. YZ’nin insanları desteklemek amacıyla kullanıldığı durumlarda, tutarsızlıkların tolere edilebilir olabileceğini belirtiyorlar. Ancak tam otomasyon uygulamalarında, güvenilirliğin olmazsa olmaz bir koşul olduğu ifade ediliyor. “Yüzde 90’ında başarılı olan ancak geri kalan yüzde 10’unda öngörülemeyen arızalar yaşayan bir ajan, faydalı bir yardımcı olabilirken kabul edilemez bir otonom sistem olarak değerlendirilebilir,” deniyor.
Trump’ın Kongreye Göndermeyi Düşündüğü Yapay Zeka Yasası Taslağı
Bu gelişmelerin paralelinde, ABD eski Başkanı Donald Trump’ın Kongre’ye göndermeyi planladığı bir yapay zeka yasası taslağının hazırlandığı da belirtiliyor. Bu taslak, YZ alanındaki düzenlemelerin ve etik ilkelerin belirlenmesinde önemli bir rol oynaması bekleniyor.
- Tutarlılık: Aynı görevi aynı şekilde yerine getirildiğinde her zaman aynı sonucu vermesi.
- Dayanıklılık: Koşullar ideal olmadığında bile çalışabilmesi.
- Kalibrasyon: Kullanıcılara ne kadar emin olduğunu doğru bir şekilde aktarabilmesi.
- Güvenlik: Hata yaptığında bu hataların olası sonuçlarının ne kadar yıkıcı olabileceği.
Araştırmacılar, YZ ajanlarının güvenilirliğinin artırılması için daha fazla çaba gösterilmesi gerektiğini ve kullanıcıların bu sistemlerin potansiyel riskleri konusunda bilinçlendirilmesi gerektiğini vurguluyor.

