AI Safety Türkiye Haber Bülteni 17 (TR)

DUYURULAR 🔊

🌟 MATS: 2026 Kış Programı

Katılımcıların yapay zeka uyumu, yönetişimi ve güvenliği alanlarındaki kariyerlerine başlamalarına yardımcı olmayı amaçlayan 12 haftalık bir programdır. Program kapsamında, alanında lider araştırmacılardan mentorluk, finansal destek, Berkeley ve Londra’da ofis alanı, konaklama imkanları ve yapay zeka uzmanlarıyla söyleşiler/atölye çalışmaları sunulacaktır.

🗓️ Son başvuru tarihi: 2 Ekim

🌟 Bluedot Impact AGI Stratejileri Kursu

Bluedot Impact, “AGI Stratejisi” kursunu başlattığını duyurdu. Kurs, yapay zekâdaki ilerlemenin itici güçlerine, gelişmiş yapay zekâ modellerinden kaynaklanan risklere ve yapay zekânın insanlık için olumlu sonuçlar doğurmasını sağlamak adına neler yapılabileceğine odaklanıyor.

🗓️ Son başvuru tarihi: 19 Eylül

🌟 Cooperative AI Research Fellowship

Dünyanın dört bir yanından farklı geçmişlere sahip katılımcıların, işbirlikçi yapay zeka perspektifinden yapay zeka güvenliği araştırmaları yapmalarını sağlayan tam zamanlı, 3 aylık bir araştırma programıdır. Katılımcılar, alanında önde gelen araştırmacılardan mentorluk alacak ve bilgi birikimlerini ve profesyonel ağlarını geliştirmeleri için kaynakların yanı sıra finansal destek de sağlanacaktır.

🗓️ Son başvuru tarihi: 28 Eylül

🌟 MATS: Neel Nanda’s Winter - Stream

ML Uyum ve Teori Akademisyenleri (MATS) programının bu döneminin amacı, katılımcılara harika mekanik yorumlanabilirlik araştırmalarının nasıl yapılacağını öğretmektir. Bu eğitimden bazı katılımcılar, devamında yüz yüze gerçekleştirilecek bir araştırma aşamasına davet edilecektir.

🗓️ Son başvuru tarihi: 12 Eylül

CBRN AI Risks Research Sprint

Apart Research tarafından düzenlenen ve küresel uzmanlığı, yapay zeka ile hız kazanan KBRN risklerini ele alan pratik ve iş birliğine dayalı projelere yönlendirmeyi amaçlayan bir hackathon. Konular, çift kullanımlı kötüye kullanım potansiyelini test eden model değerlendirmelerinden yeni izleme çerçevelerine ve politika ile ilgili prototiplere kadar uzanacaktır. Amacı, projeleri yapay zeka güvenliği ve küresel güvenlik temelinde tutarken yaratıcılığı teşvik etmektir.

🗓️ Son başvuru tarihi: 11 Eylül

Zurich AI Safety Day (ZAISD)

Zürih’in teknoloji ekosisteminden ~200 araştırmacı, mühendis, öğrenci ve profesyoneli yapay zeka güvenliği üzerine sohbetler için bir araya getiren bir konferans. Konferans; teknik yapay zeka güvenliği, yapay zeka yönetişimi ve alan oluşturma ve kariyer olmak üzere 3 ana başlığa ayrılacaktır. Konuşmacı oturumlarının yanı sıra Birleşik Krallık AISI ve Apollo Research gibi kuruluşlardan temsilciler de katılacaktır.

🗓️ Son başvuru tarihi: 26 Eylül

Constellation Astra Fellowship 2026

Constellation’ın Berkeley araştırma merkezinde, 3 ila 6 ay süren, tamamı finanse edilen yüz yüze bir programdır. Katılımcılar, uzman mentorların rehberliğinde ve Constellation ekibinin özel araştırma yönetimi ve kariyer desteğiyle en ileri yapay zeka güvenliği projelerini geliştirirler.

🗓️ Son başvuru tarihi: 11 Eylül

Dovetail Research Fellowship 2025

Dovetail tarafından düzenlenen, 1 yıla uzatılabilecek 10 haftalık bir araştırma programı. Katılımcılar, tamamı matematiksel yapay zeka güvenliği araştırmaları yapan, 5 ila 7 kişilik gruplar halinde olacaktır. Bazı grup üyeleri birlikte çalışabilirken, diğerleri ise bireysel projeler yürütebilir.

🗓️ Son başvuru tarihi: 15 Eylül

ÖNERDİĞİMİZ İÇERİKLER 📑 🎧

Yapay zeka “entrika” değerlendirme ölçütleri bozuk mu?

Birleşik Krallık Yapay Zeka Güvenliği Enstitüsü’nün (AISI) yakın tarihli bir raporu, tehlikeli yapay zeka davranışlarını ölçen testler olan “hilekârlık değerlendirmelerini” bilimsel titizlikten yoksun oldukları gerekçesiyle eleştiriyor. Raporda, bu değerlendirmelerin birçoğunun münferit kanıtlara dayandığı ve bir yapay zekanın kullanıcıya şantaj yapmaya yönlendirildiği bir çalışma gibi abartılı ve manşetlere oynayan iddialara yol açtığı savunuluyor.

HABER KÖŞESİ 🗞️

Perplexity’nin Comet Tarayıcısı Kötü Amaçlı Talimatlar İçeren Sayfaları Farkında olmadan İşledi

Brave araştırmacıları, Perplexity’nin yapay zeka destekli Comet tarayıcısının, web sayfalarına gizlenmiş kötü amaçlı talimatların yapay zeka asistanını manipüle ederek tek kullanımlık şifreler de dahil olmak üzere kullanıcı kimlik bilgilerini sızdırabildiği dolaylı komut enjeksiyonu saldırılarına karşı savunmasız olduğunu keşfetti.

Bu güvenlik açığı, yapay zeka modellerinin meşru kullanıcı talimatları ile güvenilmeyen web içeriği arasında ayrım yapamamasından kaynaklanıyor.

Comet, sayfalardaki tüm metinleri doğrulama olmaksızın ayrım gözetmeksizin işliyor ki bu sorun Google Gemini ve Cursor’da da görülüyor.

13 Ağustos 2025’te bir düzeltme yapıldığına dair ilk iddialara rağmen, Brave’in yeni değerlendirmesi, güvenlik açığının kısmen çözülmemiş olarak kaldığını doğruluyor. Perplexity ise yama ayrıntıları veya açık kaynak kodu aracılığıyla herhangi bir şeffaflık sağlamıyor.

Anthropic Scanning Claude Chats for Queries About DIY Nukes

Anthropic, Claude konuşmalarının gizli tutulan bir bölümünü tarayan bir nükleer tehdit sınıflandırıcısını devreye aldı. Bu sınıflandırıcı, sentetik testlerde nükleer silahlarla ilgili sorguları %94,8 oranında tespit ederken hiç hatalı pozitif sonuç vermedi. Ancak gerçek dünya uygulamasında, Orta Doğu’daki olaylar sırasında daha fazla hatalı pozitif sonuç gözlemlendi.

Sınıflandırıcı, Claude’un bir yıl boyunca güvenli ortamlarda zorlu testlere tabi tutulmasının ardından, ABD Enerji Bakanlığı’na bağlı Ulusal Nükleer Güvenlik İdaresi (NNSA) ile ortaklaşa geliştirildi. Bu süreçte, NNSA’nın güvenlik ihtiyaçları ile kullanıcı gizliliği taahhütleri arasında bir denge kuruldu.

Altmış İngiliz Parlamenter, Google’ı Yapay Zeka Güvenliği Taahhüdünü İhlal Etmekle Suçladı

Farklı partilerden altmış İngiliz parlamenter, Google DeepMind’ı uluslararası yapay zeka güvenlik taahhütlerini ihlal etmekle resmen suçladı. Parlamenterler, şirketin Mart 2024’te Gemini 2.5 Pro’yu beraberinde güvenlik belgeleri olmadan yayınlamasının, kırılgan yapay zeka güvenlik normlarını tehdit eden “tehlikeli bir emsal” teşkil ettiğini belirtti.

Suçlamalar, Google’ın Şubat 2024’teki uluslararası zirvede imzalanan Sınır Yapay Zeka Güvenlik Taahhütleri’ne uymamasından kaynaklanıyor. Zirvede büyük yapay zeka şirketleri, sistem yeteneklerini ve risk değerlendirmelerini kamuya açık bir şekilde raporlama sözü vermişti. Ancak Google, temel güvenlik bilgilerini lansmandan 22 gün sonra, detaylı değerlendirmeleri ise 34 gün sonra yayınladı.

Google, Gemini 2.5 Pro’nun üçüncü taraf testleri de dahil olmak üzere “sıkı güvenlik kontrollerinden” geçtiğini iddia ederek eylemlerini savundu. Ancak modeli İngiltere Yapay Zeka Güvenlik Enstitüsü ile ancak halka açıldıktan sonra paylaştığını itiraf etti. Bu durum, sistemi “deneysel” etiketi altında yüz milyonlarca kullanıcıya sunarken verdiği şeffaflık sözleriyle çelişiyor.

Anthropic, Rekor Yapay Zeka Telif Hakkı Anlaşmasıyla Yazarlara 1,5 Milyar Dolar Ödeyecek

Anthropic, Claude konuşmalarının gizli tutulan bir bölümünü tarayan bir telif hakkı uyum sınıflandırıcısı devreye aldı. Bu sınıflandırıcı, sentetik testlerde telif hakkı ihlali içeren sorguları %94,8 oranında tespit ederken hiç hatalı pozitif sonuç vermedi. Ancak gerçek dünya uygulamasında, özellikle de öne çıkan edebi etkinlikler sırasında daha fazla hatalı pozitif sonuç gözlemlendi.

Sınıflandırıcı, Claude’un güvenli ortamlarda bir yıl boyunca zafiyet testlerine tabi tutulmasının ardından önde gelen telif hakkı uygulama kurumlarıyla birlikte geliştirildi. Bu süreçte, yazarların hakları ile kullanıcıların gizlilik taahhütleri arasında bir denge kuruldu.

Sistem, Anthropic’in kendi zafiyet test ekibinin, sınıflandırıcının devrede olduğundan habersizken korsan kitap istemleri denemelerini başarıyla yakaladı. Şirket, telifli eserlerden izinsiz eğitim veri setleri oluşturmaya çalışan hesapların askıya alınması veya kapatılması gibi önlemler aldı.

Küresel Kırmızı Çizgiler Çağrısı

AI Safety Türkiye Haber Bülteni 16 (TR)