Matematik Kanıtları Yazmak Yapay Zekaya İnsanlar Gibi Düşünmeyi Öğretebilir mi?
Temmuz ayındaki 2025 Uluslararası Matematik Olimpiyatı'ndan (IMO) birkaç ay önce, OpenAI'deki üç kişilik bir ekip, yarışmanın son derece zorlu problemlerini bir matematikçiyi eğitmek için kullanabilecekleri konusunda uzun bir iddiaya girdi. yapay zeka Modelin saatlerce kendi başına düşünebilmesini ve böylece matematik kanıtları yazabilmesini sağladı. Amaçları sadece karmaşık matematik yapabilen bir yapay zeka yaratmak değil, aynı zamanda belirsizliği ve nüansları değerlendirebilen bir yapay zeka yaratmaktı; yapay zekaların bir gün birçok zorlu gerçek dünya görevini üstleneceklerse ihtiyaç duyacağı beceriler. Aslında bunlar tam olarak yaratmak için gereken becerilerdir. yapay genel zekaveya AGI: insan düzeyinde anlayış ve muhakeme.
Bu yıl Avustralya'nın Sunshine Coast'unda düzenlenen IMO, 100'den fazla ülkeden en iyi yarışmacıları bir araya getiren, lise öğrencileri için dünyanın önde gelen matematik yarışmasıdır. Herkese iki gün içinde çözmeleri için aynı altı problem (günde üç tane, her biri yedi puan değerinde) veriliyor. Ancak bu sorunlar muhtemelen liseden hatırladığınız şeylere benzemiyor. Kısa, sayısal bir cevap yerine, her biri sayfalarca yazılı kanıt biçiminde sürekli akıl yürütme ve yaratıcılık gerektirir. Bu mantıksal, adım adım ilerleyen argümanların birçok alanı kapsaması gerekiyor. matematik— tam olarak bu yıla kadar yapay zeka sistemlerinin olağanüstü derecede başarısız olduğu türden sorunlar.
OpenAI araştırmacı ve mühendis ekibi (Alex Wei, Sheryl Hsu ve Noam Brown) genel amaçlı bir akıl yürütme modeli kullandı: zorlu sorunları adımlara bölerek "düşünmek", kendi çalışmasını kontrol etmek ve yaklaşımını ilerledikçe uyarlamak için tasarlanmış bir yapay zeka. Yapay zeka sistemleri resmi olarak katılımcı olarak rekabet edemese de, herkesin bildiği zorlu test, onların neler yapabileceklerinin bir göstergesi oldu ve yapay zekalar bu yılın sorularını, insan katılımcılarla aynı test formatında ve aynı kısıtlamalarla ele aldı. Ekibin deneysel sistemi, soruları aldıktan sonra 4,5 saatlik iki oturum boyunca (tıpkı öğrenci yarışmacıların yaptığı gibi) herhangi bir araç veya internet olmadan çalıştı; arama motorları veya matematik için tasarlanmış yazılımlar gibi araçlardan kesinlikle hiçbir dış yardım almadı. Ürettiği kanıtlar üç eski IMO madalyası sahibi tarafından derecelendirildi ve çevrimiçi yayınlandı. Yapay zeka, altı problemden beşini doğru bir şekilde tamamladı ve 42 üzerinden 35 puan aldı; bu, IMO altın madalyası için gereken minimum puandı. (Google'ın DeepMind yapay zeka sistemi de bu yıl bu puanı elde etti.) 630 yarışmacıdan yalnızca 26'sı, yani yüzde 4'ü yapay zekadan daha iyi performans gösterdi; beş öğrenci mükemmel 42'lere ulaştı. Bir yıl önce OpenAI gibi dil tabanlı yapay zeka sistemlerinin temel matematik işlemlerini yapmakta zorlandığı göz önüne alındığında, sonuçlar performansta çarpıcı bir sıçramaydı.
Bilim gazeteciliğini destekleme konusunda
Bu makaleyi beğeniyorsanız, ödüllü gazeteciliğimizi desteklemeyi düşünün. abone oluyorum. Bir abonelik satın alarak, bugün dünyamızı şekillendiren keşifler ve fikirlerle ilgili etkili hikayelerin geleceğinin güvence altına alınmasına yardımcı oluyorsunuz.
Aşağıdaki konuşmada, Bilimsel Amerikan OpenAI ekibinin iki üyesi Alex Wei ve Sheryl Hsu ile, çalışmalarını nasıl yürüttüklerini, modelin altıncı soruya yanıt vermemesinin neden yapay zekanın "halüsinasyon" sorununu çözmeye yönelik önemli bir adım olduğunu ve karmaşık kanıtları yazabilen bir sistem geliştirmenin yapay genel zekaya yol açmaya nasıl yardımcı olabileceğini tartışmak için konuştu.
Yarışmadan sadece birkaç ay önce aniden IMO için bir yapay zeka modeli hazırlamaya başlamanıza ne sebep oldu? Kıvılcım neydi?
WEI: Bir süredir matematik kanıtları üzerinde düşünüyordum. OpenAI'de MathGen adında bir takımdayım. Sonuçların çok ilerlediğini görmüştük. IMO'da gerçekten başarılı olabilecek bir model elde etme şansımız olduğunu hissettik ve oraya ulaşmak için çılgınca bir hamle yapmak istedik.
HSU: Matematik yarışmaları yapardım. matematik yarışmaları yapardı; benden çok daha iyiydi. IMO kesinlikle iyi bilinmektedir. OpenAI'deki araştırmacılar da dahil olmak üzere topluluk. Bu yüzden özellikle bunun için çabalamak gerçekten ilham vericiydi.
Matematik problemlerine cevap vermek için özel olarak tasarlanmış bir sistem yerine genel amaçlı bir yapay zeka sistemiyle çalışma kararınız hakkında konuşabilir misiniz?
WEI: Felsefemiz, genel amaçlı yapay zeka oluşturmak ve yalnızca matematikte işe yaramayan yöntemler geliştirmek istememizdir. Matematik, yapay zeka için çok iyi bir kanıtlama alanıdır çünkü oldukça objektiftir: Eğer bir kanıtınız varsa, bunun doğru olup olmadığı konusunda fikir birliğine varmak daha kolaydır. Diyelim ki şiir için bu daha zor; okuyucular arasında daha fazla anlaşmazlık olacak. Ve IMO problemleri çok zor olduğundan, matematiğin ötesindeki alanlara da uygulanabileceklerini umarak zor problemleri genel amaçlı yöntemlerle çözmek istedik.
HSU: Ayrıca OpenAI'deki amacın YGZ oluşturmak olduğunu da söyleyebilirim; bunun mutlaka makale yazmak veya yarışmalar kazanmak olması gerekmiyor. Bu proje için yaptığımız her şeyin aynı zamanda daha büyük bir hedef olan AGI ve kullanıcıların gerçekten kullanabileceği daha iyi modeller oluşturma hedefi için de faydalı olması önemliydi.
IMO'da altın madalya kazanan bir akıl yürütme modeli, AGI'ye nasıl yardımcı olabilir?
WEI: Bir bakış açısı, görevlerin ne kadar süreceğini düşünmektir. Bir yıl önce ChatGPT yalnızca çok temel matematik problemlerini çözebiliyordu. İki yıl önce, hatta bir buçuk yıl önce, sık sık beşinci sınıf ödevlerinde bulacağınız ilkokul matematik problemlerini düşünüyorduk. Matematikte gerçekten iyi olan birinin bunları okuyup çözmesi bir veya iki saniye alır. Daha sonra AIME kullanarak değerlendirmeye başladık . Bu, problem başına yaklaşık 10 dakika, 15 problem için ise yaklaşık üç saat sürer. IMO sadece üç problem için dört buçuk saattir; bu problem başına 90 dakikadır. ChatGPT hızlı sorular için iyi olmaya başladı. Artık "Bu paragrafı benim için düzenleyebilir misiniz?" gibi daha uzun süren görevlerde daha iyi. Yapay zeka geliştikçe görevlerin zaman ufkunu genişletebilirsiniz ve bu ilerlemeyi matematikte açıkça görebilirsiniz.
HSU: Bir başka husus da muhakeme modellerinin daha önce doğrulanması kolay görevlerde çok iyi olmasıydı. Kanıta dayalı olmayan bir matematik problemini çözüyorsanız, sayısal olarak doğru olan tek bir cevap vardır. Kontrol etmek kolaydır. Ancak gerçek dünyada ve insanların gerçekten yardım istediği görevlerde durum daha karmaşıktır. Bir nüans var: belki çoğunlukla doğrudur ama bazı hataları vardır; belki doğrudur ama daha iyi stilize edilebilir. Kanıta dayalı matematiğin değerlendirilmesi önemsiz değildir. AGI'yi düşünürsek, bu görevlerin doğru olup olmadığına karar vermek kolay olmayacak; genel olarak daha gevşek bir şekilde belirtilecek ve daha zor olacaklar.
Modeli eğitme süreci nasıldı?
WEI: Genel olarak takviyeli öğrenme, iyi davranışı ödüllendirerek ve kötü davranışı cezalandırarak bir modeli eğitir. İyi davranışı tekrar tekrar pekiştirirseniz ve kötü davranışın önüne geçerseniz, modelin iyi davranışı sergileme olasılığı artar.
HSU: Sonlara doğru test süresi hesaplamasını da artırdık . Eskiden bir insan için bu tür sorunlar birkaç dakika sürebiliyordu; şimdi saatlere ölçekleniyorduk. Bu ekstra düşünme süresi şaşırtıcı kazanımlar sağladı. Artan test süresi hesaplaması nedeniyle dahili test setimizde uzun süren değerlendirmeler yürüttüğümüz bir an vardı. Sonunda sonuçlara baktığımızda (ve Alex bunları derecelendirdiğinde) ilerlemeyi görmek bana altının ulaşılabilir olabileceğini düşündürdü. Bu oldukça heyecan vericiydi.
IMO testinde geliştirdiğiniz model altı yanıttan beşini doğru çıkardı. Ancak altıncı soruda model bir cevap vermeye çalışmadı. Bu tepkinin önemi hakkında bana daha fazla bilgi verebilir misiniz?
WEI: Bilmediğini bilen model, bunun ilk işaretlerinden biriydi. gördük. Bugün ChatGPT kullanıyorsanız bazen "halüsinasyonlar" göreceksiniz; modeller bilmediklerinde güvenilir bir şekilde bilmiyorlar. Bu yetenek matematiğe özgü değildir. Günlük sorular için model, bağımsız olarak doğrulamam gereken bir cevap vermek yerine bilmediğini dürüstçe söyleyebilseydi çok sevinirim.
Bu model üzerindeki çalışmanızın gelecekteki modeller üzerinde nasıl bir etkisi olabilir?
HSU: Bu proje için yaptığımız her şey oldukça genel amaçlıydı; tek yanıt olmayan çıktılara not verebilmek ve istikrarlı bir ilerleme kaydederken zor problemler üzerinde uzun süre çalışabilmek. Bunlar buradaki başarıya çok katkıda bulundu ve şimdi biz ve OpenAI'deki diğer kişiler bunları matematiğin ötesinde uyguluyoruz. GPT‑5'te olmasa da gelecek modellere bu özellikleri entegre etmenin heyecanını yaşıyoruz.
WEI: IMO sorunları için kamuya açık olarak yayınladığımız çözümlere bakarsanız, bazılarının çok uzun olduğunu görürsünüz; 5 ila 10 sayfa. Bu model hatasız, tutarlı ve tutarlı uzun çıktılar üretebilir. Mevcut en gelişmiş modellerin çoğu tamamen tutarlı beş sayfalık bir rapor üretemez. Bu özen ve hassasiyetin diğer birçok alanda yardımcı olacağı için heyecanlıyım.