Anasayfa / Bilgi-Araştırma-Analiz / Optik üretken modeller

40 kez okundu | Güncelleme: Aralık 27, 2025 05:11

Optik üretken modeller

ABONE OL

News

Aralık 27, 2025 05:11

BEĞENDİM

ABONE OL

News

Last Updated on Aralık 27, 2025 by EDİTÖR

Anlık görüntü optik görüntü oluşturma süreci

Anlık görüntü optik oluşturma prosedürü iki bölümden oluşur: dijital kodlayıcı ve optik üretken model. MNIST, Fashion-MNIST, Butterflies-100 ve Celeb-A’nın görüntü üretimi için seçtiğimiz dijital kodlayıcı mimarisi, çok katmanlı algılayıcının bir çeşididir⁵⁴içeren L_D tamamen bağlı katmanlar; bunların her birini müteakip bir aktivasyon fonksiyonu izledi Bay. Rastgele örneklenmiş bir giriş için ({mathcal{I}}(x,y) sim {mathcal{N}}({bf{0}},,{bf{I}}))Neresi (xin [1,,h],yin [1,w]) ile H Ve w sırasıyla giriş gürültü modelinin yüksekliğini ve genişliğini belirtir, dijital kodlayıcı bunu işler ve kodlanmış sinyali çıkarır ({{mathcal{H}}}^{({l__{d})}) tahmin edilen ölçeklendirme faktörü ile S (Ek Bilgiler bölümüne bakın1.1 ayrıntılar için). Dijital kodlayıcının tek boyutlu çıkış sinyali 2 boyutlu sinyale dönüştürülür ({{mathcal{H}}}^{({L__{d})}in {{mathbb{R}}}^{htimes w}). Van Gogh tarzı sanat eserleri üretimi için dijital kodlayıcı üç bölümden oluşur: bir gürültü özelliği işlemcisi, bir in silico alan yayıcısı ve bir karmaşık alan dönüştürücüsü (Ek Bilgiler bölümüne bakın)1.2 ayrıntılar için). Rastgele örneklenen giriş, 2 boyutlu bir çıkış sinyaline işlenir ({{mathcal{H}}}^{({l__{d})}in {{mathbb{R}}}^{htimes w}) ve aşağıda özetlendiği gibi sonraki optik üretken modele iletilir.

Uygulamamızda, genelliği kaybetmeden optik üretken model, bir SLM ve bir kırınımlı kod çözücüden oluşuyordu; L_O katmanların kodunu çözüyoruz. Kodlanmış faz modelini oluşturmak için (phi (x,{y})) SLM tarafından yansıtılan 2 boyutlu gerçek ({{mathcal{H}}}^{({L__{d})}) aralığına göre normalleştirildi ([0,alpha {rm{pi }}])şu şekilde formüle edilebilir:

$$phi (x,,y)=(alpha {rm{pi }}({{mathcal{H}}}^{({L_{d})}+1))/2$$

(1)

Burada, A faz dinamik aralığını kontrol eden katsayıdır.

Olay karmaşık optik alan profilini oluşturduktan sonra ({{{({{U}}}}^}}^‑(s,)=co (phi (xphi (x,)s)+isin (phi (xphi (x,y))). Kodlanmış faz deseninden ışığın havadaki yayılımı açısal spektrum yöntemiyle modellendi⁵⁵Neresi (Ben) sanal birimdir. Olay karmaşık alanının serbest uzay yayılımı ({‘mathcal{U}(x,y)) eksenel mesafe boyunca D kırılma indeksi olan bir ortamda N şu şekilde yazılabilir:

$${mathcal{o}}(x,y)={{mathcal{P}}}__{{rm{f}}}^{d}({mathcal{U}}(x,y))={{mathcal{F} }}^{-1}{{mathcal{F}}{{mathcal{U}}(x,y)}{mathcal{M}}({f_{x},,{f_{y},d,n)}$

(2)

Neresi ({mathcal{o}}(x,y)) 2 boyutlu çıktı karmaşık alanıdır, operatör ({{mathcal{P}}}__{{rm{f}}}^{d}(,cdot ,)) eksenel bir mesafe boyunca serbest uzay yayılımını temsil eder D, ({mathcal{F}},{,cdot ,}) (({{mathcal{F}}}^{-1}{,cdot ,})) 2D (ters) Fourier dönüşümüdür ve ({mathcal{M}}({f_{x},,{f_{y};{d};{n})) boş uzay yayılımının transfer fonksiyonudur:

$${mathcal{M}}({f__{x},,,{f__{y};d,;n)={begin{array}{cc}0, & {f__{x}^{2}+{f__{y}^{2} > frac{{n}^{2}}{{lambda }^{2}}\ exp left{{rm{j}}kdsqrt{1-{left(frac{2{rm{pi }}{f__{x}}{nk}right)}^{2}-{left(frac{2{rm{pi }}{f__{y}}{nk}right)}^{2}}right}, & {f_{x}^{2}+{f_{y}^{2}le frac{{n}^{2}}{{lambda }^{2}}end{array}$$

(3)

Neresi ({rm{j}}=sqrt{-1}), ben havadaki aydınlatmanın dalga boyudur, k = 2π/bendalga sayısı, F_X Ve F_sen uzaysal frekanslar X –sen uçak ve +z yayılma yönüdür.

Kod çözme katmanları (bir veya daha fazla), 2B karmaşık olay alanları için yalnızca faz modülatörleri olarak modellendi; burada çıkış alanları ({mathcal{o}}(x,y)) kod çözme faz modülasyonu altında ({{mathcal{P}}}__{{rm{m}}}) arasında ben_OKod çözme katmanı şu şekilde ifade edilebilir:

$${mathcal{o}}(x,y)={{mathcal{P}}}__{{rm{m}}}^{{phi }^{({l__{{rm{o}}})}}({mathcal{U}}(x,y))={mathcal{U}}(x,y)cdot exp ({rm{j}}{phi }^{({l__{{rm{o}}})}(x,y))$$

(4)

Neresi ({phi }^{({l__{{rm{o}}})}(x,y)) kırınım özelliklerinin faz modülasyon değerlerini temsil eder. ben_OAnlık görüntü optik görüntü oluşturmayı gerçekleştirmek için sığ dijital kodlayıcı ile ortaklaşa eğitilen kod çözme katmanı. Bu nedenle optik alan ({mathcal{o}}(x,y)) çıktıda veya görüntü düzleminde boş alan yayılımının yinelemeli olarak uygulanmasıyla hesaplanabilir ({{mathcal{P}}}__{{rm{f}}}) ve faz modülasyonunun kodunun çözülmesi ({{mathcal{P}}}__{{rm{m}}}):

$${mathcal{o}}(x,y)={{mathcal{P}}}__{{rm{f}}}^{{d__{{L}__{{rm{o}}},{L_{{rm{o}}}+1}},[mathop{prod }limits_{{l}_{{rm{o}}}=1}^{{L}_{{rm{o}}}}{{mathcal{P}}}_{{rm{m}}}^{{phi }^{{l}_{{rm{o}}}}}{{mathcal{P}}}_{{rm{f}}}^{{d}_{{l}_{{rm{o}}}-1,{l}_{{rm{o}}}}}]({{‘mathcal{Biz}}^{0)}(x,y)$$

(5)

Neresi ({d} {{l}} {{rm{o}}}-1,{l} _{{rm{o}}}}) arasındaki eksenel mesafeyi temsil eder (ben_O− 1)’inci ve ben_Okod çözme katmanları. Tüm bileşenlere yayıldıktan sonra oluşturulan yoğunluk ({mathcal{O}}) sensör düzleminde karmaşık genliğin karesi olarak hesaplanabilir ve kırınımlı kod çözücünün çıkış yoğunluğu, maksimumuna göre normalleştirildi, (max ({mathcal{O}})).

Örneğin birden fazla dalga boyunda çalışan model için, ben_(R,G,B)ileriye yayılmanın altında yatan mantık değişmeden kaldı. İleri prosedür sırasında dijital kodlayıcı, çok kanallı rastgele girişleri dönüştürür ({mathcal{I}}(x,{y},lambda )) kodlanmış faz modellerine (phi (x,{y},lambda )) farklı dalga boylarında ve bu modeller SLM’de sırayla görüntülendi, örneğin, ({phi _{{lambda _{{rm{R}}},{t_{1}},{phi _{{lambda _{{rm{G}}},{t_{2}},{phi _{{lambda _{{rm{B}}},{t_{3}}) sırasıyla kırmızı, yeşil ve mavi aydınlatmalar için. Her biri için kod çözme katmanının faz modülasyonu ben şu şekilde hesaplanır:

$${phi }^{({l_{{rm{o}}})}(x,y,lambda )=frac{{lambda _{{rm{c}}{rm{e}}{rm{n}}{rm{t}}{rm{r}}{rm{e}}}({n__{lambda }-1)}{lambda ({n} _ {{lambda _ {{rm {c}} _{{rm{c}}{rm{e}}{rm{n}}{rm{t}}{rm{r}}{rm{e}}})$$

(6)

nerede ({phi }^{({l_{{rm{o}})}(x,y,{lambda _{{rm{merkez}})) merkezi dalga boyunun faz modülasyonudur ben_merkez her kod çözme katmanı için 2B optimize edilebilir parametrelerdir. N_ben dalga boyunun bir fonksiyonu olarak optik kod çözücü malzemesinin kırılma indisidir. Denklemin (6) yapılandırılmış bir malzemeyle kod çözme katmanının modülasyon kaymasını hesaplamak içindir. Bu koşulun, her dalga boyunun, yeniden yapılandırılabilir kod çözücü yüzeyinin tüm serbestlik derecelerinden tam olarak yararlanarak karşılık gelen faz profiline sahip olabildiği sıralı çok renkli aydınlatmayı kullanan yeniden yapılandırılabilir kod çözücü şeması için geçerli olması gerekmez.

Optik üretken modeller için eğitim stratejisi

Üretken modelin amacı, verilerin temel dağılımını yakalamaktır. ({p__{{rm{veri}}}{mathscr{(}}{mathcal{I}}{mathscr{)}}) böylece yeni örnekler üretebilir ({p__{{rm{model}}}({mathcal{I}})) orijinal veri sınıflarına benzeyen. ({mathcal{I}})Girdi olarak basit ve erişilebilir bir dağılım, genellikle standart bir normal dağılım izler. Bu hedefe ulaşmak için DDPM’ye dayalı bir öğretmen dijital üretken modeli⁴ İlk önce veri dağılımını öğrenmek için kullanıldı. DDPM eğitiminin ayrıntıları Ek Bilgiler bölümünde sunulmaktadır. 2. Öğretmen üretken modeli hedef dağılımını öğrendikten sonra ({p__{{rm{veri}}}({mathcal{I}}))Anlık görüntü optik üretken modelinin eğitimine öğrenilmiş dijital öğretmen modeli yardımcı oldu; burada önerilen modelin amacı şu şekilde formüle edildi:

$${mathcal{L}}(theta )=mathop{min}limits_{theta }{{rm{M}}{rm{S}}{rm{E}}({{mathcal{O}}}__{{rm{t}}{rm{e}}{rm{a}}{rm{c}}{rm{h}} {rm{e}}{rm{r}}},{s{mathcal{O}}}__{{rm{m}}{rm{o}}{rm{d}}{rm{e}}{rm{l}}})+gamma {rm{K}}{rm{L}}({p__{{rm{t}}{rm{e}}{rm{a}}{rm{c}}{rm{h}}{rm{ e}}{rm{r}}}||{p__{{rm{m}}{rm{o}}{rm{d}}{rm{e}}{rm{l}}}^{theta })}$$

(7)

Neresi ({p__{{rm{öğretmen}}}({mathcal{I}}) sim {p__{{rm{veri}}}({mathcal{I}})) öğretmen üretken modelinin öğrenilen dağılımını temsil eder, MSE ortalama kare hatasıdır ve ({rm{KL}}(cdot Vert cdot )) Kullback-Leibler (KL) farklılığını ifade eder². ({p__{{rm{model}}}^{theta }{mathscr{(}}{mathcal{I}}{mathscr{)}}) anlık görüntü optik üretken modeli tarafından yakalanan dağılımdır ve Ben optimize edilebilir parametreleridir. Uygulamada tüm (p({mathcal{I}})) oluşturulan görüntülerin histogramları kullanılarak ölçüldü ({mathcal{O}}(x,y)). ({{mathcal{O}}}__{{rm{model}}}) optik üretken modelden üretilen görüntüleri ifade eder, ({{mathcal{O}}}__{{rm{öğretmen}}}) öğrenilmiş öğretmen modelinden örnekleri belirtir, S dijital kodlayıcı tarafından tahmin edilen bir ölçeklendirme faktörüdür ve C ampirik bir katsayıdır.

Anlık görüntü optik üretken modellerin uygulama ayrıntıları

Sınıf etiketlerini içeren MNIST ve Fashion-MNIST veri kümeleri için dijital kodlayıcıdaki ilk katmanın giriş özellikleri şu şekilde formüle edildi:

$${{mathcal{H}}}^{(0)}={rm{birleştir}}({rm{düzleştir}}({mathcal{I}}(x,y)),{rm{gömme}}({mathcal{C}},l))$$

(8)

Neresi ({mathcal{C}}) hedef neslin sınıf etiketidir ve bengömme(·) işleminin boyutudur. Bu, bir giriş özelliğiyle sonuçlandı ({{mathcal{H}}}^{(0)}in {{mathbb{R}}}^{{xy}+l}). Butterflies-100 ve Celeb-A veri kümelerinin açık sınıf etiketleri yoktur, dolayısıyla işlemler daha önce gösterilenle aynıydı; ({{mathcal{H}}}^{(0)}={rm{düzleştirme}}({mathcal{I}}(x,y))). Giriş çözünürlükleri (X, sen ) tüm veri kümeleri için 32 × 32 olarak ayarlandı ve sınıf etiketi yerleştirme boyutu ben ayrıca 32’ye ayarlandı. Dijital kodlayıcının içerdiği L_D= 3 tamamen bağlı katman ve nöron sayısı ({m__{{l__{d}}) her katmanda giriş özelliğinin boyutuyla aynıydı; yani xy +ben MNIST ve Fashion-MNIST veri kümeleri için ve 3 xy Üç renkli kanallar sayesinde Butterflies-100 ve Celeb-A veri kümeleri için. Aktivasyon fonksiyonu Bay 0,2 eğimle LeakyReLU(·) kullanır.

Sayısal simülasyonlarda, optik üretken modelin minimum yanal çözünürlüğü 8 μm, aydınlatma dalga boyu ise monokrom çalışma için 520 nm ve çok renkli çalışma için (450 nm, 520 nm, 638 nm) idi. Sayı L_O Kod çözme katmanının uzunluğu 1’e ayarlandı; SLM düzleminden kod çözme katmanına olan eksenel mesafe D_0,1 120,1 mm idi ve kod çözme katmanından sensör düzlemine olan mesafe D_1,296,4 mm idi. Kodlanmış faz modelinin, yani optik üretken tohumun yapımında (phi (x,{y}))katsayı A Normalleştirmenin faz aralığını kontrol eden değer 2,0’a ayarlandı ve normalleştirilmiş profil her ikisinde de üst örneklendi. X ve senYönleri 10 kat artırdı. Dolayısıyla nesne düzleminin boyutu ve çözünürlüğü sırasıyla 2,56 mm × 2,56 mm ve 320 × 320 idi. Kod çözme katmanındaki optimize edilebilir özelliklerin sayısı 400 × 400 idi. Görüntü düzleminde, 320 × 320 yoğunluk ölçümü, kayıp hesaplamaları için 10 faktörüyle alt örneklendi.

Öğretmen DDPM’nin eğitimi sırasında toplam zaman adımı T 1.000 olarak belirlendi. Gürültü tahmin modeli ({{epsilon }} _{{theta _{{rm{proxy}}}}({{mathcal{I}}} _{t},t)) genel DDPM ile aynı yapı profilini paylaştı.B_T 1 × 10’dan doğrusal bir fonksiyondu⁻⁴ (T= 1) ila 0,02 ( T=T ). Anlık görüntü optik üretken modellerin eğitiminde, KL ıraksamasının histogramı, aralığı içindeki normalleştirilmiş tamsayı yoğunluk değerleri kullanılarak hesaplandı. [−1, 1]ve düzenlileştirme katsayısı C 1 × 10 olarak ayarlandı⁻⁴. Tüm üretken modeller AdamW optimizer kullanılarak optimize edildi⁵⁶. Dijital parametreler (dijital kodlayıcı ve DDPM) için öğrenme oranı 1 × 10⁻⁴ve kod çözme katmanı için 2 × 10⁻³öğrenme oranı için bir kosinüs tavlama zamanlayıcısı ile. Toplu iş boyutları DDPM için 200 ve anlık görüntü oluşturma modeli için 100 olarak ayarlandı. Tüm modeller PyTorch 2.21 kullanılarak eğitildi ve test edildi⁵⁷ tek bir NVIDIA RTX 4090 grafik işlem birimiyle.

Van Gogh tarzı sanat eseri üretimi için, görüntü üretiminin koşulları olarak üç sınıf etiketi kullanıldı: {‘mimari’, ‘bitkiler’ ve ‘kişi’}. Giriş çözünürlüğü ( X, sen) gizli gürültü (80, 80) olarak ayarlandı ve sınıf etiketi yerleştirme boyutuben80’di. Optik üretken modelin tüm gizli alanı kapsamasını kolaylaştırmak için giriş gürültüsüne bozulmalar ekledik.⁵⁸. Tek renkli ve çok renkli sanat eseri oluşturmanın sayısal simülasyonları, daha düşük çözünürlüklü optik görüntü oluşturmayla aynı fiziksel mesafeyi ve dalga boyunu paylaşıyordu. Nesne düzlemi boyutu 1.000 × 1.000 çözünürlükle 8 mm × 8 mm idi. Kod çözme katmanındaki optimize edilebilir özelliklerin sayısı 1.000 × 1.000 idi. Görüntü düzleminde boyut ve çözünürlük sırasıyla 5,12 mm × 5,12 mm ve 640 × 640 idi. Van Gogh tarzı sanat eserleri üreten öğretmen DDPM’si için önceden eğitilmiş Stable Diffusion v1.5’e ince ayar yaptık.⁵⁸ vangogh2photo veri kümesiyle¹⁹ ve buna GIT tabanlı bir modelle başlık ekledim⁵⁹. Toplam zaman adımıT 1000 adıma ayarlandı veB_T 0,00085’ten doğrusal bir fonksiyondu (T= 1) ila 0,012 ( T=T ). Modeller, dört NVIDIA RTX 4090 grafik işlem birimine sahip PyTorch 2.21 kullanılarak eğitildi ve test edildi. Daha fazla ayrıntıyı Ek Bilgiler bölümünde bulabilirsiniz. 3.

Anlık görüntü optik görüntü oluşturmanın kalitesini değerlendirmek için IS⁴¹ ve FID⁴² Orijinal dağılımlarla karşılaştırıldığında oluşturulan görüntülerin çeşitliliğini ve aslına uygunluğunu ölçmek için göstergeler kullanıldı. Sınıf koşullu nesil için, örneğin el yazısıyla yazılmış rakamlar için, farklı veri seti kompozisyonları üzerinde eğitilmiş bireysel ikili sınıflandırıcıların sınıflandırma doğruluğunu karşılaştırarak, optik olarak oluşturulan anlık görüntülerin etkinliğini daha da inceledik. Genişletilmiş Veri Şekil 2’de gösterildiği gibi. 2eAynı evrişimli sinir ağı mimarisini temel alan her ikili sınıflandırıcı, belirli bir el yazısı rakamının belirli bir rakama veya sınıfa ait olup olmadığını belirlemek için eğitildi. Standart MNIST veri seti, %50-%50 karışık veri seti ve optik olarak oluşturulan görüntü veri setinin her biri, hedef rakam başına 5.000 görüntü ve 5.000 hedef olmayan rakam içeriyordu; burada hedef olmayan rakamlar, kalan sınıflardan eşit şekilde örneklendi. El yazısı vuruş kalınlığındaki değişiklikleri simüle etmek için, optik olarak oluşturulan görüntüleri, morfolojik işlemler (erezyon ve genişleme) yoluyla rastgele çekirdek boyutlarıyla oluşturulan ikili maskeler uygulayarak artırdık. Yüksek çözünürlüklü görüntü üretimini değerlendirmek amacıyla, oluşturulan görüntüler ile referans verilen metin arasındaki hizalamayı ölçmek için CLIP puanı kullanıldı (Genişletilmiş Veri Şekil 1’de ayrıntılı olarak açıklanmıştır). 7).

Çok renkli optik üretken modeller

Genişletilmiş Veri Şek. 3a ‘Sonuçlar’da bildirilen tek renkli modelle aynı donanım konfigürasyonunu paylaşan çok renkli optik üretken modelimizin şemasını gösterir. Çok renkli görüntü üretimi için üç kanalın rastgele Gauss gürültü girişleri (ben_R, ben_G, ben_B) sığ ve hızlı bir dijital kodlayıcıya beslenir ve her dalga boyu kanalındaki faz kodlu üretken tohum modelleri (({phi _{{lambda _{{rm{R}}}}), ({phi _{{lambda _{{rm{G}}}}), ({phi _{{lambda _{{rm{B}}}})) sırayla yüklenir ( T₁, T₂, T₃ ) aynı giriş SLM’sine (Genişletilmiş Veri Şek. 3a). Karşılık gelen dalga boylarının sırayla aydınlatılması altında, aynı görüntü oluşturma görevi için ortaklaşa optimize edilen sabit bir kırınımlı kod çözücü aracılığıyla istenen veri dağılımını takip eden çok renkli görüntüler üretilir. Ortaya çıkan çok renkli görüntüler, daha önce olduğu gibi aynı görüntü sensörüne kaydedilir. Genişletilmiş Veri Şekil 2’de gösterilen çok renkli optik görüntü oluşturma çerçevesini sayısal olarak test ettik. 3a Butterflies-100 veri kümesinde 2 farklı üretken optik modelin eğitildiği 3 farklı dalga boyu (450 nm, 520 nm, 638 nm) kullanılarak^17,60 ve Celeb-A veri seti¹⁸ ayrı ayrı. Bu iki görüntü veri kümesinin açık kategorileri olmadığından sığ dijital kodlayıcı, sınıf etiketi yerleştirmeden girdi olarak yalnızca rastgele örneklenmiş Gauss gürültüsünü kullandı. Örneğin, Genişletilmiş Veri Şek. 3b çok renkli optik üretken model tarafından üretilen çeşitli kelebek görüntülerini gösterir ve ilgili veri dağılımını takip eden çeşitli görüntü özelliklerine ve karakteristiklerine sahip yüksek kaliteli çıktı görüntüleri ortaya çıkarır. Genişletilmiş Verilerde Şek. 3c,dButterflies-100 ve Celeb-A veri kümelerindeki FID ve IS performans ölçümleri de sunulmaktadır. IS metrikleri ve T -test sonuçları, optik çok renkli görüntü oluşturma modelinin istatistiksel olarak anlamlı bir iyileşme sağladığını göstermektedir ( POrijinal Butterflies-100 veri seti ile karşılaştırıldığında görüntü çeşitliliği ve IS puanları açısından <0,05) olmasına rağmen orijinal Celeb-A veri dağılımı ile karşılaştırıldığında istatistiksel olarak anlamlı bir fark göstermemektedir. Ek olarak, bazı başarısız görüntü oluşturma durumları Genişletilmiş Veri Şekil 1'in sağ alt köşesinde kırmızı kutularla vurgulanmıştır. 3b. Bu nadir durumlar, tahmini gürültü varyansı ile oluşturulan görüntülerin ( P²) 0,015’lik ampirik eşiğin aşılması, üretim arızaları olarak sınıflandırıldı⁶¹ (Ek Şek. 16). Bu tür görüntü oluşturma hataları, Butterflies-100 ve Celeb-A veri kümeleri için optik olarak oluşturulan görüntülerin sırasıyla %3,3 ve %6,8’inde gözlendi. Genişletilmiş Veri Şek. 3e Bu görüntü oluşturma hatasının, daha uzun süre eğitilen optik üretken modeller için daha ciddi hale geldiğini ortaya koyuyor. Bu davranış, kavramsal olarak bazen eğitim aşamasında daha derinlerde gözlemlenen mod çökmesi sorununa benzer; bu da daha uzun süre eğitilmiş çok renkli optik üretken modellerin çıktılarının bazı tekrarlayan görüntü özellikleriyle sınırlı olmasını sağlar.

Performans analizleri ve karşılaştırmalar

Anlık görüntü optik üretken modelleri ile yığılmış tamamen bağlantılı katmanlardan oluşan tamamen dijital derin öğrenme tabanlı modeller arasında performans karşılaştırmaları yaptık.⁶²aynı görüntü oluşturma görevi üzerinde eğitim aldı. Ek Şekiller 17–21 bu optik ve tamamen dijital üretken modellerin farklı konfigürasyonlarını sunar. Bu analizde, bu yaklaşımların kapsamlı bir karşılaştırmasını sağlayarak hesaplama işlemlerini (yani kayan nokta işlemlerini (FLOP’lar), eğitim parametrelerini, ortalama IS değerlerini ve oluşturulan görüntülerin örneklerini) rapor ediyoruz. Ek Şekil 2’deki dijital üretken modeller. 18 tamamen dijital derin öğrenmeye dayalı üretken modelin derinliği sığ olduğunda, çıktı görüntü kalitesinin hedef veri kümesinin tüm dağılımını yakalayamadığını, bunun da hatalara veya tekrarlayan nesillere yol açtığını ortaya çıkardı. Bununla birlikte, sığ bir dijital kodlayıcıya sahip anlık görüntü optik üretken modeli, dokuz tamamen bağlı katmanla istiflenmiş daha derin bir dijital üretken modelin performansıyla eşleşerek istatistiksel olarak karşılaştırılabilir bir görüntü oluşturma performansı gerçekleştirebilir (Ek Şekil 1). 18). Ek karşılaştırmalar sağlamak için Ek Şekil 2’deki dijital modeller. 19–20 optik üretken modellerin eğitiminde kullanılan aynı öğretmen DDPM’si kullanılarak eğitildi ve sonuçlar benzer sonuçları gösterdi. Ek Şekil 2’de. 21DDPM’deki U-Net parametre sayısının sığ dijital kodlayıcımızınkiyle eşleşecek şekilde azaltıldığı dijital DDPM’yi kullanarak karşılaştırmalar da gösteriyoruz; bu, dijital DDPM’nin çıkışlarında bazı görüntü oluşturma hatalarına neden oldu (1000 gürültü giderme adımı kullanılmasına rağmen), Ek Şekil 2’de kırmızı karelerle örneklenmiştir. 21c. Genel olarak, bulgularımız Ek Şekiller’de rapor edilmiştir. 18–21 optik üretken modeller için öğretmen olarak büyük bir DDPM kullanmanın, sığ bir dijital faz kodlayıcı ve ardından optik kırınımlı kod çözücü aracılığıyla tek bir anlık görüntüdeki görüntülerin kararlı sentezini gerçekleştirebileceğini öne sürüyor.

Ayrıca anlık görüntü optik üretken modellerimizin mimarisini, kırınımlı kod çözücünün çıkarıldığı boş alan yayılımına dayalı optik kod çözme modeline göre karşılaştırdık (Ek Şekil 1). 22a,b). Bu karşılaştırmanın sonuçları, kırınımlı kod çözücü yüzeyinin, oluşturulan görüntülerin görsel kalitesinin iyileştirilmesinde hayati bir role sahip olduğunu göstermektedir. Ek Şekil 2’de. 22cAyrıca dijital kodlayıcıdaki sınıf yerleştirme özelliğini de analiz ettik; bu ek analiz, sınıf yerleştirmesi olmayan bir optik modelin anlık görüntü oluşturma kalitesinin daha düşük olduğunu ortaya çıkarır; bu, bu ek bilginin, optik üretken modeli, temeldeki hedef veri dağılımının genel yapısını daha iyi yakalayacak şekilde koşullandırdığını gösterir.

Anlık görüntü optik üretken modelimizin fiziksel özelliklerine daha fazla ışık tutmak için, Ek Şekil 2’de. 23kodlama faz aralığının bir fonksiyonu olarak optik üretken modellerin performansını rapor ediyoruz: [0–απ]. Analizlerimiz şunu ortaya çıkardı [0–2π] SLM’deki giriş fazı kodlaması beklendiği gibi daha iyi görüntü oluşturma sonuçları sağlar. Ek Şekil 2’de. 17aAyrıca optik üretken tohum fazı desenlerinin çözünürlüğü ile oluşturulan görüntülerin kalitesi arasındaki ampirik ilişkiyi de araştırdık. Kodlanmış faz tohum modellerinin uzamsal çözünürlüğü azaldıkça, görüntü oluşturmanın kalitesi düşer ve bu durum, üretken optik tohumdaki alan-bant genişliği ürününün önemini ortaya çıkarır.

Ayrıca, Ek Şekil 2’de. 15sınırlı faz modülasyon seviyelerinin (yani sınırlı bir faz bit derinliğinin) optik üretken tohum düzleminde ve kırınımlı kod çözücüdeki etkisini araştırdık. Bu karşılaştırmalar, eğitim sürecinin ileri modeline modülasyon bit derinliği sınırlamasının (örneğin, ucuz SLM donanımı veya yüzey üretim sınırlamaları nedeniyle) dahil edilmesiyle görüntü oluşturma sonuçlarının iyileştirilebileceğini ortaya çıkardı. Sınırlı bir faz bit derinliği kullanan böyle bir eğitim stratejisi, sabit veya statik kod çözücü yüzeyinin, kod çözücü faz fonksiyonu aracılığıyla başarılı bir şekilde görüntü oluşturmak için 4 fazlı bit derinliği ve hatta özellik başına 3 ayrı faz seviyesi (örneğin, 0, 2π/3, 4π/3) ile çalışabileceğini ortaya çıkardı (Ek Şekil 1). 15). Çoğu iki fotonlu polimerizasyon veya optik litografi bazlı üretim yöntemleri nedeniyle bu önemlidir.^52,53 özellik başına 2 ila 16 ayrı faz seviyesine sahip yüzeyleri rutin olarak üretebilir; bu, kod çözücü SLM’nin pasif fabrikasyonlu bir yüzey yapısıyla değiştirilmesine yardımcı olabilir.

Ayrıca, anlık optik üretken modellerin başarısı için difüzyon modelinden ilham alan eğitim stratejimizin önemini de araştırdık (Ek Şekil 1). 17b). Bir optik üretken modeli üretken bir rakip ağ olarak eğitirken¹ veya değişken bir otomatik kodlayıcı²optik üretken modelin altta yatan veri dağılımını yakalamasında zorluk gözlemledik, bu da tekrarlayan veya birbirine oldukça benzeyen sınırlı sayıda çıktıyla sonuçlanıyor; bu da istenen veri dağılımını takiben çeşitli ve yüksek kaliteli görüntüler oluşturamıyor.

Renkli Van Gogh tarzı sanat eserlerinin üretilmesi için ayrıca Genişletilmiş Veri Şekil 2’de gösterildiği gibi optik üretken model, küçültülmüş boyutlu yayılma modeli (faz kodlayıcımızın boyutuyla eşleşen) ve önceden eğitilmiş öğretmen dağılım modeli için performans karşılaştırmaları da yaptık. 8. Optik üretken modelimizle karşılaştırıldığında, faz kodlayıcımızın boyutuna uyan küçültülmüş boyutlu difüzyon modeli, 1000 çıkarım adımı kullanmasına rağmen sınırlı semantik ayrıntılara sahip kalitesiz görüntüler üretti. Optik üretken model çıktıları, öğretmen dağılım modeliyle (aynı zamanda 1.000 çıkarım adımıyla 1,07 milyar eğitilebilir parametre kullanan) eşleşir. Ayrıca, CLIP puanı değerlendirmeleri, optik olarak oluşturulan görüntülerin, temeldeki anlamsal içerikle iyi bir uyum gösterdiğini göstermektedir. Van Gogh tarzı sanat eseri üretimine ilişkin ek değerlendirmeler Ek Şekiller’de sunulmaktadır. 13 Ve 14Burada tepe sinyal-gürültü oranı ve CLIP puanlarının hem piksel düzeyinde hem de anlamsal düzeyde tutarlılık gösterdiği bildirilmektedir. Yalnızca 800 kadar doğrulanmış Van Gogh tablosu mevcut olduğundan, IS veya FID göstergelerini sınırlı bir veri dağılımına göre hesaplamak anlamlı değildir ve daha az istikrarlı olacaktır.

Faz kodlamaya karşı genlik veya yoğunluk kodlaması

Optik üretken model tarafından kullanılan faz kodlama stratejisi, girişteki faz desenlerinin doğrusal kombinasyonları, çıktıda bireysel çıktıların doğrusal bir üst üste binmesi olarak temsil edilebilecek karmaşık alanlar veya yoğunluk modelleri yaratmadığından etkili bir doğrusal olmayan bilgi kodlama mekanizması sağlar. Aslında bu faz kodlama stratejisi, kırınımlı kod çözme katmanının yeteneklerini geliştirir; Karşılaştırma için, Genişletilmiş Veri Şekil 2’de sunulduğu gibi genlik kodlaması veya yoğunluk kodlaması kullanarak optik üretken modelleri eğittik. 9Bu, oluşturulan el yazısı rakamlı görüntülerdeki daha düşük FID puanlarıyla ölçülen üstün performansıyla faz kodlamanın avantajlarını daha da vurgulamaktadır. Benzer şekilde, Van Gogh tarzı sanat eserlerinin üretilmesi için genlik kodlaması veya yoğunluk kodlaması kullanan optik üretken modeller, Genişletilmiş Veri Şekil 2’de gösterildiği gibi tutarlı, yüksek kaliteli ve yüksek çözünürlüklü çıktı görüntüleri üretmekte başarısız oldu. 9faz kodlama stratejisi Van Gogh tarzı sanat eserlerini başarıyla üretti. Bu karşılaştırmalar, faz kodlamanın optik üretken modeldeki kritik rolünün altını çiziyor.

Yinelemeli optik üretken modellerin uygulama ayrıntıları

DDPM genellikle Markovian gürültü süreci olarak modellenir Q orijinal veri dağıtımına yavaş yavaş gürültü ekleyen ({p__{{rm{veri}}}({mathcal{I}})) gürültülü örnekler üretmek ({{mathcal{I}}}__{1}) ile ({{mathcal{I}}}__{T}). Yinelemeli optik üretken modellerimiz aynı zamanda yinelemeli oluşturmayı gerçekleştirmek için benzer bir şema kullanmıştır; yani ileri yayma prosedürüyle eğitim ve ters prosedürle çıkarım yapma. Ters işlem iki yinelemeli işlemi gerçekleştirdi: ilki, e_T Gauss sürecinin ortalama değerlerini elde etmek için (q({{mathcal{I}}} _{t-1}|{{mathcal{I}}} _{t},{{mathcal{I}}} _{0}))daha sonra varyansı önceden belirlenmiş bir Gauss gürültüsü ekleniyor. Yinelemeli optik üretken modelin hedefi, orijinal verileri tahmin etmekti. ({{mathcal{I}}}__{0}).

Her ne kadar dağıtımı ({{mathcal{I}}}__{t}) ve ortalama ({text{m}}__{t-1,t}) ile ilgili (q({{mathcal{I}}} _{t-1}|{{mathcal{I}}} _{t},{{mathcal{I}}} _{0})) farklıysa, Gaussian süreciyle başarılı bir şekilde temsil edilebilirler. ({{mathcal{I}}}__{0}) (Ek Bilgiler bölümlerine bakın2.2 Ve 2.3 ayrıntılar için):

$${{mathcal{I}}}_{t} sim {mathcal{N}}(sqrt{{bar{alpha }}_{t}}{{mathcal{I}}}_{0},sqrt{1-{bar{alpha }_{t}}{bf{I}})$$

(9)

$${text{m}__{t-1,t} sim {mathcal{N}},left(frac{{{mathcal{I}}}__{t}}{sqrt{{alpha _{t}}},frac{1-{alpha _{t}}{sqrt{{alpha _{t}(1-{bar{alpha }__{t})}}{bf{I}}right)$$

(10)

Bu nedenle bir katsayı ekledik. ({{rm{SNR}}} _{t}=sqrt{{bar{alpha }} _{t}}/sqrt{{alpha _{t}}) Hedef dağılımdaki dönüşümü gerçekleştirmek için (bkz. Ek Bilgiler bölümü) 2.4 ayrıntılar için). Yinelemeli optik üretken modeller için kayıp fonksiyonu şu şekilde oluşturulmuştur:

$${mathcal{L}}(theta )=mathop{min}limits_{{theta _{{rm{m}}{rm{o}}{rm{d}}{rm{e}}{rm{l}}}}{E__{t sim [1,T],{{mathcal{I}}}_{0} sim {p_{{rm{d}}{rm{a}}{rm{t}}{rm{a}}}({mathcal{I}})}[{parallel {{rm{S}}{rm{N}}{rm{R}}}_{t}{{mathcal{I}}}_{0}-{{mathcal{O}}}_{{theta }_{{rm{m}}{rm{o}}{rm{d}}{rm{e}}{rm{l}}}}({{mathcal{I}}}_{t},t)parallel }^{2}]$$

(11)

NeresiBen_modeliyinelemeli optik üretken modelin parametresidir, T gürültü giderme zamanlayıcısındaki toplam zaman adımıdır ve ({{mathcal{O}}} _{{rm{model}}}({{mathcal{I}}} _{t},t)) gürültüsüz örnekten tahmin edilen optik üretken modelin çıktı özelliğidir ({{mathcal{I}}}__{t}) ve zaman adımı T .

Yinelemeli optik üretken model, sığ bir dijital kodlayıcı ve yüksek kaliteli görüntüler oluşturmak için birlikte çalışan bir optik üretken modelden oluşuyordu. Eğitim prosedüründe, önce bir grup zaman adımı örneklendi, ardından orijinal veriler örneklendi. ({{mathcal{I}}}__{0}) almak için zaman adımlarının zamanlayıcısı tarafından gürültü yapıldı ({{mathcal{I}}}__{t}). Gürültülü görüntüler, karşılık gelen zaman adımlarıyla birlikte dijital kodlayıcıya beslendi. Zaman adımlarının, anlık görüntü optik üretim modellerinde kullanılan sınıf etiketlerine benzer şekilde ekstra bilgi olduğu belirtilmektedir. Denklem olarak (7), çıkış yoğunluğu ({{mathcal{O}}} _{{rm{model}}}({{mathcal{I}}} _{t},t)) öğrenilebilir parametreleri güncellemek için kayıp değerini hesaplamak için kullanıldı.

Çıkarım aşamasında, ({{mathcal{I}}}__{t}) zaman adımında Gauss gürültüleriyle başladıTyani ({{mathcal{I}}} _{T} sim {mathcal{N}}({bf{0}},,{bf{I}})). Sonrasında ({{mathcal{I}}}__{t}) dijital kodlayıcı ve üretken optik modelden geçtiğinde, görüntü düzleminde alınan sonuçtaki optik yoğunluk görüntüsü normalleştirildi. [−1, 1] aralık ve daha sonra tasarlanan gürültüyle eklendi:

$${{mathcal{I}}}_{t-1}=({{mathcal{O}}}_{{rm{model}}}({{mathcal{I}}}_{t},t)-0.5)times 2+{sigma _{t}z$$

(12)

Neresi ({{mathcal{O}}} _{{rm{model}}}({{mathcal{I}}} _{t},t)) görüntü sensörü düzlemindeki normalleştirilmiş çıkış yoğunluğudur. (z sim {mathcal{N}}({bf{0}},{bf{I}})) içinT> 1,z= 0 ne zaman T= 1 ve ({{{sigma }__{t}}^{2},=) ((1-{bar{alpha }}_{t-1}){beta _{t}/{1-bar{alpha }}__{t}). Ölçülen yoğunluk, tasarlanmış bir varyansla Gauss gürültüsü tarafından bozulur ve bunun ardından ortaya çıkan terim, ({{mathcal{I}}}__{t-1})bir sonraki zaman adımında optik üretken tohum olarak kullanılır. Yinelemeli optik üretken model iletildi Tkez, son görüntüyü oluşturuyoruz ({{mathcal{O}}} _{{rm{model}}}({{mathcal{I}}} _{1},1)) görüntü düzleminde.

Yinelemeli optik üretken modellerin sayısal uygulamalarında, çok renkli görüntü üretimi için iki veri seti ayrı ayrı kullanıldı: (1) Kelebekler-100^17,60 ve (2) Celeb-A¹⁸. Dijital kodlayıcının ve optik üretken modelin dışsal parametreleri, ( sayısı hariç) anlık görüntü optik üretken modellerine benzerdi.L_O ) 5 olarak ayarlanan kod çözme katmanlarının. Kod çözme katmanları arasındaki mesafe ({d} {{l}} {{rm{o}}}-1,{l} _{{rm{o}}}}) 20 mm idi. Yinelemeli optik üretken modellerin eğitiminde toplam zaman adımı T1.000 olarak belirlendi. B_T 1 × 10’dan doğrusal bir fonksiyondur⁻³/1 × 10⁻³ (T= 1, Kelebekler/Celeb-A) ila 5 × 10⁻³/0,01 (T=TKelebekler/Celeb-A). Öğrenilebilir parametreler AdamW optimizer kullanılarak optimize edildi⁵⁶. Dijital parametreler (dijital kodlayıcı ve DDPM) için öğrenme oranı 1 × 10⁻⁴ve kod çözme katmanı için 2 × 10⁻³öğrenme oranı için bir kosinüs tavlama zamanlayıcısı ile. Yinelemeli optik üretken model için parti büyüklüğü 200’dü. Modeller PyTorch 2.21 kullanılarak eğitildi ve test edildi⁵⁷ tek bir NVIDIA RTX 4090 grafik işlem birimiyle.

Yinelemeli optik üretken modellerin performans analizi

Ayrıca, kırınımlı katman sayısının etkisini ve optik görüntü üretimi için eğitilmiş çok katmanlı bir kırınımlı kod çözücünün imalatında veya montajındaki potansiyel yanlış hizalamalardan kaynaklanan performans sınırlamalarını da araştırdık. Analizimiz, dijital kodlayıcı olmadan yinelemeli optik görüntü oluşturma kalitesinin, kırınımlı katmanların sayısının azalmasıyla bir bozulma sergilediğini ortaya çıkardı. Ek Şekil. 24 ayrıca kırınımlı kod çözücünün ölçeklenebilirliğini de gösterir: kod çözme katmanlarının sayısı arttıkça, Celeb-A veri kümesindeki FID puanı düşer, bu da yinelemeli optik üretken modelin gelişmiş üretken kapasitesinin göstergesidir. Ayrıca, Ek Şekil 2’de gösterildiği gibi. 25yanal rastgele yanlış hizalamalar, çok katmanlı yinelemeli optik modellerin görüntü oluşturma performansında performans düşüşüne neden olur⁶³. Bununla birlikte, yinelemeli optik üretken modeli küçük miktarlarda rastgele yanlış hizalamalarla eğitmek, çıkarımını bu tür bilinmeyen, rastgele bozulmalara karşı daha sağlam hale getirir (Ek Şekil 1). 25Bu, optik üretken bir modelde daha derin kırınımlı kod çözücü mimarilerinin uygulanmasına yönelik esneklik sağlamak için önemli bir stratejidir.

Deneysel kurulum

Ortaklaşa eğitilen optik üretken modelin performansı, görünür spektrumda deneysel olarak doğrulandı. MNIST ve Fashion-MNIST görüntü üretimi için (Şek. 3 ve Genişletilmiş Veri Şek. 5), sistemin 520 nm’de aydınlatılması için lazer (Fianium) kullanıldı. Lazer ışını ilk olarak 4FFourier düzleminde 0,1 mm’lik bir iğne deliğine sahip sistem. Filtrelemenin ardından, polarizasyon yönünü SLM’nin sıvı kristalinin çalışma yönüne hizalamak için doğrusal bir polarizör uygulandı. Daha sonra ışık, kodlanmış faz modelini, yani optik üretken tohumu oluşturmak için SLM (Meadowlark XY Phase Series; piksel aralığı, 8 μm; çözünürlük, 1.920 × 1.200) tarafından modüle edildi. (phi (x,{y},lambda )). Yeniden yapılandırılabilir kırınımlı kod çözücü için, optimize edilmiş verileri görüntülemek üzere başka bir SLM (HOLOEYE PLUTO-2.1; piksel aralığı, 8 μm; çözünürlük, 1.920 × 1.080) kullanıldı. ({phi }^{({l__{{rm{o}}})}(x,y,lambda )). Kırınımlı kod çözücüden sonra, her çıktı görüntüsünün oluşturulan yoğunluğunu yakalamak için bir kamera (QImaging Retiga-2000R; piksel aralığı, 7,4 μm; çözünürlük, 1.600 × 1.200) kullandık. ({mathcal{O}}(x,y)). MesafeD_0,1 nesne düzleminden optik kod çözücü düzlemine olan mesafe 120,1 mm idi ve mesafeD_1,2optik kod çözücü düzleminden sensör düzlemine kadar olan mesafe 96,4 mm idi. Kodlanmış faz modelinin, kod çözme katmanının ve sensör düzleminin çözünürlüğü sırasıyla 320 × 320, 400 × 400 ve 320 × 320 idi. Sensör düzleminde görüntü yakalandıktan sonra bunlar ortadan kırpıldı, normalleştirildi ve tasarlanan çözünürlüğe göre yeniden boyutlandırıldı. Ek Videolara Bakın1–9 deneysel görüntüler için

Şekil 2’de gösterilen monokrom Van Gogh tarzı sanat eserlerine karşılık gelen optik görüntü oluşturma deneyleri için. 4 ve Genişletilmiş Veri Şek. 6Önceki deneylerdekiyle aynı kurulum kullanıldı ve yalnızca çözünürlükte ayarlamalar yapıldı. Kodlanmış faz modelinin, kod çözme katmanının ve sensör düzleminin çözünürlükleri sırasıyla 1.000 × 1.000, 1.000 × 1.000 ve 640 × 640 idi. Çok renkli sanat eseri üretimi için, örneğin, Şekil 2. 5aydınlatma dalga boyları {450, 520, 638} nm’ye ayarlanarak sırayla uygulanarak aynı kurulum kullanıldı. Yakalanan tüm görüntüler ilk önce sensörün bit derinliğine bölündü ve normalleştirildi. [0, 1]ve ardından gama düzeltmesini uyguladık (C= 0,454)⁶⁴ insan görüşüne uyum sağlamak.

Anlık görüntü optik üretken modeli aracılığıyla gizli uzay enterpolasyonu deneyleri

Anlık görüntü optik üretken modelinin gizli alanını keşfetmek için, rastgele gürültü girdileri ile oluşturulan görüntüler arasındaki ilişkiyi araştırmak için deneyler yaptık (Genişletilmiş Veri Şekil 1). 5Ek Şekil. 26 ve Ek Videolar3–9). Genişletilmiş Veri Şekil 2’de gösterildiği gibi. 5aiki rastgele giriş ({{mathcal{J}}}^{1}) Ve ({{mathcal{J}}}^{2}) normal dağılımdan örneklenir ({mathcal{N}}({bf{0}},{bf{I}})) ve denklem kullanılarak doğrusal olarak enterpolasyon yapılmıştır ({{mathcal{J}}}^{gamma }=gamma {{mathcal{J}}}^{1}+(1-gamma ){{mathcal{J}}}^{2})NeresiCenterpolasyon katsayısıdır. Sınıf yerleştirmenin de girdilerle aynı şekilde enterpolasyonlu olduğu belirtilmektedir. Enterpolasyonlu giriş ({{mathcal{J}}}^{gamma }) ve sınıf yerleştirme daha sonra eğitilmiş dijital kodlayıcıya beslenir ve karşılık gelen üretken faz tohumu elde edilir, bu da karşılık gelen görüntünün çıktısını almak üzere anlık görüntü optik üretken kurulumuna beslenir. Genişletilmiş Veri Şek. 5b optik üretken düzeneğimizi kullanarak el yazısıyla yazılan rakamların elde edilen görüntüleri üzerinde bu enterpolasyonun deneysel sonuçlarını gösterir. Her satırda oluşturulan görseller gösterilir({{mathcal{J}}}^{1}) (en soldaki)({{mathcal{J}}}^{2}) (en sağda), enterpolasyonlu girişler tarafından üretilen ara görüntüler ileC0 ila 1 arasında değişir. Oluşturulan görüntüler, farklı el yazısıyla yazılan rakamlar arasında yumuşak geçişler gösterir; bu, anlık görüntü optik üretken modelinin sürekli ve iyi organize edilmiş bir gizli alan temsilini öğrendiğini gösterir. Özellikle, enterpolasyonlu sınıf yerleştirmelerinin kullanımı, öğrenilen modelin harici bir genelleme gerçekleştirdiğini göstermektedir: tüm enterpolasyon süreci boyunca, oluşturulan görüntüler tanınabilir rakam benzeri özellikleri korur, enterpolasyonlu sınıf yerleştirmeleri aracılığıyla el yazısı bir rakamı kademeli olarak diğerine dönüştürür ve el yazısı rakamların temel veri dağılımının etkili bir şekilde yakalandığını gösterir. Optik kurulumumuzun ek enterpolasyon bazlı deneysel görüntü oluşturma sonuçları Ek Şekil 1’de gösterilmektedir. 26 ve Ek Videolar3–9.

Çoğullanmış optik üretken modeller

Genişletilmiş Veri Şekil 2’de gösteriyoruz. 10 optik üretken modelin gizliliği koruyan ve çoklu görsel bilgi üretme platformu olarak potansiyeli. Genişletilmiş Veri Şekil 2’de gösterilen şemada. 10aRastgele bir tohum tarafından oluşturulan tek bir kodlanmış faz modeli, farklı dalga boylarında aydınlatılır ve yalnızca doğru şekilde eşleştirilmiş kırınımlı kod çözücü, karşılık gelen dalga boyu kanalı içinde amaçlanan bilgiyi doğru bir şekilde yeniden yapılandırabilir ve ortaya çıkarabilir. Bu, güvenli içerik üretimi ve görsel bilgilerin bir grup izleyiciye çoklu bir şekilde eşzamanlı iletimini sağlar; burada dijital kodlayıcı tarafından sunulan bilgiler, doğru fiziksel kod çözücü kullanılmadığı sürece başkaları tarafından erişilemez kalır (Genişletilmiş Veri Şekil 1). 10b). Bu, Genişletilmiş Veri Şekil 1’de gösterildiği gibi, farklı kanallar arasındaki güçlü çapraz konuşma nedeniyle aynı kodlanmış modeli kullanarak bilgi kanallarını çoğaltmayı başaramayan boş alan tabanlı görüntü kod çözme işleminden farklıdır. 10c. Belirli bir kod çözücü mimarisindeki eğitilebilir kırınım özelliklerinin sayısını, dalga boylarının sayısıyla orantılı olarak artırarak, gizliliğin korunduğu bu çoğullama yeteneği, her benzersiz kod çözücünün aynı veya ortak kodlayıcı çıkışından yalnızca bir bilgi kanalına erişebildiği birçok dalga boyunu içerecek şekilde ölçeklendirilebilir. Kırınımlı kod çözücüler aracılığıyla sağlanan bu güvenli çoğullama yeteneği, kod çözücü malzemesinin dağılım mühendisliğine ihtiyaç duymaz ve kırınımlı kod çözücü sistemine polarizasyon çeşitliliği dahil edilerek daha da geliştirilebilir. Fiziksel güvenlik anahtarları görevi gören uzamsal olarak optimize edilmiş kırınımlı kod çözücüler olmadan, boş alan kırınımı veya bir ekran yoluyla basit bir dalga boyu ve/veya polarizasyon çoğullama şeması, gerçek koruma veya gizlilik sağlamaz çünkü herkes belirli bir dalga boyunda ve/veya polarizasyon kombinasyonunda oluşturulan görüntü içeriğine erişebilir.

Bu nedenle, dijital kodlayıcıyla ortaklaşa eğitilen fiziksel kod çözücü mimarisi, şifreleme ve gizliliğin korunması için doğal olarak güvenli bilgi işleme olanağı sunar. Kodlayıcı ve kod çözücüler birlikte tasarlandığından ve bireysel kod çözücüler çeşitli nanofabrikasyon yöntemleri kullanılarak üretilebildiğinden^52,53Tasarım dosyalarına erişim mevcut olmadığı sürece fiziksel kod çözücülere ters mühendislik uygulamak veya bunları kopyalamak zordur. Aynı dijital kodlayıcıdan sinyal alan farklı fiziksel kod çözücüler tarafından sağlanan bu fiziksel koruma ve özel çoğullama yeteneği, içeriği herhangi bir gözlemci için algılanabilir hale getirdiğinden, geleneksel görüntü görüntüleme teknolojilerinin performans göstermesi doğası gereği zordur. Bir grup kullanıcıya güvenli görsel iletişim (örneğin, halka açık), sahteciliğe karşı koruma ve kişiselleştirilmiş erişim kontrolü (örneğin, her kullanıcının belirli özelliklerine veya geçmişine dinamik olarak uyum sağlama) gibi çeşitli uygulamalar için, oluşturulan görsel içeriğin özel ve çoklanmış teslimi oldukça arzu edilir. Böyle bir güvenli çoğullanmış optik üretken model, sunulan çerçeveyi örneğin ışık yayan diyotlara açacak olan optik ileri modele arzu edilen uzamsal tutarlılık çapını uygun şekilde dahil ederek uzamsal olarak kısmen tutarlı ışıkla çalışacak şekilde de tasarlanabilir.

Optik üretken modellerin enerji tüketimi ve hızı

Sunulan optik üretken modeller dört ana bileşenden oluşur: toplu olarak görüntü gösterimi için optimize edilmiş elektronik kodlayıcı ağı, giriş SLM, aydınlatma ışığı ve kırınımlı kod çözücü. MNIST ve Fashion-MNIST veri kümeleri için kullanılan elektronik kodlayıcı, tamamen bağlantılı üç katmandan oluşur ve görüntü başına 6,29 MFLOP gerektirir ve enerji maliyeti yaklaşık 0,5–5,5 pJ FLOP’tur.⁻¹bu da görüntü başına 0,003–0,033 mJ enerji tüketimine neden olur. Şekil 2’de belirtilen Van Gogh tarzı sanat eserlerinde bu enerji tüketimi görüntü başına yaklaşık 1,13-12,44 J’ye ve yaklaşık 0,28-3,08 J’ye yükselmektedir. 4 Ve 5 ve Genişletilmiş Veri Şek. 6sırasıyla. 1,9–3,5 W güç aralığına sahip giriş SLM’si, 60 Hz yenileme hızında görüntü başına yaklaşık 30–58 mJ tüketir. SLM ile ilgili bu enerji tüketimi, son teknoloji ürünü bir SLM kullanılarak görüntü başına <2,5 mJ'ye düşürülebilir.^65,66,67. Kırınımlı kod çözücü, ikinci bir SLM kullanıldığında benzer bir enerji tüketimine sahiptir; ancak statik bir kod çözücü (örneğin, pasif olarak üretilmiş bir yüzey veya katman) kullanılırsa katkısı ihmal edilebilir hale gelecektir. Aydınlatma ışığına gelince, dalga boyu kanalı başına enerji tüketiminin görüntü başına 0,8 mJ’den az olduğu tahmin edilebilir.⁶⁸diğer faktörlerle karşılaştırıldığında ihmal edilebilir düzeydedir. Oluşturulan görüntüler bir görüntü sensörü çipi (örneğin, 5-10 mega piksellik CMOS görüntüleyici) tarafından dijitalleştirilecekse, bu da görüntü başına yaklaşık 2-4 mJ’lik ekstra enerji tüketimine neden olacaktır. Sonuç olarak, insan algılaması için üretilen görüntülerin genel enerji tüketimine (dijital kamera ihtiyacı hariç) düşük çözünürlüklü görüntü oluşturmada SLM tabanlı güç hakim olurken, dijital kodlayıcı güç tüketimi, Van Gogh tarzı sanat eserleri gibi yüksek çözünürlüklü görüntü oluşturma görevleri için baskın faktör haline geliyor. Buna karşılık, DDPM modelini kullanan grafik işleme birimi tabanlı üretim sistemleri, difüzyon ve ardışık gürültü giderme süreçlerinin (örneğin 1000 adımı içeren) hakim olduğu farklı enerji özelliklerine sahiptir. Örneğin, dijital bir DDPM modeli kullanarak MNIST, Fashion-MNIST ve Van Gogh tarzı sanat eseri görüntüleri oluşturmak için hesaplama gereksinimleri sırasıyla yaklaşık 287,68 GFLOP ve 530,26 TFLOP’tur; bu da MNIST ve Fashion-MNIST için görüntü başına yaklaşık 0,14–1,58 J’ye ve Van Gogh tarzı sanat eserleri için görüntü başına 265–2916 J’ye karşılık gelir. Ayrıca, önceki çeşitli çalışmaların, çıkarım hızlarını ve enerji verimliliğini artırmak için difüzyon modellerini hızlandırmaya odaklandığını da not ediyoruz. Örneğin, gürültü giderici difüzyon örtülü modeli, benzer görüntü kalitesini korurken DDPM’den 20 kata kadar daha hızlı içerik oluşturulmasını mümkün kıldı^69,70,71. Böylesine hızlandırılmış bir konfigürasyon altında, dijital gürültü giderici difüzyon örtülü modeli kullanarak görüntü oluşturmak için gereken tahmini hesaplama enerjisi, MNIST ve Fashion-MNIST için görüntü başına yaklaşık 7–79 mJ ve Van Gogh tarzı sanat eserleri için görüntü başına 13,25–145,8 J olacaktır. Ayrıca, oluşturulan görüntülerin insan algısı için bir monitörde görüntülenmesi gerekiyorsa, ek enerji tüketimi ortaya çıkar; genellikle 60 Hz yenileme hızında görüntü başına yaklaşık 13 mJ ile 500 mJ arasındadır.

Genel olarak bu karşılaştırmalar, üretilecek görüntü bilgisinin dijital alanda saklanması ve işlenmesi veya kullanılması durumunda optik üretken modellerin, optik kurulumda yer alacak dijitalden analoga ve analogdan dijitale dönüşüm adımları nedeniyle ek güç ve hız cezalarıyla karşı karşıya kalacağını ortaya koyuyor. Bununla birlikte, üretilecek görüntü bilgisi insan gözlemciler tarafından doğrudan görselleştirilmek üzere analog alanda kalacaksa (örneğin, göze yakın veya başa monteli bir ekranda), optik üretken tohumlar, yukarıda ayrıntılı olarak açıklandığı gibi, tohum başına mütevazı bir enerji tüketimi ile önceden hesaplanabilir. Ayrıca, statik kırınımlı kod çözücü yüzeyi, optik litografi veya iki fotonlu polimerizasyon bazlı nanofabrikasyon yöntemleri kullanılarak üretilebilir; bu yöntemler, ekran kurulumunda optik olarak anlık görüntüler üretebilir. Bu, arka uç kırınımlı kod çözücüyü üretilmiş bir pasif yüzeyle değiştirerek, ‘optik sanatçılar’ gibi kompakt ve uygun maliyetli görüntü oluşturuculara olanak sağlayabilir. Bu kurulum, daha basit yerel optik donanım kullanılarak çeşitli sanat eserleri de dahil olmak üzere sayısız görüntünün anlık görüntüsünün oluşturulmasına olanak tanıyacaktır. Dijital üretken model açısından bakıldığında, karşılaştırma amacıyla, örneğin dijital bir DDPM modeli aracılığıyla oluşturulan önceden hesaplanmış ve depolanmış görüntülerle birlikte standart bir görüntü ekranı da kullanılabilir; ancak bu, daha önce tartışıldığı gibi, difüzyon ve ardışık gürültü giderme süreçleri yoluyla görüntü üretimi başına önemli ölçüde daha fazla enerji tüketimini gerektirir. Nanofabrik yüzeyler kullanılarak optik üretken mimarilerin araştırılması, özellikle görüntü ve göze yakın görüntüleme sistemleri için, başa takılan ve giyilebilir kurulumlar dahil olmak üzere çeşitli uygulamalara olanak sağlayacaktır.