Perşembe günü, AI startup’ı Black Forest Labs, şirketin kuruluşunu ve ilk metinden görüntüye AI model seti FLUX.1’in lansmanını duyurdu. Almanya merkezli şirket, Stable Diffusion teknolojisini geliştiren ve latent diffusion tekniğini icat eden araştırmacılar tarafından kuruldu ve gelişmiş görüntü ve video üretimi için ileri seviye generatif AI yaratmayı amaçlıyor.
FLUX.1 Modelleri ve Performansı
Black Forest Labs’ın FLUX.1 lansmanı, Stability AI’nin Stable Diffusion 3 Medium’unun Haziran ortasında yaşadığı sorunlu çıkışının yedi hafta sonrasına denk geliyor. Stability AI’nin sunduğu model, insan anatomisi oluşturma performansının düşük olması nedeniyle geniş çapta eleştirildi. Bu sorunlu lansmanın ardından, Stability AI’den ayrılan üç mühendis—Robin Rombach, Andreas Blattmann ve Dominik Lorenz—Black Forest Labs’ı latent diffusion ortak geliştiricisi Patrick Esser ve diğerleriyle birlikte kurdu.
Black Forest Labs, üç FLUX.1 metinden görüntüye modeli piyasaya sürdü: yüksek kaliteli ticari “pro” versiyonu, açık ağırlıklarla ticari olmayan kullanım için “dev” versiyonu ve daha hızlı açık ağırlıklarla “schnell” versiyonu (“schnell” Almanca’da hızlı demektir). Black Forest Labs, modellerinin Midjourney ve DALL-E gibi mevcut seçenekleri, görüntü kalitesi ve metin uyumu alanlarında geride bıraktığını iddia ediyor.
FLUX.1’in Teknolojik Temelleri ve İlerlemeler
FLUX.1 modelleri, şirketin “hibrit mimari” olarak adlandırdığı, transform ve diffusion tekniklerini birleştiren ve 12 milyar parametreye kadar ölçeklenen bir yapı kullanıyor. Black Forest Labs, akış eşleme ve diğer optimizasyonları içeren önceki diffusion modellerini geliştirdiğini belirtti.
FLUX.1, önceki görüntü sentezi modellerinin zayıf noktalarından biri olan insan ellerini oluşturma konusunda başarılı görünüyor. Bu, erken dönem modellerde (örneğin Stable Diffusion 1.5) eğitim verilerinin elleri yeterince içermemesi nedeniyle büyük bir eksiklikti. Diğer AI görüntü üreticileri (Midjourney gibi) de elleri oluşturma konusunda ustalaştı, ancak farklı pozisyonlarda elleri nispeten doğru şekilde oluşturan açık ağırlıklı bir model görmek dikkat çekici.
Black Forest Labs’ın Gelecek Planları
Black Forest Labs, yeni bir şirket olmasına rağmen yatırımcılardan şimdiden fon çekiyor. Şirket, Andreessen Horowitz liderliğinde ve General Catalyst ve MätchVC’nin ek yatırımlarıyla 31 milyon dolarlık bir Seri Tohum fonlama turunu tamamladı. Şirket ayrıca, eski Disney Başkanı Michael Ovitz ve AI araştırmacısı Matthias Bethge gibi yüksek profilli danışmanları bünyesine kattı.
Şirketin duyurusunda, “Generatif AI’nın tüm gelecekteki teknolojilerin temel yapı taşı olacağına inanıyoruz,” denildi. “Modellerimizi geniş bir kitleye sunarak, faydalarını herkesle paylaşmayı, halkı eğitmeyi ve bu modellerin güvenliğine olan güveni artırmayı amaçlıyoruz.”
Gizlilik ve Güvenlik Konuları
“Trust and safety” konusuna değinilen duyuruda, FLUX.1 modellerinin eğitim verilerinin nereden elde edildiğine dair bir bilgi verilmedi. Modellerin ürettiği çıktılar, muhtemelen LAION gibi bir kuruluş tarafından toplanan büyük çaplı bir yetkisiz görüntü taraması kullanılarak eğitildiğine işaret ediyor. Bu spekülasyon, Stability AI’ye karşı açılan davalara benzer şekilde, Black Forest Labs’ın da “fair use” görüntü tarama etiği konusunda sorunlar yaşayabileceği anlamına geliyor.
Video Üretimine Geçiş Planları
Black Forest’ın şu anki odak noktası metinden görüntüye üretim olsa da, şirket video üretimine de geçmeyi planlıyor. FLUX.1, OpenAI’nin Sora, Runway’nin Gen-3 Alpha ve Kuaishou’nun Kling modelleriyle rekabet edecek yeni bir metinden videoya modelin temelini oluşturacak. Black Forest Labs’ın duyurusunda, “Video modellerimiz, yüksek çözünürlükte ve benzeri görülmemiş hızda hassas yaratım ve düzenleme sağlayacak,” denildi.