- Google, "Nano Banana"nın Gemini 2.5 Flash Image'ın görüntü oluşturma ve düzenleme için kullanılan takma adı olduğunu doğruladı.
- Tutarlı karakterler ve nesnelerle konuşma tarzında düzenleme ve tutarlı sonuçlar.
- Gemini uygulamasında ve geliştiricilere API, AI Studio ve Vertex AI aracılığıyla ücretsiz olarak sunulmaktadır.
- SynthID ile güvenlik güçlendirmeleri ve hassas içeriklere yönelik filtreler.
Son günlerde adı «Nano Muz» Yapay zeka görsel düzenleme testlerindeki performansı nedeniyle forumlarda ve teknik ağlarda hızla yayıldı. Gizemli görünen bu durumun artık bir izi var: Google ve Gemini'ye entegre yeni görsel motoru bu işin arkasında.
Şirket, Nano Banana'nın takma ad olduğunu doğruladı Gemini 2.5 Flash GörüntüsüDoğal dil kullanarak fotoğraf üretebilen ve rötuşlayabilen, daha önce bu modeller için zor olan bir tutarlılıkla stil, karakter ve nesneleri koruyabilen bir sistem.
Nano Banana nedir ve arkasında kim var?
Model, ilk ortaya çıktığı dönemde LM Arena sıralamalarında "Nano Muz" takma adıyla yer almış ve Google tarafından resmen Gemini'nin bir parçası olarak tanıtılıncaya kadar spekülasyonlara ve "muz" şakalarına yol açmıştı. Temel fikir açık: Görüntü oluşturma ve düzenlemeyi basit, sohbet tarzında ve hızlı bir iş akışında birleştirmek.
Google, yaklaşımının temelinin İkizler burcunun dünyası hakkında bilgi ve gelişmiş yapay zeka modelleriTalimatların bağlamını anlamaya ve salt görsel üreteçlere göre daha hassas değişiklikler uygulamaya yardımcı olur.
Konuşma düzenleme: hızlıdan ince ayara
Model şu şekilde çalışır: doğal dildeki komutlar ve görüntüyle etkileşime girmenize olanak tanır: "gökyüzünü daha dramatik hale getir", "şu tabelayı kaldır" veya "arabanın rengini kırmızıya değiştir" gibi komutlar verebilir ve sıfırdan başlamanıza gerek kalmadan sonucu art arda gelen turlarda iyileştirebilirsiniz.
Bu çoklu dönüş etkileşimi, geleneksel aletlerde görülen sürtünmeyi azaltır. Google'a göre, bu mümkündür. belirli alanları seçin Renk, aydınlatma veya dokuyu ayarlamak, istenmeyen öğeleri kaldırmak, arka planları değiştirmek ve gölgelere ve perspektife saygı duyarak uyumlu nesneler eklemek.
Platform, temel rötuşların yanı sıra "aynı karakteri başka bir sahneye yerleştir" veya "ürünü çeşitli açılardan göster" gibi talimatları anlayarak konuyu ve görünümünü korur. sürümler arasında tutarlılık.
Tutarlılık, kalite ve hız
Dikkat çekici gelişmelerden biri de, görsel tutarlılık Sonraki sürümlerde yüz hatları, eller, evcil hayvanlar veya nesneler daha az deformasyonla sabit kalıyor; bu da tarihsel olarak üretken modelleri sıkıntıya sokan bir durum.
Fotogerçekçilik, daha doğal ışık ve dokularla ivme kazanıyor ve Google, performansın arttığını iddia ediyor çok hızlı ("şimşek hızında") Ürün varyasyonları veya temalı sahneler gibi görevler için yaratıcı döngüleri hızlandırır.
Topluluk testlerinde sistem, görüntü düzenleme alanında LM Arena'da sıralamalarda yükseldi ve kendisini en iyi motorlar arasına yerleştirdi. en iyi kullanıcı deneyimi Kullanıcı puanlarına göre.
Ana araçlar ve kullanım örnekleri
Gemini 2.5 Flash Image, hem genel kullanıcılar hem de yaratıcı ekipler için tasarlanmış özellikler sunar. En çarpıcı özelliklerden bazıları şunlardır: görüntüleri oluşturmak Çeşitli kaynaklardan gelen bilgileri bir araya getirip tutarlı bir ortama yerleştirmek.
- Bağlamsal rötuş: Orijinalin temel unsurlarını kaybetmeden renk, pozlama, doku veya stil ayarlamaları.
- Çıkarma ve değiştirme: nesneleri silin, arka planı değiştirin veya ışık ve gölge entegrasyonu olan öğeler ekleyin.
- Bileşimi ve karışımı: iki fotoğrafı tek bir sahnede birleştirin ve aktarın desenler veya stiller bir görüntüden diğerine.
- Çok vardiyalı sürüm: Zincir değişiklikleri (duvar boyama, mobilya ekleme, gardırop değişikliği) süreci yeniden başlatmadan yapılabilir.
Pazarlama, dekorasyon, moda veya ağlar için içerikte, araç hızlı bir şekilde varyantlar oluşturmak, sürdürmek ve tutarlı marka varlıkları ve geleneksel yazılımlara başvurmadan görsel fikirleri test edin.
Güvenlik ve kullanım sınırları
Kötüye kullanımı en aza indirmek için Google, engelleme yapan filtreler uygular şiddet içeren veya cinsel içeriklive gerçek kişilerin veya kamuya mal olmuş kişilerin düzenlenmesini kısıtlar. Amaç, yanlış bilgi ve deepfake riskini azaltmaktır.
Oluşturulan veya düzenlenen tüm görseller şunları içerir: SynthIDDosyanın kendisinde bulunan ve kaynağını doğrulamaya yardımcı olan, fark edilmeyen bir dijital filigran. Ayrıca şirket, izlenebilirliği güçlendirmek için ek sinyaller ve proaktif kontrollerden bahsediyor.
Kullanım politikası, rıza olmaksızın samimi materyalin ve diğer hassas kategorilerin oluşturulmasını açıkça yasaklayarak, sorumlu yapay zeka İkizler hizmetlerinde.
Gemini uygulamasında Nano Banana nasıl kullanılır?
Erişim doğrudandır: Ayrı bir şey yüklemenize veya belirli bir model seçmenize gerek yoktur. Sadece Gemini'yi açın, bir fotoğraf yükleyin ve değişiklikleri tanımlayınEğer bir ayar hariç her şeyi korumak istiyorsanız, "Orijinal fotoğrafta, ..." ile başlayarak diğerlerine saygı gösterilmesi gerektiğini açıkça belirtebilirsiniz.
Bazı yararlı örnekler: "siyah beyaz yap", "köşe direğini kaldır", "banka bir köpek ekle" veya "elbiseyi yeşile çevir". Sistem, özellikler ve oranlar Değişikliği uygularken öznenin.
Ayrıca iki fotoğraf yükleyebilir ve birinin içeriğinin diğerinde görünmesini isteyebilir veya fotoğrafları aktarabilirsiniz. bir desenin stili (örneğin kelebek kanatları) ikinci görseldeki bir giysiye veya nesneye.
Geliştiriciler için kullanılabilirlik ve erişim
Bu işlevsellik şurada mevcuttur: Gemini uygulaması Genel halk için. Profesyonel entegrasyonlar için Gemini API'si üzerinden erişilebilir. Google AI Stüdyosu ve Vertex AI, kurumsal iş akışlarına ve üçüncü taraf uygulamalara kapı açıyor.
Uygulamada kullanım, makul sınırlamalarla ücretsizdir. Geliştiriciler için Google şunları sunar: kullanım fiyatlandırmasıAPI'de referans olarak her bir milyon token için 30 dolarlık bir maliyet belirtiliyor ve kullanım durumuna bağlı olarak her bir görselin maliyetinin birkaç avro sente denk geldiği tahmin ediliyor.
Rekabetçi bağlam
Bu hamle doğrudan şu rakipleri hedef alıyor: Midjourney veya DALL·E (OpenAI). Google'ın odak noktası, Gemini'nin bağlamsal anlayışıyla desteklenen konuşma düzenleme ve sonuç tutarlılığıdır.
Şirket, Nano Banana takma adını ekosistemine entegre ederek, bu alandaki açığı kapatmaya çalışıyor. hız, kalite ve kontrol Son kullanıcı için belirleyicidir.
Sık sorulan sorular
Nano Banana tek başına bir uygulama mı?
Hayır. İkizler burcunun bir modelidir, bu nedenle uygulamanın kendi arayüzünden kullanılır.
Son kullanıcılar için bir maliyeti var mı?
Gemini uygulamasında şunları kullanabilirsiniz: bedava kullanım limitleri vardır. API entegrasyonlarının fiyatlandırması vardır.
Modeli manuel olarak mı seçmem gerekiyor?
Hayır. Seçim Otomatik Gemini'de görüntü oluşturma veya düzenleme işlevlerini gerçekleştirdiğinizde.
Konuşma düzenlemesine odaklanarak, çekimler arasında özne tutarlılığı ve yerleşik güvenlik önlemleriyle Nano Banana (Gemini 2.5 Flash Image), ister Gemini uygulamasından ister API'leri aracılığıyla olsun, hem günlük hem de profesyonel projeler için görüntü oluşturma ve rötuşlama konusunda sağlam bir seçim olma yolunda ilerliyor.
İçindekiler