Görsel ChatGPT: Microsoft, resimlerle ChatGPT’ye görsel AI özellikleri ekler

celeron

Global Mod
Global Mod
Visual ChatGPT ile Microsoft, ChatGPT üzerine kurulu ve OpenAI’nin yapay zeka sistemini Stable Diffusion gibi çeşitli Visual Foundation Modelleriyle (VFM) birleştiren çok modlu bir konuşma modeli yayınladı. Bu tür temel görsel modellerle, bilgisayarlar karmaşık görüntüleri analiz edebilir ve bunları kendileri üretebilir. Pekin’deki Microsoft Asia’dan kıdemli araştırmacı Dr. Chenfei Wu’nun etrafındaki bilim adamları ekibi, çok modlu ChatGPT’yi sıfırdan eğitmek istememe konusunda. Bunun yerine, Visual ChatGPT için merkezi Bilgi İstemi Yöneticisi, kullanıcı talimatlarına göre iş için uygun modelleri seçer. Visual ChatGPT, Microsoft Almanya tarafından Mart 2023’ün başında duyurulan çok modlu modellerden biri olabilir.


Aksi takdirde Visual ChatGPT, görüntülerin içeriğini açıklayabilir ve görüntülerle ilgili soruları yanıtlayabilir. Örneğin Visual ChatGPT, bir balona iğne batırırsanız neler olabileceğini açıklar.




VisualGPT'de sohbet geçmişi



Visual ChatGPT’de sohbet geçmişi


(Resim: Microsoft)



Bu amaçla, Visual ChatGPT, diğer şeylerin yanı sıra, BLIP modelini kullanır (Unified Vision-Language Teaching and Generation için Bootstrapping Language-Image Pre-Training, arXiv.org’daki makale). Örneğin, ControlNet AI modeli, görüntü oluşturma sürecine etkileşimli bir geri bildirim döngüsü dahil ederek AI görüntü oluşturucu Stable Diffusion’ı kontrol etmek için ek talimatlarla yardımcı olur. ChatGPT gibi konuşma yapay zekası, bu istemi Visual ChatGPT’nin kullanıcı geri bildirimlerine dayalı olarak sonraki yinelemelerde bir sonuç sağlaması veya çıktıyı revize etmesi için özelleştirebilir.




VisualGPT Mimarisi



VisualGPT Mimarisi


(Resim: Chenfei Wu ve ark.)



Visual ChatGPT ile görüntü düzenleme


Visual ChatGPT, Stable Diffusion’a bilgi istemlerini iletmenin yanı sıra, sohbetteki görüntüleri talimatlarla düzenleyebilir veya açıklayabilir. Bir öğe için görsele farklı bir arka plan veya renk eklemek isteyen herkes bunu sohbet yoluyla yapabilir. Basit elle çizilmiş eskizleri sohbete göndermek ve bunları geliştirmek veya düzenlemek de mümkündür.

Microsoft Asya ekibine göre, Visual ChatGPT büyük ölçüde ChatGPT’ye bağımlıdır ve görevleri atamak için OpenAI’nin yapay zeka sohbet sistemine erişmesi gerekir. Ayrıca, görevleri gerçekleştirmek için diğer Visual Foundation Modellerine erişime de bağlıdır. Bu nedenle Visual ChatGPT’nin performansı da bu modellere bağlıdır.


Visual ChatGPT, Meta AI’nın SegmentAnything özelliğini destekler





SegmentAnything Model (SAM), Facebook AI Research tarafından örnek segmentlere ayrılmış görüntü



SegmentAnything Model (SAM), Facebook AI Research tarafından örnek segmentlere ayrılmış görüntü


(Resim: Facebook Yapay Zeka Araştırması (FUAR))



Microsoft’un VFM’si artık GroundingDINO ve SegmentAnything Modelini (SAM) de desteklemektedir. Facebook AI Research (FAIR veya Meta AI), Nisan 2023’ün başlarında görüntü segmenter SAM’ı yayınladı. Bu, nesnelerin piksel hassasiyetiyle kesilmesine olanak tanır, her metin girişi için geçerli maskeler oluşturulabilir ve kullanıcılar alan ekleyebilir veya hariç tutabilir. Böylece Meta AI, görüntü bölümleme için ilk temel modeli sundu. Multimodalite üzerinde profesyonel olarak çalışan AI uzmanları, SegmentAnything’i “bilgisayar görüşü için bir GPT-3 anı” olarak adlandırıyor çünkü Meta’nın segmenter’ı güçlü bir bağlam anlayışına sahip.

Kullanıcılar, İngilizce veya Çince gibi farklı dillerde bir sohbet aracılığıyla Visual ChatGPT’ye istek gönderebilir ve ayrıca resimler sağlayabilir. Tamamen Python’da veya çoğunlukla Jupyter Notebook’ta yazılan Visual ChatGPT kodu, GitHub’da MIT lisansı altında ücretsiz olarak mevcuttur. Depoya göre, Visual ChatGPT’yi denemek istiyorsanız OpenAI API erişimine de ihtiyacınız var. Bu, ek maliyetlere neden olabilir.

Diğer sağlayıcılar ve ayrıca LAION gibi açık kaynak dernekleri, kullanıcılara ve geliştiricilere seçenekler sunmak ve AI geliştirmeyi daha fazla demokratikleştirmek için şu anda OpenAI ve Microsoft ürünlerine açık kaynak alternatifleri üzerinde çalışıyor. OpenAssistant, bir ChatGPT alternatifi olarak piyasaya sürüldü.


(mak)



Haberin Sonu