AWS: Daha fazla yapay zeka performansı için Trainium2 yongalarına sahip yeni bulut bulut sunucuları

celeron

Global Mod
Global Mod
Makine öğrenimi, Amazon Web Services'in (AWS) yıllık re:Invent şirket içi sergisinde, yeni donanım söz konusu olduğunda bile önemli bir yer tuttu. Odak noktası, şu anda mevcut olan Trainium2 yongaları ve EC2 bulut sunucuları tarafından desteklenen EC2 UltraServer'lar üzerindeydi. AWS'ye göre yeni Trn2 bulut sunucuları, bulut sunucusu başına 20,8 petaflop bilgi işlem gücü ve GPU tabanlı EC2-P5 bulut sunucularına kıyasla yüzde 40'a kadar daha iyi fiyat-performans oranı sunuyor.


Reklamcılık



Bir Trn2 UltraServer, bir NeuronLink bağlantısı aracılığıyla birbirine bağlanan dört Trn2 örneğinden oluşur. Bu mimari, dünyanın en büyük yapay zeka modelleri için eğitim ve çıkarım sürelerini azaltmak amacıyla bilgi işlem gücünün 83,2 petaflop'a kadar ölçeklendirilmesini sağlamayı amaçlamaktadır. Bir trilyona kadar parametreye sahip modeller, geliştirilmiş gecikme süresiyle işlenebilir.

Yapay zeka kümeleri için “Proje Rainier”


AWS ayrıca yüzlerce Trainium2 UltraServer'ı bir EC2 UltraCluster'da birleştiren ve mevcut çözümlerle karşılaştırıldığında küme boyutunda artış sağlayan “Project Rainier”ı da duyurdu. Bu UltraClusters, Anthropic gibi kuruluşlarda yapay zeka modellerini eğitmek için kullanılır. Anthropic bunları Trainium2'deki Amazon Bedrock için Claude modellerini optimize etmek amacıyla kullanıyor. Bu altyapı, müşterilerin trilyonlarca parametreye sahip modelleri verimli bir şekilde eğitmesine ve bunları gerçek zamanlı olarak kullanmasına olanak sağlamalıdır.



AWS, kümelerin boyutunu artırmanın performansı artırmak için yeterli olmadığını vurguladı. Bunun yerine Trainium2 UltraServers'ın yeni mimarisi veri dağıtımını ve kaynak tahsisini iyileştirir. Bu, geleneksel ağ sınırlamalarıyla karşılaşmadan genel eğitim süresini kısaltır.

Nvidia Blackwell ve Outlook ile yeni örnekler


AWS, Trainium2 çözümlerine ek olarak EC2 P6 bulut sunucularını da tanıttı. Yeni nesil Nvidia'nın Blackwell GPU'larını temel alıyorlar. Mevcut nesille karşılaştırıldığında AWS, özellikle hesaplama açısından yoğun üretken yapay zeka uygulamaları için 2,5 kata kadar daha yüksek performansın yanı sıra optimizasyon da vaat ediyor. AWS, P6 bulut sunucularını öncelikle hızlı yanıt süreleri ve yüksek ölçeklenebilirlik gerektiren uygulamalarda görüyor.

AWS ayrıca Trainium2'nin halefi olarak yakında çıkacak olan Trainium3 çipini de duyurdu. Bu, 3 nanometrelik bir işlem kullanılarak üretilmiştir. Önceki modelle karşılaştırıldığında enerji açısından daha verimli ve dört kat daha güçlü olduğu söyleniyor. Bu, müşterilerin modelleri daha hızlı yinelemelerine ve bunları gerçek zamanlı olarak kullanmalarına olanak tanıyacaktır. Trainium3'ün UltraServer'ın sonraki sürümlerinde mevcut olması bekleniyor.




(akşam)