غطسة عميقة: مقارنة معمّقة بين بنى معمارية وحدات معالجة الرسومات (GPUs) ووحدات معالجة المصفوفات العصبية (TPUs) من أجل نماذج اللغات الكبيرة
تقدم هذه المقالة مقارنة مفصلة بين بنى معمارية وحدات معالجة الرسومات (GPUs) ووحدات معالجة المصفوفات العصبية (TPUs)، مع التركيز على وحدات الحوسبة الأساسية، وهياكل الذاكرة الهرمية، وقدرات الشبكات. باستخدام وحدات معالجة الرسومات H100 وB200 كأمثلة، تقوم المقالة بتحليل دقيق للتشغيل الداخلي لوحدات معالجة الرسومات الحديثة، بما في ذلك معالجات الدفق المتعددة (SMs)، ونواة CUDA، ونواة Tensor، والتفاعل بين مستويات الذاكرة المختلفة (SMEM، ذاكرة التخزين المؤقت L2، HBM). كما تقارن المقالة أداء وحدات معالجة الرسومات وTPUs في الاتصالات الجماعية (مثل AllReduce، AllGather)، وتحليل تأثير استراتيجيات التوازي المختلفة (توازي البيانات، وتوازي المصفوفات، وتوازي خط الأنابيب، وتوازي الخبراء) على كفاءة تدريب نماذج اللغات الكبيرة. أخيرًا، تلخص المقالة استراتيجيات توسيع نطاق نماذج اللغات الكبيرة على وحدات معالجة الرسومات، مع توضيح ذلك بأمثلة من DeepSeek v3 وLLaMA-3.
اقرأ المزيد