غطسة عميقة: مقارنة معمّقة بين بنى معمارية وحدات معالجة الرسومات (GPUs) ووحدات معالجة المصفوفات العصبية (TPUs) من أجل نماذج اللغات الكبيرة

2025-08-20

تقدم هذه المقالة مقارنة مفصلة بين بنى معمارية وحدات معالجة الرسومات (GPUs) ووحدات معالجة المصفوفات العصبية (TPUs)، مع التركيز على وحدات الحوسبة الأساسية، وهياكل الذاكرة الهرمية، وقدرات الشبكات. باستخدام وحدات معالجة الرسومات H100 وB200 كأمثلة، تقوم المقالة بتحليل دقيق للتشغيل الداخلي لوحدات معالجة الرسومات الحديثة، بما في ذلك معالجات الدفق المتعددة (SMs)، ونواة CUDA، ونواة Tensor، والتفاعل بين مستويات الذاكرة المختلفة (SMEM، ذاكرة التخزين المؤقت L2، HBM). كما تقارن المقالة أداء وحدات معالجة الرسومات وTPUs في الاتصالات الجماعية (مثل AllReduce، AllGather)، وتحليل تأثير استراتيجيات التوازي المختلفة (توازي البيانات، وتوازي المصفوفات، وتوازي خط الأنابيب، وتوازي الخبراء) على كفاءة تدريب نماذج اللغات الكبيرة. أخيرًا، تلخص المقالة استراتيجيات توسيع نطاق نماذج اللغات الكبيرة على وحدات معالجة الرسومات، مع توضيح ذلك بأمثلة من DeepSeek v3 وLLaMA-3.

اقرأ المزيد

كيمياء تدريب نماذج اللغات الكبيرة بكفاءة: تجاوز حدود الحوسبة

2025-02-04

تتناول هذه المقالة بالتفصيل التدريب الفعال لنماذج اللغات الكبيرة (LLMs) على نطاق واسع. يجادل الكاتب بأنه حتى مع عشرات الآلاف من المعجلات، فإن المبادئ البسيطة نسبياً يمكن أن تحسن أداء النموذج بشكل كبير. وتشمل المواضيع التي تمت تغطيتها تقييم أداء النموذج، واختيار مخططات التوازي على نطاقات مختلفة، وتقدير تكلفة ووقت تدريب نماذج Transformer الكبيرة، وتصميم خوارزميات تستفيد من مزايا الأجهزة المحددة. من خلال شرح مفصل لمعماريات TPU و GPU، وتحليل دقيق لمعمارية Transformer، سيحصل القراء على فهم أفضل لقيود الحجم، وسيتمكنون من تصميم نماذج وخوارزميات أكثر كفاءة.

اقرأ المزيد
الذكاء الاصطناعي التدريب الفعال