نماذج اللغات الكبيرة يمكنها الرؤية والسمع بدون تدريب
2025-04-26
يبين هذا البحث الرائد أن نماذج اللغات الكبيرة (LLMs) يمكنها فهم الصور والصوت دون أي تدريب إضافي. من خلال الاستفادة بذكاء من نماذج LLMs الحالية، ووصف الصور، ووصف الصوت، وتقنيات إنشاء الصور عالية الجودة، مكن الباحثون نماذج LLMs من "إدراك" الصور والأصوات. يسهل كود المشروع ومجموعات البيانات مفتوحة المصدر إمكانية التكرار والاستكشافات الإضافية.
الذكاء الاصطناعي
إنشاء الصور