DeepSeek: Ein kostengünstiges Open-Source-LLM, das ChatGPT herausfordert

2025-02-08
DeepSeek: Ein kostengünstiges Open-Source-LLM, das ChatGPT herausfordert

DeepSeek, ein Open-Source-Large-Language-Model (LLM), das von einem chinesischen KI-Forschungsunternehmen entwickelt wurde, stellt ChatGPT mit seiner einzigartigen Mixture-of-Experts-(MoE)-Architektur in Frage. Seine Effizienz beruht auf der Aktivierung nur der notwendigen Parameter, was zu schnelleren Geschwindigkeiten und geringeren Kosten führt. Funktionen wie Multi-Head-Attention und Multi-Token-Prediction ermöglichen eine überlegene Leistung in langen Konversationen und komplexem Denken. Trotz Bedenken hinsichtlich seiner Datenquellen ist DeepSeks Wirtschaftlichkeit und sein direkter Ausgabestil eine überzeugende Alternative zu ChatGPT.

Mehr lesen
KI

Ein Blick unter die Haube von ChatGPT: Eine Perspektive für Programmierer

2025-01-04
Ein Blick unter die Haube von ChatGPT: Eine Perspektive für Programmierer

Dieser Artikel befasst sich eingehend mit der Funktionsweise von ChatGPT, speziell für Programmierer. Allgemeine KI/ML-Konzepte werden ausgelassen; der Fokus liegt auf OpenAIs ChatGPT-Modell, seiner Architektur, der Verwendung von Transformer-Netzwerken und wie Reinforcement Learning from Human Feedback (RLHF) es für Konversationen feinabstimmt. Der Artikel beschreibt auch Tokenisierung, Modelltraining, Antwortgenerierung und die Rolle von RLHF bei präzisen und kontextbezogenen Antworten.

Mehr lesen
Entwicklung