#079 Mixture-of-Experts - Mixtral 8x7B

Mistral, das französische AI-Forschungslabor, hat ein neues Open-Source-Modell veröffentlicht, das auch auf deutschsprachigen Eingaben trainiert wurde.

#079 Mixture-of-Experts - Mixtral 8x7B

Am letzten Freitag sorgte Mistral mit dem mysteriösen Release eines neuen "Mixture of Experts" (MoE)-Modells für Aufsehen, da es nur den Download-Link für ein LLM veröffentlichte, das Llama2 70B und GPT-3.5 in mehreren Benchmarks übertrifft und kommerziell nutzbar ist.

Mixtral 8x7B ist offen, unter Apache 2.0 lizenziert und hat folgende Fähigkeiten:

  • Es verarbeitet einen Kontext von 32k Tokens.
  • Es unterstützt neben Deutsch auch Englisch, Französisch, Italienisch und Spanisch.
  • Es zeigt eine starke Leistung bei der Code-Generierung.
  • Es kann "finetuned" werden.

Zur Erklärung: Mixtral ist ein sogenanntes Sparsed Mixture-of-Experts-Netzwerk. Dies ist eine spezielle Art von neuronalem Netzwerk, bei dem verschiedene Teile des Netzwerks (die Experten) auf unterschiedliche Aufgaben spezialisiert sind. "Sparse" bedeutet hier, dass für jede Eingabe nur eine kleine Anzahl dieser Experten verwendet wird, anstatt alle auf einmal zu aktivieren. Dies hilft, das Netzwerk effizienter und fokussierter auf spezifische Aufgaben zu machen.

Des Weiteren ist es ein Decoder-Only-Modell. Das bedeutet, dass dieses spezielle Netzwerk nur einen Decoder hat. In vielen Anwendungen, wie z.B. bei Sprachübersetzungen, arbeitet der Decoder daran, die Ausgabe (z.B. den übersetzten Text) zu erzeugen, basierend auf einer intern verarbeiteten Form der Eingabe.

Für jede Eingabe - und in neuronalen Netzwerken, die sich mit Sprache beschäftigen, bedeutet dies oft für jedes Wort oder jeden "Token" - entscheidet ein spezielles Router-Netzwerk, welche zwei der 8 Expertengruppen am besten geeignet sind, um diese Eingabe zu verarbeiten.

Nachdem die zwei Experten ausgewählt und die Eingabe verarbeitet wurden, werden ihre Ausgaben kombiniert, indem sie addiert werden, um die endgültige Ausgabe für diesen Token zu erzeugen.

Das Basis Modell wurde anschließend “supervised finetuned” und ebenfalls unter der Bezeichnung Mixtral 8x7B Instruct veröffentlicht.

Für Benchmarks und weitere Details siehe hier:

Mixtral of experts
A high quality Sparse Mixture-of-Experts.