Inilunsad ng Alibaba ang mas episyenteng Qwen3-Next na modelo ng artificial intelligence
Iniulat ng Jinse Finance na inilabas ng Tongyi Qianwen ng Alibaba ang susunod na henerasyon ng arkitektura ng base model na Qwen3-Next, at ginawa ring open source ang Qwen3-Next-80B-A3B series model na nakabatay sa nasabing arkitektura. Kumpara sa MoE model structure ng Qwen3, ang bagong estruktura ay may mga sumusunod na pangunahing pagpapabuti: hybrid attention mechanism, mataas na sparsity na MoE structure, serye ng mga optimization na friendly sa training stability, at multi-token prediction mechanism na nagpapataas ng inference efficiency. Batay sa estruktura ng Qwen3-Next model, nagsanay ang Alibaba ng Qwen3-Next-80B-A3B-Base model, na may 80 billion parameters ngunit 3 billion lamang ang na-activate. Ang Base model na ito ay nakamit ang performance na halos kapantay o bahagyang mas maganda kaysa Qwen3-32B dense model, ngunit ang training cost nito (GPU hours) ay wala pang isang ikasampu ng Qwen3-32B, at sa context na higit sa 32k, ang inference throughput nito ay higit sampung beses kaysa Qwen3-32B, na nagreresulta sa napakataas na cost-performance ratio para sa training at inference.
Disclaimer: Ang nilalaman ng artikulong ito ay sumasalamin lamang sa opinyon ng author at hindi kumakatawan sa platform sa anumang kapasidad. Ang artikulong ito ay hindi nilayon na magsilbi bilang isang sanggunian para sa paggawa ng mga desisyon sa investment.
Baka magustuhan mo rin
Trending na balita
Higit paMga presyo ng crypto
Higit pa








