DeepSeek-V3.2-Exp, najnovší model čínskeho chatbota, predstavuje DSA, efektívnosť, API a nasadenie.

  • V3.2-Exp zavádza DSA na zrýchlenie dlhodobého kontextu s minimálnou stratou kvality.
  • Výkonnostná parita s V3.1-Terminus a ceny API -50% sú teraz dostupné.
  • Otvorený zdrojový kód: váhy v Hugging Face, jadrá v TileLang, DeepGEMM a FlashMLA.
  • Praktický sprievodca: koncové body, streamovanie, volanie funkcií a lokálne vykonávanie.

DeepSeek-V3.2-Exp

DeepSeek-V3.2-Exp prišiel ako experimentálna iterácia, ktorá sa zameriava na efektívnosť vo veľkom meradle a v dlhodobých kontextoch, s jasným odkazom na komunitu: open source, publikované jadrá a lacnejšie API.

Okrem hluku je kľúčové to, že tento model, na základe V3.1-Terminus, predstavuje jemnozrnný mechanizmus riedkej pozornosti s názvom DeepSeek Sparse Attention (DSA), ktorý urýchľuje trénovanie a inferenciu pri zachovaní kvality. Spoločnosť ho už spustila v roku Aplikácia, web a APIa znížila ceny za používanie o viac ako 50%, agresívny krok, ktorý, úprimne povedané, tlačí na konkurenciu.

Kľúčové nové funkcie DeepSeek-V3.2-Exp

Hviezdnou inováciou je DSA, ktorá umožňuje selektívna pozornosť na relevantné časti kontextu bez vyčerpávajúceho prechádzania celou postupnosťou. Podľa samotnej spoločnosti je vplyv na kvalitu veľmi nízky, zatiaľ čo zvýšenie efektívnosti v dlhodobom kontexte je to hmatateľné.

Model je dostupný v prevádzke aplikácia, web a API od prvého dňa, sprevádzané výrazným znížením ceny (o 50 % a viac) s cieľom uľahčiť testovanie a prijatie. Pre tých, ktorí chcú porovnať, DeepSeek udržiava dočasný koncový bod od V3.1-Terminus do 15. októbra 2025 o 15:59 UTC.

Výkon a benchmarky DeepSeek-V3.2-Exp: parita s V3.1-Terminus

DeepSeek hľadal parita s V3.1-Terminus na širokej škále testov, práve na izoláciu efektu zavedenia rozptýlenej pozornosti. V praxi to vedie k porovnateľným metrikám v uvažovaní, kódovanie a používanie nástrojov agentského typu.

Rôzne zdroje poskytujú údaje, ktoré pomáhajú stanoviť očakávania: V3.2-Exp je opísaný ako model s 685 miliárd parametrov a podobný výkon alebo s miernymi odchýlkami v závislosti od oblasti. Pri uvažovaní bez nástrojov sa uvádzajú čísla ako 85.0 MMLU-Pro a 89.3 v systéme AIME 2025; v scenároch agentov sa 40.1 zobrazuje v PrehliadaťPočet a 67.8 v systéme Overené SWEToto sú výsledky, ktoré zodpovedajú oficiálnej verzii overiť účinnosť namiesto toho, aby sa snažil o výrazný skok v presnosti.

Existujú dokonca aj jemné porovnania: v kódovacích úlohách je nárast 2121 v Codeforces v porovnaní s rokom 2046, zatiaľ čo v humanistickejších testoch sa pozorujú mierne poklesy (napr. 19.8 v porovnaní s 21.7 v Poslednej skúške ľudstva). Celkovo tabuľka naznačuje rovnováhu: špecifické vylepšenia a malé ústupky, s hlavným zameraním na rýchlosť.

DSA: Jemnozrnná rozptýlená pozornosť, jasne povedaná

Klasická starostlivosť sa stáva drahou v širokých kontextoch; DSA Minimalizuje prácu tam, kde prispieva len málo. Aplikáciou riedkosti s jemnozrnným riadením model sústreďuje výpočet tam, kde skutočne nájde signál, čím sa zlepšuje latencia a zníženie spotreby bez skreslenia produkcie.

Na úrovni reálnych skúseností je to badateľné pri úlohách, ktoré vyžadujú veľa kontextu: súhrny dlhých dokumentov, analýza protokolov, agenti vedúci dlhé dialógy alebo kanály, ktoré kombinujú vyhľadávanie a generovanie. Práve tam, efektívnosť Nie je to luxus: je to rozdiel medzi tým, či je niečo použiteľné vo veľkom meradle alebo nie.

Dostupnosť, ceny a porovnania DeepSeek-V3.2-Exp

Spoločnosť DeepSeek oznámila, že verzia V3.2-Exp je teraz dostupná na Aplikácia, web a APIOkrem toho znížila cenu API o viac ako 50% s okamžitou platnosťou rozhodnutie, ktorého cieľom je rozšíriť prijatie a podporiť porovnávacie testy.

Pre tých, ktorí chcú porovnať s predchádzajúcim modelom, V3.1-Terminus je udržiavaný v koncový bod dočasné do 15.10.2025 15:59 (UTC). Spoločnosť tiež vyzýva na predkladanie návrhov spätná väzba prostredníctvom verejnej formy, čím sa posilní dynamika neustáleho zlepšovania v komunite.

Stav otvoreného zdrojového kódu: váhy, technická správa a jadrá

DeepSeek publikuje model v publikácii Hugging Face spolu s Technickú správu ktorý dokumentuje zmeny a výsledky. Existuje jasný záväzok k transparentnosti a podpore dlhodobého aplikovaného výskumu s nižšie náklady.

Na úrovni jadra existujú dva spôsoby: TileLang pre čítanie a prototypovanie prístupnejšie a CUDA pre maximálny výkon. Jadrá indexu Logit (vrátane stránkovaných variantov) sú v DeepGEMM, zatiaľ čo tie s rozptýlenou pozornosťou sú publikované v FlashMLAToto oddelenie uľahčuje komunitám zameraným na výskum a výrobu nájsť si svoje miesto.

Lokálne spustenie DeepSeek-V3.2-Exp a inferenčných ukážok

DeepSeek ponúka úložisko inferencia s aktualizovanou ukážkou pre rýchly začiatok a kontrolu architektúry. Prvým krokom je previesť váhy Hugging Face do formátu očakávaného ukážkou, definovať počet expertov a paralelizmus modelu.

Príklady príkazov pre interaktívnu konverziu a generovanie (nastavte EXPERTS=256 a MP na počet GPU): môže sa použiť tak, ako je v pripravenom prostredí.

cd inference export EXPERTS=256 python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP} export CONFIG=config_671B_v3.2.json torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

Pre tých, ktorí preferujú SGLang, existujú pripravené obrazy a príkaz na spustenie. Podpora zahŕňa grafické procesory NVIDIA (H200), AMD (MI350) a určité NPU so špecifickými tagmi.

# H200 docker pull lmsysorg/sglang:dsv32 # MI350 docker pull lmsysorg/sglang:dsv32-rocm # NPU docker pull lmsysorg/sglang:dsv32-a2 docker pull lmsysorg/sglang:dsv32-a3 python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

Ak chcete vLLM, má podporu od prvého dňa. Odporúča sa skontrolovať oficiálne recepty, aby ste zistili aktuálne parametre a optimalizácie hardvérom.

API: Koncové body, kompatibilita a expirácie

API rozhrania DeepSeek dodržiava štandardné konvencie a je kompatibilný s populárnymi SDK. Predvolene sa používa základná URL adresa https://api.deepseek.com Cieľom je V3.2-Exp, ktorá zjednodušuje počiatočnú integráciu a prístup k znížená sadzba.

Pre porovnávanie existuje dočasný koncový bod pre V3.1-Terminus: https://api.deepseek.com/v3.1_terminus_expires_on_20251015Pri plánovaní majte na pamäti dátum a čas expirácie (15. októbra 2025, 15:59 UTC). benchmarky.

Okrem toho existuje kompatibilita s ekosystémom AntropickýMôžete použiť základňu https://api.deepseek.com/anthropic pre interakcie v štýle Claude alebo variant spojený s dočasným koncovým bodom, ak potrebujete porovnať s predchádzajúcim modelom.

Autentifikácia a správa kľúčov

Žiadosti sú overované nositeľ v hlavičke Autorizácia. Vygenerujte si kľúč z ovládacieho panela DeepSeek a bezpečne ho uložte, napríklad do premenných prostredia alebo správcov súborov. tajomstvo ako manažér tajomstiev AWS.

Panel zobrazuje spotrebu a fakturáciu, aby sa kontrolovala spotreba tokenyHoci ceny klesli, odporúča sa okrem zrušenia akýchkoľvek obmedzení používať aj obmedzovanie rýchlosti prenosu a pravidelnú rotáciu kľúčov na počítačoch. kompromitovaný kľúč Bez meškania.

Dokončenia chatu, šablóny a základné požiadavky

Centrálny koncový bod je /chat/dokončenia, ktorý spracováva viacnásobné dialógy a udržiava kontext medzi hovormi, čo je ideálny scenár pre silné stránky V3.2-Exp v oblasti dlhého kontextu. Existujú dva typické modelové režimy: deepseek-chat y hlboký úsudok.

Jednoduché telo požiadavky by mohlo vyzerať takto s použitím escapovaného JSON (pre lepšiu prehľadnosť tu znázorneného ako "): obsahuje systémovú výzvu a výzvu pre používateľa.

{ "model": "deepseek-chat", "messages": [ { "role": "system", "content": "Ste technický expert." }, { "role": "user", "content": "Vysvetlite riedku pozornosť." } ], "stream": false }

Ak chcete odpovede v reálnom čase, aktivujte si prúd=pravdaHlavičky musia obsahovať Content-Type: application/json a Authorization token: Bearer ${DEEPSEEK_API_KEY}. Ak pracujete s explicitným uvažovaním, môžete správanie ovládať pomocou príznaku. uvažovanie.umožnené.

Štruktúra odpovede a streamovanie SSE

Nestreamované odpovede zahŕňajú polia ako napríklad id, objekt, vytvorený, model, možnosti a použitie. V časti možnosti nájdete vygenerovaný obsah (rola: „asistent“) a v časti použitie podrobnosti o prompt_tokens, žetóny_dokončenia a celkový_počet_žetónov.

V režime streamovania API odosiela Udalosti odoslané serveromKaždý fragment prichádza ako dátová udalosť s deltou, ktorú musíte akumulovať. Toto je ideálna voľba pre rozhrania interaktívne alebo terminály s inkrementálnym výstupom.

Volanie funkcií a výstup v striktnom JSON

Môžete definovať nástroje takže model rozhoduje, kedy zavolať funkciu, napríklad na načítanie údajov alebo vykonanie akcií. To sa dobre hodí k tokom agentov a integráciám. backend.

Ak potrebujete štruktúrovaný výstup, vynútite režim JSON pomocou response_format. Toto je užitočné na extrakciu údajov alebo validácia automatické v potrubiach.

Príklady Pythonu s SDK v štýle OpenAI

V Pythone je vstupná krivka veľmi hladká. Nastavte API_báza podobne ako DeepSeek, definujte kľúč a požiadavky na spustenie; môžete prepínať medzi štandardným a streamovacím režimom v závislosti od vášho prípadu použitia.

import openai openai.api_base = "https://api.deepseek.com" openai.api_key = "your_api_key_here" response = openai.ChatCompletion.create( model="deepseek-chat", messages=[ {"role": "system", "content": "Ste programátorský asistent."}, {"role": "user", "content": "Napíšte funkciu Pythonu na výpočet Fibonacciho čísel."} ], stream=False ) print(response.choices[0].message.content) # Streamovanie stream = openai.ChatCompletion.create(model="deepseek-chat", messages=[...], stream=True) for chunk in stream: if chunk.choices[0].delta.content is not None: print(chunk.choices[0].delta.content, end="") # Volanie funkcie (definícia nástroja) tools = [ { "type": "function", "function": { "name": "get_weather", "description": "Získať aktuálne počasie", "parameters": { "type": "object", "properties": { "location": {"type": "string"} }, "required": [ "location" ] } } } ]

Pre striktný výstup JSON nastavte formát_odpovede a {"type": "json_object"}. A ak budete mať dlhé dialógy, nezabudnite ísť zúženie kontextu aby ste sa udržali v rámci limitov a maximalizovali efektivitu.

Integrácia s Apidogom

Apidog urýchľuje prototypovanie Spätné volanie: Importujte špecifikácie, uložte premenné prostredia (napríklad kľúč), zostavujte POST testy a testujte za chodu. Simulátor odozvy umožňuje jednoduché testovanie extrémnych prípadov bez dodatočných nákladov. tokeny.

Taktiež generuje úryvky kódu v rôznych idiómy a ponúka zobrazenie časovej osi na ladenie autentifikácie alebo parametrov. Keďže V3.2-Exp spracováva široké kontexty, Apidog je skvelý spôsob, ako experimentovať s dlhé výzvy a pozrite si výkon.

Osvedčené postupy, ako z toho vyťažiť maximum

Definovanie systémových výziev jasné a stručné ktoré vymedzujú správanie. Pri zložitých problémoch môže pomôcť spôsob uvažovania, ktorý sa kombinuje s technikami štruktúrovania myslenia vhodnými pre váš prípad.

Spravovať kontext s hlavičkou: Hoci V3.2-Exp toleruje dlhý kontext (uvádzajú sa prípady až do 128 000), nadmerná história môže znížiť efektivitu. Implementuje inteligentné skracovanie, skrytý pre časté a dávkové dotazy, kde to dáva zmysel.

V oblasti bezpečnosti sanitizuje vstup, aby sa zabránilo okamžitým injekciám, a zaznamenáva interakcie do protokolov. auditUpravte teplotu a top_p podľa vášho cieľa: nízke hodnoty pre determinizmus, vysoké hodnoty pre kreativitu.

Vykonávajte A/B testy medzi deepseek-chat y hlboký úsudok vybrať optimálny režim. A nezabudnite na limit rýchlosti, aby ste sa vyhli prekvapeniam v fakturácia.

Porovnanie s V3.1-Terminus

Zavedenie DSA prináša vylepšenia v latencia ktoré sa v niektorých scenároch blížia k trojnásobnej rýchlosti bez toho, aby sa obetovala celková parita kvality. Je to evolúcia zameraná na vzťah výkon/účinnosť viac ako v záznamoch o presnosti.

Malý nárast v kódovaní a mierny pokles v humanitných oblastiach odráža doladenie modelu, ktorý je svojou povahou experimentálneČasový koncový bod V3.1 umožňuje priame porovnania, ktoré ukazujú dlhodobé zisky DSA.

Pokročilé lokálne nasadenie

V prípade nasadení citlivých na súkromie alebo offline nasadení si stiahnite pesos z Hugging Face a použitie oficiálnych konverzných skriptov je správna cesta. Nastavte počet expertov (napr. 256) a prispôsobte paralelizmus modelu svojim potrebám. GPU.

Demo inferencie umožňuje testovanie v interaktívnom režime a jadrá v TileLang alebo vám CUDA pomôže znížiť výkon podľa priorít: rýchlosť prototypovania alebo maximálna priepustnosť vo výrobe.

Otvorené jadrá a výkon

TileLang uprednostňuje čitateľnosť a dizajn pre výskum, aby ste mohli rýchlo iterovať s novými nápadmi. Je to perfektné, ak skúmate varianty starostlivosti. rozptýlené alebo optimalizácie pamäte.

Aby sa vyťažila každá milisekunda, prichádzajú do úvahy jadrá CUDA: logitové indexy (so stránkovanými verziami) sú v DeepGEMM, zatiaľ čo tí s rozptýlenou pozornosťou žijú v FlashMLATáto segmentácia umožňuje každému tímu vybrať si stoh optimálne bez opakovania práce.

Licencia, stretnutie a kontakt DeepSeek-V3.2-Exp

Úložisko a pesos Model je publikovaný pod licenciou MIT. To otvára dvere komerčnému využitiu s veľkou flexibilitou, podporuje jeho prijatie a... inovácie v ekosystéme.

Na odkazovanie na V3.2-Exp v úlohách poskytuje DeepSeek záznam o schôdzke typu @misc s názvom „DeepSeek-V3.2-Exp: Zvýšenie efektivity dlhého kontextu pomocou riedkej pozornosti DeepSeek“ a autorstvom „DeepSeek-AI“ (rok 2025). V prípade otázok alebo incidentov je kontaktná e-mailová adresa service@deepseek.com.

Oficiálne zdroje a užitočné odkazy o DeepSeek-V3.2-Exp

Ak si chcete stiahnuť model, máte ho v Objímajúca tvárBiela kniha je k dispozícii na GitHub spolu s podrobnosťami o implementácii a posudzovaní.

Porovnávacie testy medzi V3.2-Exp a V3.1-Terminus nájdete v Oficiálny sprievodcaA ak chcete poslať návrhy, máte kanál spätná väzba verejne dostupné na https://feedback.deepseek.com/dsa.

Vo verzii V3.2-Exp uprednostňuje DeepSeek jednoduchú myšlienku: efektivita bez straty kvalityDSA otvára cestu modelom, ktoré podporujú rozsiahle kontexty za rozumnú cenu, zjednodušené API prináša tieto možnosti väčšiemu počtu tímov a otvorenosť zásobníka (váhy, jadrá a dokumentácia) uľahčuje komunite skúmať, porovnávať a vytvárať skutočné produkty bez problémov.