Pricemimi i vërtetë i zhvillimit të modeleve të reja të Deepseek mbetet e panjohur, megjithatë, pasi një figurë e cituar në një punim të vetëm kërkimor mund të mos kapë pamjen e plotë të kostove të tij. “Unë nuk besoj se është 6 milion dollarë, por edhe nëse është 60 milion dollarë, është një ndërrues i lojës,” thotë Umesh Padval, drejtori menaxhues i Thomvest Ventures, një kompani që ka investuar në Chere dhe firma të tjera të AI. “Do të bëjë presion mbi përfitimin e kompanive të cilat janë të përqendruara në AI të konsumatorit.”
Menjëherë pasi Deepseek zbuloi detajet e modelit të tij të fundit, Ghodsi i Databricks thotë se klientët filluan të pyesin nëse mund t’i përdorin atë, si dhe teknikat themelore të Deepseek për të ulur kostot në organizatat e tyre. Ai shton se një qasje e përdorur nga inxhinierët e Deepseek, i njohur si distilim, i cili përfshin përdorimin e rezultatit nga një model i madh gjuhësor për të trajnuar një model tjetër, është relativisht e lirë dhe e drejtpërdrejtë.
Padval thotë se ekzistenca e modeleve si Deepseek do të përfitojë përfundimisht kompanitë që kërkojnë të shpenzojnë më pak në AI, por ai thotë se shumë firma mund të kenë rezerva për t’u mbështetur në një model kinez për detyra të ndjeshme. Deri më tani, të paktën një firmë e shquar e AI, e hutuar, ka njoftuar publikisht It’sshtë duke përdorur modelin R1 të Deepseek, por thotë se thotë se po pritet “plotësisht i pavarur nga Kina”.
Amjad Massad, Drejtori i Përgjithshëm i Replit, një startup që ofron mjete të kodimit të AI, i tha Wired se ai mendon se modelet e fundit të Deepseek janë mbresëlënëse. Ndërsa ai ende gjen modelin e Sonnet të Antropikut është më i mirë në shumë detyra të inxhinierisë kompjuterike, ai ka zbuluar se R1 është veçanërisht i mirë në shndërrimin e komandave të tekstit në kod që mund të ekzekutohet në një kompjuter. “Ne po e eksplorojmë duke e përdorur atë veçanërisht për arsyetimin e agjentit,” shton ai.
Dy ofertat e fundit të Deepseek-Deepseek R1 dhe Deepseek R1-Zero-janë të afta për të njëjtin lloj arsyetimi të simuluar si sistemet më të përparuara nga Openai dhe Google. Ata të gjithë punojnë duke thyer problemet në pjesët përbërëse në mënyrë që t’i trajtojnë ato në mënyrë më efektive, një proces që kërkon një sasi të konsiderueshme të trajnimit shtesë për të siguruar që AI të arrijë me besueshmëri përgjigjen e saktë.
Një letër Postuar nga studiuesit Deepseek javën e kaluar përshkruan qasjen që kompania përdori për të krijuar modelet e saj R1, për të cilat pretendon se kryen në disa standarde, si dhe modelin e arsyetimit fillestar të Openai të njohur si O1. Taktikat e përdorura Deepseek përfshijnë një metodë më të automatizuar për të mësuar se si të zgjidhin problemet si duhet, si dhe një strategji për transferimin e aftësive nga modele më të mëdha në ato më të vogla.
Një nga temat më të nxehta të spekulimeve për Deepseek është pajisja që mund të ketë përdorur. Pyetja është veçanërisht e dukshme sepse qeveria amerikane ka prezantuar një seri kontrollesh eksporti dhe kufizime të tjera tregtare gjatë viteve të fundit që synojnë të kufizojnë aftësinë e Kinës për të fituar dhe prodhuar patate të skuqura më të larta që janë të nevojshme për ndërtimin e AI të përparuar.
Në një punim hulumtues Nga gushti 2024, Deepseek tregoi se ka qasje në një grup prej 10,000 patate të skuqura Nvidia A100, të cilat u vendosën nën kufizimet e SHBA të shpallura në tetor 2022. Në një letër e veçantë Nga qershori i atij viti, Deepseek deklaroi se një model i mëparshëm që krijoi i quajtur Deepseek-V2 u zhvillua duke përdorur grupe të patate të skuqura kompjuterike NVIDIA H800, një komponent më pak i aftë i zhvilluar nga NVIDIA për të përmbushur kontrollet e eksportit në SHBA.
Një burim në një kompani AI që trajnon modele të mëdha të AI, i cili kërkoi të jetë anonim për të mbrojtur marrëdhëniet e tyre profesionale, vlerëson se Deepseek ka të ngjarë të përdorte rreth 50,000 patate të skuqura Nvidia për të ndërtuar teknologjinë e saj.
Nvidia nuk pranoi të komentojë drejtpërdrejt se në cilën nga çipat e saj Deepseek mund të ketë mbështetur. “Deepseek është një përparim i shkëlqyeshëm i AI,” tha një zëdhënës i NVIDIA në një deklaratë, duke shtuar se qasja e arsyetimit të fillimit “kërkon një numër të konsiderueshëm të GPU-ve të Nvidia dhe rrjeteve të performancës së lartë.”
Sidoqoftë, modelet e Deepseek u ndërtuan, ato duket se tregojnë se një qasje më pak e mbyllur për zhvillimin e AI po fiton vrull. Në dhjetor, Clem Delangue, CEO i Huggingface, një platformë që pret modele të inteligjencës artificiale, parashikoi se Një kompani kineze do të merrte drejtimin në AI për shkak të shpejtësisë së inovacionit që po ndodh në modele me burim të hapur, të cilin Kina i ka përqafuar kryesisht. “Kjo shkoi më shpejt nga sa mendoja,” thotë ai.