Si fillimi kinez i AI Deepseek bëri një model që rivalizon Openai

Sot, Deepseek është një nga firmat e vetme kryesore të AI në Kinë që nuk mbështetet në fondet nga gjigantët e teknologjisë si Baidu, Alibaba, ose Bytedance.

Një grup i ri gjenialësh të etur për të provuar veten e tyre

Sipas Liang, kur ai bashkoi ekipin e hulumtimit të Deepseek, ai nuk po kërkonte inxhinierë me përvojë për të ndërtuar një produkt të përballur me konsumatorin. Në vend të kësaj, ai u përqëndrua në studentë të doktoratës nga universitetet më të larta të Kinës, përfshirë Universitetin Peking dhe Universitetin Tsinghua, të cilët ishin të etur për të provuar veten e tyre. Shumë ishin botuar në revista të larta dhe fituan çmime në konferenca akademike ndërkombëtare, por i mungonte përvoja e industrisë, sipas botimi i teknologjisë kineze Qbitai.

“Pozicionet tona kryesore teknike plotësohen kryesisht nga njerëz që u diplomuan këtë vit ose në një ose dy vjet të kaluara,” Liang i tha 36KR në 2023. Strategjia e punësimit ndihmoi në krijimin e një kulture bashkëpunuese të kompanisë, ku njerëzit ishin të lirë të përdorin burime të bollshme informatike për të ndjekur projekte kërkimore joortodokse. Shtë një mënyrë e ashpër e ndryshme e operimit nga kompani të krijuara të internetit në Kinë, ku ekipet shpesh konkurrojnë për burime. (Një shembull i fundit: Bytedance akuzoi një ish -praktikant – një fitues prestigjioz të çmimit akademik, jo më pak – të sabotimit të punës së kolegëve të tij në mënyrë që të grumbullojë më shumë burime informatike për ekipin e tij.)

Liang tha se studentët mund të jenë më të përshtatshëm për hulumtime me investime të larta, me fitim të ulët. “Shumica e njerëzve, kur janë të rinj, mund t’i kushtohen plotësisht një misioni pa konsiderata utilitare,” shpjegoi ai. Fusha e tij për punësime të ardhshme është se Deepseek u krijua për të “zgjidhur pyetjet më të vështira në botë”.

Fakti që këta studiues të rinj janë pothuajse plotësisht të arsimuar në Kinë, shton lëvizjen e tyre, thonë ekspertët. “Kjo gjeneratë e re gjithashtu mishëron një ndjenjë patriotizmi, veçanërisht pasi ato lundrojnë në kufizimet e SHBA dhe pikat e mbytjes në teknologjitë kritike të harduerit dhe softuerit,” shpjegon Zhang. “Vendosmëria e tyre për të kapërcyer këto barriera pasqyron jo vetëm ambicien personale, por edhe një angazhim më të gjerë për të përparuar pozicionin e Kinës si një udhëheqës global i inovacionit.”

Risi e lindur nga një krizë

Në tetor 2022, qeveria amerikane filloi të bashkojë kontrollet e eksportit që kufizuan rëndë kompanitë kineze të AI nga qasja në patate të skuqura si H100 të Nvidia. Masa paraqiti një problem për Deepseek. Firma kishte filluar me një rezervë prej 10,000 H100, por duhej më shumë për të garuar me firma si Openai dhe Meta. “Problemi me të cilin po përballemi nuk ka qenë kurrë financim, por kontrolli i eksportit në çipa të përparuar,” tha Liang për 36KR Në një intervistë të dytë në 2024.

Deepseek duhej të dilte me metoda më efikase për të trajnuar modelet e saj. “Ata optimizuan arkitekturën e tyre të modelit duke përdorur një bateri të trukeve inxhinierike-skemat e komunikimit të klientit midis çipave, duke zvogëluar madhësinë e fushave për të kursyer memorie, dhe përdorimin inovativ të qasjes së modeleve,” thotë Wendy Chang, një inxhinier softuerësh i kthyer në politikë Analist në Institutin Mercator për Studime në Kinë. “Shumë nga këto qasje nuk janë ide të reja, por kombinimi i tyre me sukses për të prodhuar një model të përparuar është një person i jashtëzakonshëm.”

DeepSeek gjithashtu ka bërë përparim të rëndësishëm në vëmendjen e fshehtë shumë-kokë (MLA) dhe përzierjen e ekspertëve, dy modele teknike që i bëjnë modelet Deepseek më kosto më kosto-efektive duke kërkuar më pak burime informatike për t’u trajnuar. Në fakt, modeli i fundit i Deepseek është aq efikas sa që kërkoi një të dhjeta fuqinë informatike të modelit të krahasueshëm të Llamës 3.1 të Meta për të trajnuar, Sipas Epokës së Institucionit të Kërkimit AI.

Gatishmëria e Deepseek për të ndarë këto risi me publikun e ka fituar atë një vullnet të konsiderueshëm të mirë brenda komunitetit global të kërkimit të AI. Për shumë kompani kineze të AI, zhvillimi i modeleve me burim të hapur është mënyra e vetme për të luajtur kapur me homologët e tyre perëndimorë, sepse tërheq më shumë përdorues dhe kontribues, gjë që nga ana tjetër ndihmon modelet të rriten. “Tani ata kanë demonstruar se modelet e përparme mund të ndërtohen duke përdorur më pak, megjithëse ende shumë para dhe se normat aktuale të ndërtimit të modelit lënë shumë hapësirë për optimizim,” thotë Chang. “Ne jemi të sigurt për të parë shumë më tepër përpjekje në këtë drejtim duke ecur përpara.”

Lajmi mund të tregojë probleme për kontrollet aktuale të eksportit në SHBA që përqendrohen në krijimin e telasheve të burimeve informatike. “Vlerësimet ekzistuese se sa ka fuqia informatike e AI Kina, dhe çfarë mund të arrijnë me të, mund të rriten,” thotë Chang.