Pionierët e të mësuarit të përforcimit fitojnë çmimin Turing

4 Min Read

Në vitet 1980, Andrew Barto dhe Sutton i pasur u konsideruan përkushtues ekscentrikë ndaj një ideje elegante, por përfundimisht të dënuar – makinat që kanë të bëjnë, siç bëjnë njerëzit dhe kafshët, nga përvoja.

Dekada më tej, me teknikën që ata pionier tani gjithnjë e më kritike për inteligjencën moderne artificiale dhe programet si Chatgpt, Barto dhe Sutton u është dhënë çmimi Turing, Nderi më i Lartë në fushën e shkencës kompjuterike.

Barto, një profesor emeritus në Universitetin e Massachusetts Amherst, dhe Sutton, një profesor në Universitetin e Albertës, bëri një teknikë të njohur si të mësuarit e përforcimit, i cili përfshin bashkimin e një kompjuteri për të kryer detyra përmes eksperimentimit të kombinuara ose me reagime pozitive ose negative.

“Kur filloi kjo punë për mua, ishte jashtëzakonisht e modës,” kujton Barto me një buzëqeshje, duke folur për Zoom nga shtëpia e tij në Massachusetts. “Ka qenë e jashtëzakonshme se [it has] arriti njëfarë ndikimi dhe njëfarë vëmendje, ”shton Barto.

Mësimi i përforcimit u përdor ndoshta më i famshmi nga Google Deepmind në 2016 për të ndërtuar Alphago, një program që mësoi vetë se si të luante lojën tepër komplekse dhe delikate të bordit të Go në një nivel eksperti. Kjo demonstrim ngjalli interes të ri për teknikën, e cila ka vazhduar të përdoret në reklamim, optimizimin e përdorimit të energjisë së qendrës së të dhënave, financave dhe modelit të çipave. Qasja gjithashtu ka një histori të gjatë në robotikë, ku mund të ndihmojë makinat të mësojnë të kryejnë detyra fizike përmes provës dhe gabimit.

Kohët e fundit, mësimi i përforcimit ka qenë thelbësor për të udhëhequr prodhimin e modeleve të mëdha të gjuhëve (LLM) dhe prodhimin e programeve chatbot jashtëzakonisht të afta. E njëjta metodë po përdoret gjithashtu për të trajnuar modele AI për të imituar arsyetimin njerëzor dhe për të ndërtuar agjentë më të aftë të AI.

Sidoqoftë, Sutton shënon se metodat e përdorura për të udhëhequr LLM -të përfshijnë njerëzit që sigurojnë qëllime sesa një algoritëm që mëson thjesht përmes eksplorimit të vet. Ai thotë se të kesh makina të mësojnë plotësisht vetë, përfundimisht mund të jenë më të frytshme. “Ndarja e madhe është nëse [AI is] Mësoni nga njerëzit ose nëse është duke mësuar nga përvoja e vet, “thotë ai.

“Puna e Barto dhe Sutton ka qenë një linçpin përparimi në AI gjatë disa dekadave të fundit,” tha Jeff Dean, një nënkryetar i lartë në Google, në një deklaratë të lëshuar nga Shoqata për Makineritë e Informacionit (ACM) e cila e heq çmimin Turing. “Mjetet që ata zhvilluan mbeten një shtyllë qendrore e bumit të AI dhe kanë dhënë përparime të mëdha.”

Përforcimi ka një histori të gjatë dhe të kontrolluar brenda AI. Ishte atje në agimin e fushës, kur Alan Turing sugjeroi që makinat të mund të mësonin përmes përvojës dhe reagimeve në letrën e tij të famshme të vitit 1950 “Makineritë e llogaritjes dhe inteligjencës“I cili shqyrton nocionin se një makinë mund të mendojë një ditë si një njeri. Arthur Samuel, një pionier i AI, përdori mësimin e përforcimit për të ndërtuar një nga programet e para të mësimit të makinerisë, një sistem i aftë për të luajtur damënë 1955.

Share This Article
Leave a Comment