Në fund të vitit 2023, një ekip studiuesish të palëve të treta zbuluan një dorezë shqetësuese në modelin e inteligjencës artificiale të përdorur gjerësisht të Openai GPT-3.5.
Kur u pyet për të përsëritur fjalë të caktuara një mijë herë, modeli filloi të përsëriste fjalën pa pushim, atëherë papritmas kaloi në pështymë Teksti jo i përkohshëm dhe copëzat e informacionit personal të nxjerrë nga të dhënat e tij të trajnimit, duke përfshirë pjesë të emrave, numrat e telefonit dhe adresat e postës elektronike. Ekipi që zbuloi problemin punoi me Openai për të siguruar që të meta ishte fikse para se ta zbulonte publikisht. Justshtë vetëm një nga rezultatet e problemeve që gjenden në modelet kryesore të AI vitet e fundit.
Në një Propozimi i lëshuar sotMë shumë se 30 studiues të shquar të AI, përfshirë disa që gjetën të metën GPT-3.5, thonë se shumë dobësi të tjera që prekin modelet popullore raportohen në mënyra problematike. Ata sugjerojnë një skemë të re të mbështetur nga kompanitë e AI që i jep leje të jashtme për të hetuar modelet e tyre dhe një mënyrë për të zbuluar të metat publikisht.
“Tani për tani është pak nga perëndimi i egër,” thotë Shayne Longpresnjë kandidat për doktoratë në MIT dhe autori kryesor i propozimit. Longpre thotë se disa jailbreakers të ashtuquajtura ndajnë metodat e tyre për të thyer mbrojtjen e AI platformën e mediave sociale X, duke lënë modele dhe përdorues në rrezik. Jailbreaks të tjerë ndahen me vetëm një kompani edhe pse ato mund të prekin shumë. Dhe disa të meta, thotë ai, mbahen të fshehta për shkak të frikës së ndalimit ose përballjes së ndjekjes penale për prishjen e kushteve të përdorimit. “Isshtë e qartë se ka efekte të ftohta dhe pasiguri,” thotë ai.
Siguria dhe siguria e modeleve të AI është jashtëzakonisht e rëndësishme duke pasur parasysh gjerësisht teknologjinë tani po përdoret, dhe se si mund të depërtojë në aplikime dhe shërbime të panumërta. Modelet e fuqishme duhet të jenë të testuara me stres, ose me skenë të kuqe, sepse ato mund të mbajnë paragjykime të dëmshme, dhe për shkak se inputet e caktuara mund të bëjnë që ata të shkëputen nga roje dhe të prodhojnë përgjigje të pakëndshme ose të rrezikshme. Këto përfshijnë inkurajimin e përdoruesve të cenueshëm për t’u angazhuar në sjellje të dëmshme ose për të ndihmuar një aktor të keq për të zhvilluar armë kibernetike, kimike ose biologjike. Disa ekspertë kanë frikë se modelet mund të ndihmojnë kriminelët në internet ose terroristët, dhe madje mund të kthehen te njerëzit ndërsa përparojnë.
Autorët sugjerojnë tre masa kryesore për të përmirësuar procesin e zbulimit të palëve të treta: miratimin e raporteve të standardizuara të të metave të AI për të thjeshtuar procesin e raportimit; Që firmat e mëdha të AI të sigurojnë infrastrukturë për studiuesit e palëve të treta që zbulojnë të metat; dhe për zhvillimin e një sistemi që lejon të metat të ndahen midis ofruesve të ndryshëm.
Qasja është huazuar nga bota e sigurisë në internet, ku ka mbrojtje ligjore dhe norma të vendosura për studiuesit e jashtëm për të zbuluar gabimet.
“Studiuesit e AI nuk dinë gjithmonë se si të zbulojnë një të metë dhe nuk mund të jenë të sigurt se zbulimi i tyre i gabuar i besimit të mirë nuk do t’i ekspozojë ata ndaj rrezikut juridik,” thotë Ilona Cohen, zyrtari kryesor ligjor dhe politika në HakeronNjë kompani që organizon basite të gabuara, dhe një bashkautor në raport.
Kompanitë e mëdha të AI aktualisht kryejnë testime të gjera të sigurisë në modelet e AI para lëshimit të tyre. Disa gjithashtu kontraktohen me firmat e jashtme për të bërë hetime të mëtejshme. “A ka mjaft njerëz në ato [companies] Për të adresuar të gjitha çështjet me sistemet AI me qëllime të përgjithshme, të përdorura nga qindra miliona njerëz në aplikacione që nuk kemi ëndërruar kurrë? ” Pyet Longpre. Disa kompani të AI kanë filluar të organizojnë dhuratat e Bug AI. Sidoqoftë, Longpre thotë se studiuesit e pavarur rrezikojnë të thyejnë kushtet e përdorimit nëse e marrin atë vetë për të hetuar modele të fuqishme të AI.