sr Pon - Pet 09:00 - 17:00 office@ntpark.rs 011/3370-951

Nauka zasnovana na podacima i značaj matematike – Kontrola procesa na kojima gradimo budućnost

Sa povećanjem dostupnosti interneta eksponencijalno raste količina podataka koja se proizvodi. Početkom 2020. procenjeno je da digitalni univerzumsadrži 44 zetabajta podataka koji se kreiraju putem interneta, društvenih mreža, interneta stvari, a sa razvojem 5G mobilne mreže ovaj rast će biti sve brži.

Dostupnost sve veće količine podataka ne znači i da smo postali pametniji. Da bi se to dogodilo, potrebno je da interpretiramo podatke na pravi način. I poslednjih godina se upravo to dešava. Metode matematike, statistike, inženjerskih rešenja, od kojih su mnoge prisutne decenijama unazad, doživele su svoj procvat kroz primene u analizi podataka, najpre u tehnološkim  kompanijama (Google za rangiranje pretrage, LinkedIn za predlog kontakata itd.).

Iako ne postoji opšteprihvaćena definicija, prema Investopediji „nauka zasnovana na podacima (data science) koristi velike podatke i mašinsko učenje za interpretaciju podataka u cilju donošenja odluka“. Nauka zasnovana na podacima zahteva ekspertizu iz različitih oblasti, pre svega iz domena struke iz koje dolaze podaci, veštačke inteligencije, statistike i računarstva, ali i šire od toga, matematike, mašinskog učenja, veštine komunikacije, vizualizacije podataka.

„Hi, I’m Siri, your virtul assistant“

Za nauku zasnovanu na podacima od posebnog značaja je razvoj veštačke inteligencije. Veštačka inteligencija bavi se kreiranjem pametnih mašina sposobnih da izvršavaju zadatke koji zahtevaju ljudsku inteligenciju. Algoritmi čije se performanse unapređuju sve većom izloženošću velikoj količini podataka pripadaju oblasti mašinskog učenja, koja je podskup veštačke inteligencije. U okviru mašinskog učenja, posebno se izdvajaju višeslojne neuralne mreže koje uče iz velike količine podataka. Ovaj podskup algoritama mašinskog učenja naziva se duboko učenje (deep learning). Metode dubokog učenja doživele su ubrzan razvoj u poslednjih 10 godina, na šta je uticala velika količina podataka sa kojom raspolažemo, a koja je potrebna za učenje neuralnih mreža.

Primena neuralnih mreža danas je raznovrsna, i omogućava razvoj mnogih tehnoloških inovacija. Jedan od ranih uspešnih poduhvata koji ilustruje mogućnosti neuralnih mreža je AlphaGo, prvi računarski program koji je pobedio profesionalnog Go igrača, prvi koji je pobedio Go svetskog prvaka i verovatno je najjači Go igrač u istoriji. Go je igra na tabli za dva igrača koja vodi poreklo iz Kine i izuzetno je kompleksna. Postoji 10×170 različitih konfiguracija table, što je čini mnogo kompleksnijom igrom od šaha.

Zahvaljujući i obradi prirodnog jezika (Natural Language Processing Language), danas mašine oko nas mogu razgovarati sa nama, na našem jeziku.

Rad ličnih računarskih asistenata (Alexa, Siri, Cortana) koji ne samo da razumeju naš jezik, već odgovaraju i izvršavaju dodeljene zadatke, baziran je na metodama dubokog učenja.

Pretnja od pogrešnog zaključka

Metode dubokog učenja imaju veliki potencijal u primeni u medicini, posebno u dijagnostici i prognozi bolesti. Pored toga što metode mašinskog učenja uzimaju u obzir trenutno stanje pacijenta i razne vrste podataka tokom vremena vezane za njega, neuralne mreže stavljaju tog pacijenta u korelaciju sa grupom drugih pacijenata koji imaju određene sličnosti i na bazi svih tih podataka daju predloge za dijagnostiku.

Razlog zbog kog metode dubokog učenja nisu zaživele u potpunosti u kliničkoj praksi leži u velikoj kompleksnosti ovih metoda, zbog čega one vrlo često funkcionišu kao crna kutija koja daje rezultate, ali nismo uvek sigurni zašto i kako. Rizik leži u nemogućnosti da dizajniramo neuralne mreže na sistematski način, kao i nedostatak interpretacije rezultata, što može da dovede do opasnosti ukoliko dođe do fatalne greške. Naime, postoje sistematski načini dodavanja šuma u sliku na koje je moguće zbuniti neuralnu mrežu da proizvede pogrešan zaključak. Jedan od primera kada je bezbednost od velikog značaja je automatizacija vožnje kod samovozećih automobila.

Ali Rahimi iz Google-a je tokom svog predavanja 2017. godine na konferenciji posvećenoj mašinskom učenju, NIPS 2017, izjavio da je duboko učenje postalo alhemija i da se često oseća kao da koristi vanzemaljsku tehnologiju, dobivši ovacije od publike. To samo ilustruje izazove sa kojima se programeri i inženjeri susreću pri radu sa neuralnim mrežama.

„Intervencija“ matematike

Iako metode dubokog učenja pokazuju impresivne rezultate, matematička teorija koja stoji iza ovih metoda je i dalje siromašna. Zašto neuralne mreže uopšte funkcionišu, kako prevazići nestabilnosti i zadržati dobre performanse, samo su neka od otvorenih pitanja u oblasti dubokog učenja na čijem rešavanju rade mnogi matematički timovi. Tokom 2018. i 2019. godine nekoliko inicijativa je pokrenuto od strane matematičke zajednice sa ciljem da daju matematičko i teorijsko razumevanje metoda dubokog učenja. Među  njima se izdvajaju inicijative SIAM-a (Society for Industrial and Applied Mathematics siam.org), kao što su novi naučni časopis osnovan 2018. godine SIAM Journalon Mathematics of Data Science SIMODS i naučna konferencija SIAM Conference on Mathematics of Data Science čije je prvo izdanje bilo planirano za maj 2020, a zbog proglašene epidemije značajan broj najavljenih predavanja je održano onlajn.

Dok nas ka budućnosti baziranoj na humanoidnim robotima i veštačkoj inteligenciji krupnim koracima vode inženjeri i istraživači vođeni svojom radoznalošću i inovativnošću, kao i kompanije vođene željom za profitom, na matematičkoj zajednici je da ponudi teorijsku osnovu za razvoj ovih metoda, čime ćemo steći mnogo bolju kontrolu, stabilnost i bezbednost nad procesima na kojima gradimo budućnost čovečanstva.

Pomenute inicijative pružaju nadu da će razvoj tehnologija u bliskoj budućnosti biti uokviren solidnom matematičkom podlogom koja bi trebalo da pruži sigurnost u rezultate veštačke inteligencije i analize podataka koji se prikupljaju u ogromnim količinama svake sekunde. U suprotnom, vrlo lako može da nam se desi da dođemo u situaciju da moramo da dokazujemo da nismo mi na snimku kamere, i da je to rezultat nezadovoljavajuće tačnosti softvera za prepoznavanje lica. A u mnogim primenama, jedina zadovoljavajuća tačnost bi bila stopostotna.

O autoru: Nataša Ćirović je vanredni profesor na Elektrotehničkom fakultetu Univerziteta u Beogradu. Doktorirala je na Matematičkom fakultetu 2012. godine. Bavi se primenom matematičkih metoda u oblasti klasifikacije podataka, optimizacije izbora obeležja, teorijom fiksne tačke na fazi-metričkim i verovatnosnim prostorima, kao i primenom numeričkih metoda na rešavanje inženjerskih problema.

Angažovana je na aktivnostima Poslovno-tehnološkog inkubatora tehničkih fakulteta Beograd BITF od osnivanja, posebno u realizaciji i koordinaciji projekata za podsticanje razvoja novih startap timova, komercijalizaciju inovacija i rezultata naučno-istraživačkog rada, te osnivanja novih startup kompanija u oblasti visokih tehnologija.