Razvoj modela za analizu podataka iz nestrukturiranih izvora informacija

Naziv projekta: Razvoj modela za analizu podataka iz nestrukturiranih izvora informacija s ciljem povećanja kibernetičke sigurnosti u složenim poslovnim sustavima.

Tvrtka In Rebus d.o.o., Sv. Mateja 5, 10 000 Zagreb, OIB: 91591564577, provodi projekt „Razvoj modela za analizu podataka iz nestrukturiranih izvora informacija s ciljem povećanja kibernetičke sigurnosti u složenim poslovnim sustavima“.

Projekt se sufinancira sredstvima iz Europskog fonda za regionalni razvoj (link www.strukturnifondovi.hr)

Ukupna vrijednost projekta: 2.300.289,21 HRK

EU sufinanciranje projekta: 1.685.941,83 kn

Razdoblje provedbe projekta: 1.8.2020. do 1.8.2023.

Partner na projektu: Sveučilište u Zagrebu,

Fakultet elektrotehnike i računarstva

OPIS PROJEKTA

Projektom se želi izraditi potpuno novi softverski model koji predstavlja novi koncept za prijavitelja i partnera, koji istovremeno, s obzirom da nije konačni proizvod nego model, može biti ugrađen u druge proizvode i sustave i ima vrlo široku primjenu.

Ovime model postaje konkurentan na globalnom tržištu s obzirom da predstavlja novitet, iskorak i modernizaciju, a uz to će sadržavati generičke metode analize nestrukturiranih podataka te generičku bazu znanja koja je primjenjiva u raznim industrijama, bez obzira na geografski položaj korisnika.

Model, odnosno softverska komponenta koja će taj model koristiti trebala bi omogućiti kreiranje specifičnih baza znanja za pojedine poslovne vertikale (npr. medicinu, energetiku, transportnu i industriju, farmaceutsku industriju i sl.), kao i za pojedine tipove korisnika odnosno organizacija (društva u privatnom vlasništvu, društva iz javnog sektora, gradovi, države i sl.).

Prema istraživanju IDC-a, samo 0,5 posto svjetskih podataka su analizirani.

Ogromna količina nestrukturiranih podataka dolazi iz raznih izvora kao što su: poslovni podaci, baze podataka, ali i izvora kao što su društveni mediji, chat, e-pošta, web dnevnici, recenzije proizvoda, razgovori o kvaliteti usluga (forumi), podaci lokacija korisnika, glas klijenta, povratne informacije potrošača i sl. U ovim podacima leže velike količine korisnih informacija, samo ako se kvalitetno analiziraju i koreliraju.

CILJ PROJEKTA:

je izraditi softverski model koji će koristiti sofisticirane mehanizme umjetne inteligencije, za analizu podataka iz nestrukturiranih izvora informacija kako bi unaprijedio razinu kibernetičke sigurnosti društva, organizacije, grada, države ili bilo kojeg drugog organizacijskog entiteta koji ga koristi.

SVRHA PROJEKTA:

je omogućiti organizacijskim entitetima da povećaju kibernetičku sigurnost informacijskih sustava koje koriste

REZULTAT PROJEKTA:

predstavlja novi iskorak u području istraživanja i razvoja s obzirom da je naglasak na predviđanju događaja. Istovremeno se primjenjuju nova znanja, jer će se u suradnji s akademskom zajednicom osmisliti nove metode statističkih analiza nestrukturiranih podataka na temelju kojih će se razviti potpuno novi model koji će biti rezultat primjene novih znanja iz područja kibernetičke sigurnosti i analize nestrukturiranih podataka.

PRVA OBJAVA:

S provedbom projekta se započelo 1.8.2020. godine.  U početnom periodu projekta, definirani su  ciljevi projekta, oformljen je projektni tim i dogovoren je radni plan koji se sastoji od sljedećih aktivnosti:

  1. Razrada, ispitivanje i testiranje potrebne tehnologije; definiranje metoda; sužavanje mogućih opsega metoda,
  2. Analiza inicijalno dostavljenih podataka od strane davatelja podataka; pilot testiranje na definiranim tehnologijama
  3. Definiranje liste značajki; definiranje stupnjeva važnosti značajki
  4. Radionice s davateljem podataka; analize ciljeva i značajki u kontekstu poslovanja i realnih scenarija do sada primijećenih u praksi
  5. Klasifikacija važnosti čega pojedinih značajki, usporedba s iskustvima u realnom poslovanju
  6. Prioritizacija značajki i ciljeva, stupnjevanje značajki
  7. Razrada višestrukih izvora podataka, iznalaženje korelacija u nestrukturiranim podacima

Projektni tim sastoji se od zaposlenika In Rebus d.o.o., vanjskih konzultanata, kao i istraživača i suradnika s Fakulteta elektrotehnike i računarstva Sveučilišta u Zagrebu. Pri oformljivanju tima, posebna se briga vodila o nalaženju najboljeg stručnog kadra, ali i osiguravanja prijenosa znanja iz različitih resora čime se stvara dugotrajna vrijednost i integracija, tako da vjerujemo da ovaj projekt predstavlja vrijedan primjer javno-privatnog partnerstva. Posebna briga se vodila da se tim oformi na taj način da kompetencije stečene ovim projektom ostanu trajna nematerijalna vrijednost izvođača, kao osnova za buduće slične komercijalne projekte.

Radni plan koji je dogovoren prati standardnu metodologiju u implementaciji umjetne inteligencije, pri čemu su definirana tri glavna miljokaza, koji se dijele na zadatke. Radi pospješivanja prijenosa znanja, na nijednom zadatku nije postavljenja jedna osoba, već se posebna briga vodila da se upare stariji i mlađi kadrovi, kako bi se osigurali optimalni uvjeti za brzi prijenos kompetencija i osnova za kasniju specijalizaciju.

Miljokaz:

Izrada pogleda nad bazom podataka

Izrada pogleda (view) u bazi podataka podrazumijeva transformaciju svih podataka i njihovo filtriranje kako bi se osiguralo da se nad njima mogu pokrenuti algoritmi strojnog učenja. Predradnja za izradu pogleda, koja je završena, je izrada liste značajki u kojoj su sudjelovali vanjski konzultanti, ali i stručnjaci iz hrvatskih tvrtki koji su pomogli značajno dajući svoj stručni pogled i svoje iskustvo. Iz gotove liste značajki se izrađuje pogled na bazi podataka, što predstavlja prvi miljokaz. Do sada je ostvaren prvi miljkoaz. 

(2) Izrada prediktivnih modela temeljem pogleda

Ovaj miljokaz pretpostavlja izradu prediktivnih modela. Osnovna struktura ovog koraka je sljedeća: sporedni prediktivni modeli dopunjavaju pogled sa svojim predikcijama koji onda glavni model koristi kao ulaz. Glavni model treba predvidjeti iznos druge ponude kao i postotak vjerojatnosti s kojom će ga klijent prihvatiti. Sporedni modeli rade predikcije nekih dodatnih ciljeva u domeni detekcije anomalija i odudaranja od pravilnosti u podacima te se mogu koristiti zasebno, ali također se koriste da doprinose glavnom modelu.

(3) Implementacija

Zadnji miljkoaz koji tvori gotov projekt je implementacija sustava kod korisnika. Konačni oblik implementacije će biti odlučen od strane klijenta, te će biti izvršen prema dostavljenoj specifikaciji.


DRUGA OBJAVA:

Od početka projekta prošlo je godinu i deset mjeseci.

Izvršena je druga faza projekta te je pristupljeno izradi prvih prediktivnih modela za implementaciju sustava umjetne inteligencije kod klijenta. Napravljen je niz modela koji su evaluairani, kao što je i planirano.

U narednom periodu su predviđena tri miljokaza:

(1) potpuna verifikacija viewa

(2) optimizacija modela

(3) izrada clusteringa

Ova publikacija je ostvarena uz financijsku potporu Europske unije. Ova publikacija odražava isključivo stajalište autora publikacije i Europska unija ne može biti odgovorna za informacije koje se u njoj nalaze