Tehnike analize velikih podataka. Enciklopedija marketinga

26.02.2022

Stalno ubrzanje rasta podataka sastavni je element moderne stvarnosti. društveni mediji, mobilnih uređaja, podaci sa mjernih uređaja, poslovne informacije - ovo je samo nekoliko vrsta izvora koji mogu generirati ogromne količine podataka.

Trenutno je termin Big Data postao prilično uobičajen. Nisu svi još svjesni koliko se brzo i duboko tehnologije za obradu velikih količina podataka najviše mijenjaju razne aspekteživot društva. Promjene se dešavaju u različitim oblastima, što dovodi do novih problema i izazova, uključujući i na terenu sigurnost informacija, gdje njegovi najvažniji aspekti kao što su povjerljivost, integritet, dostupnost itd. trebaju biti u prvom planu.

Nažalost, mnoge moderne kompanije pribjegavaju tehnologiji velikih podataka bez stvaranja odgovarajuće infrastrukture za sigurno pohranjivanje ogromnih količina podataka koje prikupljaju i pohranjuju. S druge strane, blockchain tehnologija se trenutno ubrzano razvija, koja je dizajnirana da riješi ovaj i mnoge druge probleme.

Šta su Big Data?

Zapravo, definicija pojma je jasna: „veliki podaci“ označavaju upravljanje veoma velikim količinama podataka, kao i njihovu analizu. Ako pogledamo šire, radi se o informacijama koje se zbog velike količine ne mogu obraditi klasičnim metodama.

Sam termin Big Data pojavio se relativno nedavno. Prema Google Trends, aktivni rast popularnosti termina dogodio se krajem 2011. godine:

2010. godine počeli su se pojavljivati prvi proizvodi i rješenja direktno vezana za obradu velikih podataka. Do 2011. godine većina najvećih IT kompanija, uključujući IBM, Oracle, Microsoft i Hewlett-Packard, aktivno koriste termin Big Data u svojim poslovnim strategijama. Postepeno analitičari tržišta informacione tehnologije započinju aktivna istraživanja ovog koncepta.

Trenutno je ovaj izraz stekao značajnu popularnost i aktivno se koristi u raznim oblastima. Međutim, ne može se sa sigurnošću reći da su veliki podaci neka vrsta fundamentalno novog fenomena – naprotiv, veliki izvori podataka postoje već dugi niz godina. U marketingu, to uključuje baze podataka o kupovini kupaca, kreditnoj istoriji, životnom stilu itd. Tokom godina, analitičari su koristili ove podatke da pomognu kompanijama da predvide buduće potrebe kupaca, procijene rizike, oblikuju preferencije potrošača i još mnogo toga.

Trenutno se situacija promijenila u dva aspekta:

— pojavili su se sofisticiraniji alati i metode za analizu i poređenje različitih skupova podataka;
— alati za analizu su dopunjeni mnogim novim izvorima podataka, zbog široko rasprostranjenog prelaska na digitalne tehnologije, kao i novih metoda prikupljanja i mjerenja podataka.

Istraživači predviđaju da će se tehnologije velikih podataka najaktivnije koristiti u proizvodnji, zdravstvu, trgovini, državnoj administraciji i drugim različitim područjima i industrijama.

Veliki podaci nisu određeni niz podataka, već skup metoda za njihovu obradu. Definirajuća karakteristika velikih podataka nije samo njihov obim, već i druge kategorije koje karakteriziraju radno intenzivne procese obrade i analize podataka.

Početni podaci za obradu mogu biti, na primjer:

— evidencije ponašanja korisnika interneta;
— Internet stvari;
— društveni mediji;
— meteorološki podaci;
— digitalizovane knjige iz većih biblioteka;
— GPS signali od vozila;
— informacije o transakcijama klijenata banke;
— podaci o lokaciji pretplatnika mobilne mreže;
— informacije o kupovini u velikim trgovačkim lancima itd.

Vremenom, obim podataka i broj njihovih izvora stalno raste, a na tom pozadini se pojavljuju nove metode obrade informacija i unapređuju se postojeće.

Osnovni principi Big Data:

— Horizontalna skalabilnost – nizovi podataka mogu biti ogromni, a to znači da se sistem za obradu velikih podataka mora dinamički širiti kako se njihov volumen povećava.
— Tolerancija grešaka – čak i ako neki elementi opreme pokvare, cijeli sistem mora ostati u funkciji.
— Lokalitet podataka. U velikim distribuiranim sistemima, podaci se obično distribuiraju na značajan broj mašina. Međutim, kad god je to moguće i radi uštede resursa, podaci se često obrađuju na istom serveru gdje se pohranjuju.

Za stabilan rad sva tri principa i, shodno tome, visoku efikasnost skladištenja i obrade velikih podataka, potrebne su nove revolucionarne tehnologije, kao što je, na primer, blockchain.

Zašto su nam potrebni veliki podaci?

Opseg Big Data se stalno širi:

— Veliki podaci se mogu koristiti u medicini. Dakle, dijagnoza se može postaviti za pacijenta ne samo na osnovu podataka iz analize pacijentove povijesti bolesti, već i uzimajući u obzir iskustva drugih liječnika, informacije o ekološkoj situaciji u području stanovanja pacijenta i mnogi drugi faktori.
— Big Data tehnologije se mogu koristiti za organizovanje kretanja bespilotnih vozila.
— Obradom velikih količina podataka možete prepoznati lica na fotografijama i video zapisima.
— Tehnologije velikih podataka mogu koristiti trgovci na malo – trgovačke kompanije mogu aktivno koristiti skupove podataka iz društvene mreže da efikasno postavite svoje reklamne kampanje, koje mogu biti maksimalno ciljane na određeni segment potrošača.
— Ova tehnologija se aktivno koristi u organizovanju predizbornih kampanja, uključujući i analizu političkih preferencija u društvu.
— Upotreba Big Data tehnologija je relevantna za rješenja klase osiguranja prihoda (RA), koja uključuju alate za otkrivanje nedosljednosti i dubinsku analizu podataka, omogućavajući pravovremenu identifikaciju vjerovatnih gubitaka ili izobličenja informacija koje bi mogle dovesti do smanjenja finansijski rezultati.
— Telekomunikacijski provajderi mogu agregirati velike podatke, uključujući geolokaciju; zauzvrat, ove informacije mogu biti od komercijalnog interesa za reklamne agencije, koje ih mogu koristiti za prikazivanje ciljanog i lokalnog oglašavanja, kao i za trgovce na malo i banke.
— Veliki podaci mogu igrati važnu ulogu u odlučivanju o otvaranju maloprodajnog objekta na određenoj lokaciji na osnovu podataka o prisutnosti snažnog ciljanog toka ljudi.

Dakle, najočitija praktična primjena Big Data tehnologije leži u području marketinga. Zahvaljujući razvoju interneta i proliferaciji svih vrsta komunikacionih uređaja, podaci o ponašanju (kao što su broj poziva, kupovne navike i kupovine) postaju dostupni u realnom vremenu.

Tehnologije velikih podataka također se mogu efikasno koristiti u finansijama, za sociološka istraživanja i u mnogim drugim oblastima. Stručnjaci tvrde da su sve ove mogućnosti korištenja velikih podataka samo vidljivi dio ledenog brijega, budući da se te tehnologije u mnogo većim količinama koriste u obavještajnim i kontraobavještajnim poslovima, u vojnim poslovima, kao i u svemu što se obično naziva informacionim ratom.

Uopšteno govoreći, redoslijed rada s velikim podacima sastoji se od prikupljanja podataka, strukturiranja primljenih informacija pomoću izvještaja i nadzornih ploča, a zatim formulisanja preporuka za akciju.

Razmotrimo ukratko mogućnosti korištenja Big Data tehnologija u marketingu. Kao što znate, za trgovca su informacije glavni alat za predviđanje i razvoj strategije. Analiza velikih podataka se dugo uspješno koristi za određivanje ciljnu publiku, interesi, potražnja i aktivnost potrošača. Analiza velikih podataka, posebno, omogućava prikazivanje reklama (zasnovanog na modelu RTB aukcije - Real Time Bidding) samo onim potrošačima koji su zainteresovani za proizvod ili uslugu.

Upotreba Big Data u marketingu omogućava privrednicima da:

— bolje upoznajte svoje potrošače, privucite sličnu publiku na internetu;
— procijeniti stepen zadovoljstva kupaca;
— razumjeti da li predložena usluga ispunjava očekivanja i potrebe;
— pronaći i implementirati nove načine za povećanje povjerenja kupaca;
— kreirati projekte koji su traženi, itd.

Na primjer, usluga Google.trends može trgovcu ukazati na prognozu sezonske aktivnosti potražnje za određenim proizvodom, fluktuacije i geografiju klikova. Ako uporedite ove informacije sa statističkim podacima koje prikuplja odgovarajući dodatak na vašoj web stranici, možete napraviti plan raspodjele budžeta za oglašavanje, navodeći mjesec, regiju i druge parametre.

Prema mnogim istraživačima, uspjeh Trumpove predizborne kampanje leži u segmentaciji i korištenju velikih podataka. Tim budućeg predsjednika SAD uspio je pravilno podijeliti publiku, razumjeti njene želje i pokazati upravo onu poruku koju birači žele vidjeti i čuti. Tako je, prema riječima Irine Belysheve iz Data-Centric Alliancea, Trumpova pobjeda u velikoj mjeri bila moguća zahvaljujući nestandardnom pristupu internet marketingu, koji se temeljio na Big Data, psihološkoj i biheviorističkoj analizi i personaliziranom oglašavanju.

Trampovi politički stratezi i trgovci koristili su posebno razvijen matematički model, koji je omogućio dubinu analizu podataka svih američkih glasača i njihovu sistematizaciju, čineći ultraprecizno ciljanje ne samo po geografskim karakteristikama, već i po namerama, interesima birača, njihov psihotip, karakteristike ponašanja itd. Da bi to postigli, marketari su organizovali personalizovanu komunikaciju sa svakom grupom građana na osnovu njihovih potreba, raspoloženja, političkih stavova, psiholoških karakteristika, pa čak i boje kože, koristeći svoju poruku za skoro svakog pojedinačnog glasača.

Što se tiče Hillary Clinton, ona je u svojoj kampanji koristila “vremenski testirane” metode zasnovane na sociološkim podacima i standardnom marketingu, podijelivši biračko tijelo samo na formalno homogene grupe (muškarci, žene, Afroamerikanci, Latinoamerikanci, siromašni, bogati itd.) .

Kao rezultat toga, pobjednik je bio onaj koji je cijenio potencijal novih tehnologija i metoda analize. Važno je napomenuti da su troškovi kampanje Hillary Clinton bili duplo veći od troškova njenog protivkandidata:

Podaci: Pew Research

Glavni problemi korištenja Big Data

Osim visoke cijene, jedan od glavnih faktora koji ometa implementaciju Big Data u raznim oblastima je problem odabira podataka koji će se obraditi: odnosno određivanje koje podatke treba preuzeti, pohraniti i analizirati, a koje treba ne uzeti u obzir.

Drugi problem sa velikim podacima je etički. Drugim riječima, postavlja se logično pitanje: može li se takvo prikupljanje podataka (posebno bez znanja korisnika) smatrati kršenjem privatnosti?

Nije tajna da se informacije pohranjuju u pretraživačima Google sistemi i Yandex, omogućava IT gigantima da konstantno poboljšavaju svoje usluge, čine ih jednostavnijim za korištenje i kreiraju nove interaktivne aplikacije. Da bi to učinili, pretraživači prikupljaju korisničke podatke o aktivnostima korisnika na Internetu, IP adresama, geolokacijskim podacima, interesima i kupovinama na mreži, ličnim podacima, e-mail porukama itd. Sve to vam omogućava da demonstrirate kontekstualno oglašavanje u skladu sa ponašanjem korisnika na internetu. U ovom slučaju se za to obično ne traži pristanak korisnika, a ne daje se mogućnost da izaberu koje će podatke o sebi dati. To jest, po defaultu, sve se prikuplja u Big Data, koji će zatim biti pohranjeni na serverima podataka web lokacija.

Ovo dovodi do sljedećeg važnog problema u pogledu sigurnosti pohranjivanja i korištenja podataka. Na primjer, da li je određena analitička platforma na koju potrošači automatski prenose svoje podatke bezbedna? Osim toga, mnogi poslovni predstavnici primjećuju nedostatak visoko kvalificiranih analitičara i marketinških stručnjaka koji mogu efikasno rukovati velikim količinama podataka i uz njihovu pomoć rješavati specifične poslovne probleme.

Uprkos svim poteškoćama sa implementacijom Big Data, biznis namerava da poveća ulaganja u ovoj oblasti. Prema istraživanju Gartnera, lideri u industrijama koje ulažu u velike podatke su mediji, maloprodaja, telekomunikacije, bankarstvo i uslužne kompanije.

Izgledi za interakciju između blockchain i Big Data tehnologija

Integracija s velikim podacima ima sinergijski učinak i otvara širok spektar novih mogućnosti za poslovanje, uključujući omogućavanje:

— dobiti pristup detaljnim informacijama o preferencijama potrošača, na osnovu kojih možete izgraditi detaljne analitičke profile za određene dobavljače, proizvode i komponente proizvoda;
— integrisati detaljne podatke o transakcijama i statistici potrošnje pojedinih grupa roba po različitim kategorijama korisnika;
— primati detaljne analitičke podatke o lancima snabdevanja i potrošnje, kontrolisati gubitke proizvoda tokom transporta (na primer, gubitak težine usled sušenja i isparavanja određenih vrsta robe);
— suzbijanje krivotvorenja proizvoda, povećanje efikasnosti borbe protiv pranja novca i prevare, itd.

Pristup detaljnim podacima o upotrebi i potrošnji robe značajno će otkriti potencijal Big Data tehnologije za optimizaciju ključnih poslovnih procesa, smanjenje regulatornih rizika, otkrivanje novih mogućnosti za monetizaciju i kreiranje proizvoda koji će najbolje zadovoljiti trenutne preferencije potrošača.

Kao što je poznato, predstavnici najvećih finansijskih institucija već pokazuju značajno interesovanje za blockchain tehnologiju, uključujući itd. Prema rečima Olivera Busmanna, IT menadžera švajcarskog finansijskog holdinga UBS, blockchain tehnologija može „skratiti vreme obrade transakcija sa nekoliko dana na nekoliko dana. minuta”.

Potencijal za analizu iz blockchaina korištenjem Big Data tehnologije je ogroman. Tehnologija distribuirane knjige obezbeđuje integritet informacija, kao i pouzdano i transparentno skladištenje celokupne istorije transakcija. Veliki podaci, zauzvrat, pružaju nove alate za efikasnu analizu, predviđanje, ekonomsko modeliranje i, shodno tome, otvaraju nove mogućnosti za donošenje informiranih upravljačkih odluka.

Tandem blockchaina i Big Data može se uspješno koristiti u zdravstvu. Kao što je poznato, nesavršeni i nepotpuni podaci o zdravstvenom stanju pacijenta uvelike povećavaju rizik od pogrešne dijagnoze i pogrešno propisanog liječenja. Kritični podaci o zdravlju klijenata zdravstvenih ustanova treba da budu maksimalno zaštićeni, da imaju svojstva nepromjenjivosti, da budu provjerljivi i da ne budu podložni bilo kakvoj manipulaciji.

Informacije u blockchainu ispunjavaju sve gore navedene zahtjeve i mogu poslužiti kao visokokvalitetni i pouzdani izvorni podaci za dubinsku analizu korištenjem novih Big Data tehnologija. Osim toga, uz pomoć blockchaina, medicinske ustanove bi mogle razmjenjivati pouzdane podatke sa osiguravajućim kućama, pravosudnim organima, poslodavcima, naučnim institucijama i drugim organizacijama kojima su potrebne medicinske informacije.

Veliki podaci i sigurnost informacija

U širem smislu, informacijska sigurnost je zaštita informacija i prateće infrastrukture od slučajnih ili namjernih negativnih uticaja prirodne ili vještačke prirode.

U oblasti informacione sigurnosti, veliki podaci se suočavaju sa sljedećim izazovima:

— problemi zaštite podataka i osiguranja njihovog integriteta;
— rizik od vanjskog uplitanja i curenja povjerljivih informacija;
— nepravilno čuvanje povjerljivih informacija;
— rizik od gubitka informacija, na primjer, zbog nečijih zlonamjernih radnji;
— rizik od zloupotrebe ličnih podataka od strane trećih lica, itd.

Jedan od glavnih problema velikih podataka za koji je blockchain dizajniran da riješi leži u području sigurnosti informacija. Osiguravajući usklađenost sa svim svojim osnovnim principima, tehnologija distribuirane knjige može garantirati integritet i pouzdanost podataka, a zbog odsustva jedne tačke kvara, blockchain čini rad stabilnim. informacioni sistemi. Tehnologija distribuirane knjige može pomoći u rješavanju problema povjerenja u podatke, ali i pružiti mogućnost da se univerzalna razmena njima.

Informacije su vrijedna imovina, što znači da osiguranje osnovnih aspekata sigurnosti informacija mora biti u prvom planu. Kako bi preživjele konkurenciju, kompanije moraju ići u korak s vremenom, što znači da ne mogu zanemariti potencijalne mogućnosti i prednosti koje sadrže blockchain tehnologija i Big Data alati.

Predgovor

“Big data” je danas moderan termin koji se pojavljuje na gotovo svim stručnim konferencijama posvećenim analizi podataka, prediktivnoj analitici, rudarenju podataka, CRM-u. Termin se koristi u oblastima u kojima je relevantan rad sa kvalitativno velikim količinama podataka, gde postoji konstantno povećanje brzine protoka podataka u organizacioni proces: ekonomija, bankarstvo, proizvodnja, marketing, telekomunikacije, web analitika, medicina itd.

Uz brzu akumulaciju informacija, brzo se razvijaju i tehnologije analize podataka. Ako je prije nekoliko godina bilo moguće, recimo, samo segmentirati kupce u grupe sa sličnim preferencijama, sada je moguće izgraditi modele za svakog kupca u realnom vremenu, analizirajući, na primjer, njegovo kretanje na Internetu u potrazi za određenim proizvod. Mogu se analizirati interesi potrošača, te se u skladu sa konstruisanim modelom izvode odgovarajuće reklame ili konkretne ponude. Model se takođe može podešavati i rekonstruisati u realnom vremenu, što je bilo nezamislivo pre samo nekoliko godina.

U oblasti telekomunikacija, na primjer, razvijene su tehnologije za određivanje fizičke lokacije mobilni telefoni i njihovi vlasnici, a čini se da je ideja opisana u naučnofantastičnom filmu Minority Report iz 2002., gdje se reklamne informacije prikazuju u trgovačkih centara uzeo u obzir interese konkretnih pojedinaca koji prolaze.

Istovremeno, postoje situacije u kojima strast za novim tehnologijama može dovesti do razočaranja. Na primjer, ponekad rijetki podaci ( Retki podaci), koji pružaju važan uvid u stvarnost, mnogo su vredniji od Big Data(Big Data), koji opisuje planine, često ne sadrži bitne informacije.

Svrha ovog članka je razjasniti i razmisliti o novim mogućnostima velikih podataka i ilustrirati kako analitička platforma STATISTICA StatSoft vam može pomoći da efikasno koristite Big Data za optimizaciju procesa i rješavanje problema.

Koliko su veliki Big Data?

Naravno, tačan odgovor na ovo pitanje bi trebao biti "zavisi..."

U modernim raspravama, koncept velikih podataka se opisuje kao podaci u redu od terabajta.

U praksi (ako je riječ o gigabajtima ili terabajtima) takve podatke je lako pohraniti i njima upravljati korištenjem „tradicionalnih“ baza podataka i standardnog hardvera (serveri baza podataka).

Softver STATISTICA koristi tehnologiju s više niti za algoritme za pristup podacima (čitanje), transformaciju i izgradnju prediktivnih (i bodovanja) modela, tako da se takvi uzorci podataka mogu lako analizirati i ne zahtijevaju specijalizirane alate.

Neki trenutni StatSoft projekti obrađuju uzorke od 9-12 miliona redova. Hajde da ih pomnožimo sa 1000 parametara (varijabli), prikupljenih i organizovanih u skladištu podataka da bismo izgradili modele rizika ili predviđanja. Ova vrsta datoteke će biti veličine "samo" oko 100 gigabajta. Ovo, naravno, nije malo skladište podataka, ali njegova veličina ne premašuje mogućnosti standardne tehnologije baze podataka.

Linija proizvoda STATISTICA za grupnu analizu i izgradnju modela bodovanja ( STATISTICA Enterprise), rješenja u realnom vremenu ( STATISTICA Rezultati uživo), i analitičke alate za kreiranje i upravljanje modelima ( STATISTICA Data Miner, odlučivanje) lako se prilagođava na više servera sa višejezgarnim procesorima.

U praksi to znači da se dovoljna brzina analitičkih modela (na primjer, predviđanja kreditnog rizika, vjerovatnoće prevare, pouzdanosti komponenti opreme, itd.) gotovo uvijek može postići korištenjem standardnih alata. STATISTICA.

Od velikih količina podataka do velikih podataka

Obično se rasprave o Big Data centriraju oko skladišta podataka (i analiza zasnovanih na takvim skladištima) koja su mnogo veća od samo nekoliko terabajta.

Konkretno, neka skladišta podataka mogu narasti na hiljade terabajta, tj. do petabajta (1000 terabajta = 1 petabajt).

Osim petabajta, akumulacija podataka se može mjeriti u eksabajtima, na primjer, u proizvodnom sektoru širom svijeta, procijenjeno je da je ukupno 2 eksabajta novih informacija akumulirano u 2010. (Manyika et al., 2011).

Postoje industrije u kojima se podaci prikupljaju i akumuliraju veoma intenzivno.

Na primjer, u proizvodnom okruženju kao što je elektrana, generira se kontinuirani tok podataka, ponekad za desetine hiljada parametara, svake minute ili čak svake sekunde.

Osim toga, u proteklih nekoliko godina uvedene su takozvane tehnologije “pametne mreže” koje omogućavaju komunalnim preduzećima da mjere potrošnju električne energije pojedinačnih domaćinstava svake minute ili svake sekunde.

Za ovu vrstu aplikacija, gdje se podaci moraju čuvati godinama, akumulirani podaci se klasifikuju kao ekstremno veliki podaci.

Također postoji sve veći broj aplikacija za velike podatke među komercijalnim i državnim sektorima, gdje količina podataka u skladištu može biti stotine terabajta ili petabajta.

Moderne tehnologije omogućavaju „praćenje“ ljudi i njihovog ponašanja na različite načine. Na primjer, kada koristimo internet, kupujemo u online trgovinama ili velike mreže trgovine kao što je Walmart (procjenjuje se da Walmart skladište podataka iznosi preko 2 petabajta, prema Wikipediji), ili se kreće okolo sa mobilni telefoni- ostavljamo trag našeg djelovanja, što dovodi do gomilanja novih informacija.

Različite metode komunikacije, od jednostavnih telefonskih poziva do postavljanja informacija putem društvenih mreža kao što je Facebook (prema Wikipediji, informacije se razmjenjuju svakog mjeseca na 30 milijardi), ili dijeljenja videa na stranicama kao što je YouTube (Youtube tvrdi da postavlja 24 sata videa svake minute, pogledajte Wikipediju), generirajući ogromne količine novih podataka svaki dan.

Isto tako, moderne medicinske tehnologije stvaraju velike količine podataka relevantnih za pružanje zdravstvene zaštite (slike, video zapisi, praćenje u realnom vremenu).

Dakle, klasifikacija volumena podataka može se predstaviti na sljedeći način:

Veliki skupovi podataka: od 1000 megabajta (1 gigabajt) do stotina gigabajta

Ogromni skupovi podataka: od 1000 gigabajta (1 terabajt) do nekoliko terabajta

Veliki podaci: od nekoliko terabajta do stotina terabajta

Ekstremno veliki podaci: 1000 do 10000 terabajta = 1 do 10 petabajta

Zadaci vezani za Big Data

Postoje tri vrste zadataka vezanih za velike podatke:

1. Skladištenje i upravljanje

Stotine terabajta ili petabajta podataka ne mogu se lako pohraniti i upravljati tradicionalnim načinom relacione baze podataka podaci.

2. Nestrukturirane informacije

Većina svih velikih podataka je nestrukturirana. One. kako možete organizirati tekst, video zapise, slike itd.?

3. Analiza velikih podataka

Kako analizirati nestrukturirane informacije? Kako kreirati jednostavne izvještaje zasnovane na velikim podacima, izgraditi i implementirati dubinske prediktivne modele?

Skladištenje i upravljanje velikim podacima

Veliki podaci se obično pohranjuju i organiziraju u distribuiranim sistemima datoteka.

Uopšteno govoreći, informacije se pohranjuju na nekoliko (ponekad na hiljade) tvrdi diskovi, na standardnim računarima.

Takozvana “mapa” prati gdje (na kom računaru i/ili disku) je pohranjena određena informacija.

Da bi se osigurala tolerancija grešaka i pouzdanost, svaka informacija se obično pohranjuje nekoliko puta, na primjer tri puta.

Tako, na primjer, recimo da ste prikupili pojedinačne transakcije od velikog maloprodajnog lanca trgovina. Detaljne informacije Svaka transakcija će biti pohranjena na različitim serverima i čvrstim diskovima, a “mapa” indeksira gdje se tačno pohranjuju podaci o odgovarajućoj transakciji.

Koristeći standardnu opremu i otvoren softver za upravljanje ovim distribuiranim sistemom datoteka (na primjer, Hadoop), relativno je lako implementirati pouzdana skladišta podataka na skali petabajta.

Nestrukturirane informacije

Većina prikupljenih informacija u distribuiranom sistemu datoteka sastoji se od nestrukturiranih podataka kao što su tekst, slike, fotografije ili video zapisi.

Ovo ima svoje prednosti i nedostatke.

Prednost je u tome što vam mogućnost pohranjivanja velikih podataka omogućava pohranjivanje "svih podataka" bez brige o tome koliko je podataka relevantno za kasniju analizu i donošenje odluka.

Nedostatak je što se u takvim slučajevima izvlači korisne informacije potrebna je naknadna obrada ovih ogromnih količina podataka.

Dok neke od ovih operacija mogu biti jednostavne (npr. jednostavne kalkulacije, itd.), druge zahtijevaju složenije algoritme koji moraju biti posebno dizajnirani za efikasan rad na distribuiranom sistemu datoteka.

Jedan izvršni direktor je jednom rekao za StatSoft da je "potrošio bogatstvo na IT i skladištenje podataka i još uvijek nije počeo zarađivati novac" jer nije razmišljao o tome kako najbolje iskoristiti te podatke za poboljšanje osnovnog poslovanja.

Dakle, dok količina podataka može eksponencijalno rasti, sposobnost izdvajanja informacija i djelovanja na te informacije je ograničena i asimptotski će dostići granicu.

Važno je da se metode i procedure za izgradnju, ažuriranje modela i automatizaciju donošenja odluka razvijaju zajedno sa sistemima za skladištenje podataka kako bi se osiguralo da su takvi sistemi korisni i korisni za preduzeće.

Analiza velikih podataka

Ovo je zaista veliki problem sa nestrukturiranom analitikom velikih podataka: kako je korisno analizirati. O ovo pitanje Mnogo manje se pisalo o skladištenju podataka i tehnologijama upravljanja velikim podacima.

Postoji niz pitanja koja treba razmotriti.

Map-Reduce

Kada se analiziraju stotine terabajta ili petabajta podataka, nije moguće izdvojiti podatke na neku drugu lokaciju radi analize (npr. STATISTICA Server za analizu preduzeća).

Proces prijenosa podataka preko kanala na poseban server ili servere (za paralelnu obradu) će trajati predugo i zahtijevati previše prometa.

Umjesto toga, analitička izračunavanja moraju se izvoditi fizički blizu mjesta gdje su podaci pohranjeni.

Map-Reduce algoritam je model za distribuirano računanje. Princip njegovog rada je sljedeći: ulazni podaci se distribuiraju na radne čvorove (pojedinačne čvorove) distribuirane sistem datoteka za prethodnu obradu (korak mape), a zatim konvoluciju (spajanje) već prethodno obrađenih podataka (korak redukcije).

Dakle, recimo, da bi izračunao konačnu sumu, algoritam će paralelno izračunati međuzbirove na svakom od čvorova distribuiranog sistema datoteka, a zatim sabrati ove međuzbirove.

Postoji ogromna količina dostupnih informacija na Internetu o tome kako možete izvesti različite proračune koristeći model smanjenja karte, uključujući i prediktivnu analitiku.

Jednostavna statistika, poslovna inteligencija (BI)

Da biste kreirali jednostavne BI izvještaje, postoji mnogo proizvoda otvorenog koda koji vam omogućavaju izračunavanje suma, prosjeka, proporcija itd. koristeći map-reduce.

Ovo olakšava dobijanje tačnih brojanja i drugih jednostavnih statistika za izveštavanje.

Prediktivno modeliranje, napredna statistika

Na prvi pogled može izgledati da je izgradnja prediktivnih modela u distribuiranom sistemu datoteka teža, ali to uopće nije slučaj. Razmotrimo preliminarne faze analize podataka.

Priprema podataka. Prije nekog vremena, StatSoft je izveo niz velikih i uspješnih projekata koji su uključivali vrlo velike skupove podataka koji opisuju iz minuta u minut performanse procesa elektrane. Cilj analize bio je poboljšanje efikasnosti postrojenja i smanjenje emisija (Elektroenergetski istraživački institut, 2009.).

Važno je da, iako skupovi podataka mogu biti veoma veliki, informacije koje sadrže imaju mnogo manju dimenziju.

Na primjer, dok se podaci akumuliraju svake sekunde ili svake minute, mnogi parametri (temperatura plina i peći, protok, položaj klapne, itd.) ostaju stabilni u dugim vremenskim intervalima. Drugim riječima, podaci koji se snimaju svake sekunde su u osnovi ponavljanja istih informacija.

Stoga je potrebno izvršiti “pametno” agregiranje podataka, dobijanje podataka za modeliranje i optimizaciju koji sadrže samo potrebne informacije o dinamičkim promjenama koje utiču na efikasnost elektrane i količinu emisija.

Klasifikacija teksta i predobrada podataka. Ilustrirajmo još jednom kako veliki skupovi podataka mogu sadržavati mnogo manje korisnih informacija.

Na primjer, StatSoft je bio uključen u projekte vezane za rudarenje teksta tvitova koji odražavaju koliko su putnici zadovoljni aviokompanijama i njihovim uslugama.

Iako se veliki broj relevantnih tvitova preuzimao svaki sat i svaki dan, izraženi osjećaji bili su prilično jednostavni i monotoni. Većina poruka su pritužbe i kratke poruke u jednoj rečenici o “lošim iskustvima”. Štaviše, broj i „snaga“ ovih osećanja su relativno stabilni tokom vremena i u vezi sa specifičnim pitanjima (npr. izgubljeni prtljag, loša hrana, otkazivanje letova).

Dakle, smanjenje stvarnih tweetova na osjećaj uskoro (bodovanje) korištenjem tehnika rudarenja teksta (kao što su one implementirane u STATISTICA Text Miner) rezultira mnogo manjom količinom podataka, koji se onda lako mogu upariti sa postojećim strukturiranim podacima (stvarna prodaja karata ili informacije o čestim putnicima). Analiza vam omogućava da podijelite kupce u grupe i proučite njihove tipične pritužbe.

Dostupni su mnogi alati za obavljanje ove agregacije podataka (kao što su rezultati sentimenta) na distribuiranom sistemu datoteka, čineći ovaj analitički proces lakim za implementaciju.

Modeli zgrada

Često je izazov brzo izgraditi precizne modele za podatke pohranjene na distribuiranom sistemu datoteka.

Postoje implementacije map-reduce za različite algoritme za rudarenje podataka/prediktivnu analitiku pogodne za paralelnu obradu podataka velikih razmjera na distribuiranom sistemu datoteka (koji se može podržati korištenjem platforme STATISTICA StatSoft).

Međutim, upravo zato što ste obrađivali tako veliku količinu podataka, jeste li sigurni da je rezultirajući model zaista precizniji?

U stvari, vjerovatno je zgodnije izgraditi modele za male segmente podataka na distribuiranom sistemu datoteka.

Kako se u nedavnom izveštaju Forrestera navodi, „dva plus dva jednako 3,9 je obično prilično dobro“ (Hopkins & Evelson, 2011).

Statistička i matematička tačnost leži u činjenici da model linearna regresija, uključujući, na primjer, 10 prediktora zasnovanih na ispravno napravljenom uzorkovanje vjerovatnoće od 100.000 opservacija će biti tačan kao model izgrađen na 100 miliona posmatranja.

Svojevremeno sam od Germana Grefa (šefa Sberbanke) čuo termin „Big Data“. Kažu da sada aktivno rade na implementaciji, jer će im to pomoći da smanje vrijeme rada sa svakim klijentom.

Drugi put sam naišao na ovaj koncept u online prodavnici klijenta, na kojoj smo radili i povećavali asortiman sa nekoliko hiljada na nekoliko desetina hiljada artikala proizvoda.

Treći put sam vidio da Yandexu treba analitičar velikih podataka. Tada sam odlučio da dublje uđem u ovu temu i ujedno napišem članak koji će reći kakav je to pojam koji uzbuđuje umove TOP menadžera i internetskog prostora.

sta je to

Obično počinjem bilo koji svoj članak objašnjenjem šta je to. Ovaj članak neće biti izuzetak.

Međutim, to nije uzrokovano prvenstveno željom da pokažem koliko sam pametan, već činjenicom da je tema zaista složena i zahtijeva pažljivo objašnjenje.

Na primjer, možete pročitati šta su veliki podaci na Wikipediji, ne razumjeti ništa, a zatim se vratiti na ovaj članak da biste i dalje razumjeli definiciju i primjenjivost za poslovanje. Dakle, počnimo s opisom, a zatim s primjerima za poslovanje.

Veliki podaci su veliki podaci. Neverovatno, zar ne? U stvari, ovo se sa engleskog prevodi kao “veliki podaci”. Ali ova je definicija, moglo bi se reći, za lutke.

Tehnologija velikih podataka– je pristup/metoda obrade više podatke za dobijanje novih informacija koje je teško obraditi na konvencionalne načine.

Podaci mogu biti ili obrađeni (strukturirani) ili razbacani (tj. nestrukturirani).

Sam termin se pojavio relativno nedavno. Naučni časopis je 2008. godine predvidio ovaj pristup kao neophodan za suočavanje sa velikim količinama informacija koje rastu eksponencijalno.

Na primjer, svake godine broj informacija na Internetu koje je potrebno pohraniti i, naravno, obraditi, poraste za 40%. Još jednom: +40% novih informacija se pojavljuje na internetu svake godine.

Ako su odštampani dokumenti jasni i metode za njihovu obradu takođe su jasni (prenesite na elektronski pogled, zašiti u jednu fasciklu, broj), pa šta učiniti sa informacijama koje su predstavljene u potpuno različitim „medijima“ i drugim volumenima:

Internet dokumenti;
Blogovi i društvene mreže;
Audio/video izvori;
Mjerni uređaji.

Postoje karakteristike koje omogućavaju da se informacije i podaci klasifikuju kao veliki podaci. Odnosno, nisu svi podaci prikladni za analitiku. Ove karakteristike upravo sadrže ključni koncept velikih podataka. Svi se uklapaju u tri v.

Volume(iz engleskog sveska). Podaci se mjere u smislu fizičkog volumena “dokumenta” koji se analizira;
Brzina(od engleskog velocity). Podaci ne miruju u svom razvoju, već stalno rastu, zbog čega je potrebna njihova brza obrada da bi se dobili rezultati;
Manifold(iz engleskog varijeteta). Podaci možda nisu istog formata. Odnosno, mogu biti raštrkane, strukturirane ili djelimično strukturirane.

Međutim, s vremena na vrijeme VVV se dodaje četvrti V (istinitost), pa čak i peti V (u nekim slučajevima to je održivost, u drugima vrijednost).

Negdje sam čak vidio 7V, što karakterizira podatke koji se odnose na velike podatke. Ali po mom mišljenju, ovo je iz serije (gdje se povremeno dodaju P, iako su početna 4 dovoljna za razumijevanje).

VEĆ IMAMO VIŠE OD 29.000 ljudi.
UKLJUČI

Kome treba

Postavlja se logično pitanje: kako možete koristiti informacije (ako ništa, veliki podaci su stotine i hiljade terabajta)?

Čak ni to. Evo informacija. Pa zašto je onda izmišljen veliki datum? Koja je upotreba velikih podataka u marketingu i poslovanju?

Konvencionalne baze podataka ne mogu pohraniti i obraditi (sada čak i ne govorim o analitici, već jednostavno pohranjivanje i obrada) ogromne količine informacija.
Veliki podaci rješavaju ovaj glavni problem. Uspješno pohranjuje i upravlja velikim količinama informacija;
Strukturira informacije koje dolaze iz različitih izvora (video, slike, audio i tekstualni dokumenti), u jednu, razumljivu i probavljivu formu;
Generisanje analitike i kreiranje tačnih prognoza na osnovu strukturiranih i obrađenih informacija.

Komplikovano je. Jednostavno rečeno, svaki marketinški stručnjak koji razumije da ako proučavate veliku količinu informacija (o vama, vašoj kompaniji, vašim konkurentima, vašoj industriji), možete dobiti vrlo pristojne rezultate:

Potpuno razumijevanje vaše kompanije i vašeg poslovanja sa strane brojki;
Proučite svoje konkurente. A ovo će zauzvrat omogućiti da se napreduje tako što će dominirati njima;
Saznajte nove informacije o svojim klijentima.

I upravo zato što tehnologija velikih podataka daje sljedeće rezultate, svi žure okolo s njom. Ovaj posao pokušavaju da ugrade u svoju kompaniju kako bi povećali prodaju i smanjili troškove. A ako konkretno, onda:

Povećanje unakrsne prodaje i dodatne prodaje zbog boljeg poznavanja preferencija kupaca;
Tražite popularne proizvode i razloge zašto ih ljudi kupuju (i obrnuto);
Poboljšanje proizvoda ili usluge;
Poboljšanje nivoa usluge;
Povećanje lojalnosti i fokusa na kupca;
Sprečavanje prevara (relevantnije za bankarski sektor);
Smanjenje nepotrebnih troškova.

Najčešći primjer, koji se navodi u svim izvorima, je, naravno, Apple kompanija, koji prikuplja podatke o svojim korisnicima (telefon, sat, računar).

Upravo zbog prisustva eko-sistema korporacija zna toliko o svojim korisnicima i kasnije to koristi za ostvarivanje profita.

Ove i druge primjere korištenja možete pročitati u bilo kojem drugom članku osim u ovom.

Moderan primjer

Reći ću vam o još jednom projektu. Ili bolje rečeno, o osobi koja gradi budućnost koristeći rješenja za velike podatke.

Ovo je Elon Musk i njegova kompanija Tesla. Njegov glavni san je da napravi autonomne automobile, odnosno sjedneš za volan, upališ autopilot od Moskve do Vladivostoka i... zaspiš, jer ne trebaš uopće voziti auto, jer hoće sve samo po sebi.

Izgledalo bi fantastično? Ali ne! Samo što se Elon ponašao mnogo mudrije od Gugla, koji kontroliše automobile koristeći desetine satelita. I otišao je drugim putem:

Svaki prodati automobil opremljen je kompjuterom koji prikuplja sve informacije.
Sve – ovo znači sve. O vozaču, njegovom stilu vožnje, putevima oko njega, kretanju drugih automobila. Volumen takvih podataka dostiže 20-30 GB na sat;
Ove informacije se zatim prenose putem satelitske komunikacije na centralni kompjuter ko obrađuje ove podatke;
Na osnovu obrađenih velikih podataka ovaj računar, gradi se model bespilotnog vozila.

Inače, ako Guglu ide prilično loše i njihovi automobili stalno upadaju u nezgode, onda Musk, zbog činjenice da radi sa velikim podacima, radi mnogo bolje, jer testni modeli pokazuju veoma dobre rezultate.

Ali... Sve je u ekonomiji. Šta se mi svi bavimo profitom, nego profitom? Mnogo toga o čemu veliki sastanak može odlučiti potpuno je nepovezano sa zaradom i novcem.

Google statistika, zasnovana na velikim podacima, pokazuje zanimljivu stvar.

Prije nego što ljekari objave početak epidemije bolesti u određenoj regiji, broj ljudi u toj regiji se značajno povećava. upiti za pretraživanje o liječenju ove bolesti.

Dakle, pravilnim proučavanjem podataka i njihovom analizom mogu se formirati prognoze i predvidjeti početak epidemije (a samim tim i njezina prevencija) mnogo brže od zaključka službenih tijela i njihovih postupaka.

Aplikacija u Rusiji

Međutim, Rusija, kao i uvijek, malo usporava. Dakle, sama definicija velikih podataka u Rusiji se pojavila prije ne više od 5 godina (sada govorim o običnim kompanijama).

I to uprkos činjenici da je ovo jedno od najbrže rastućih tržišta na svijetu (droga i oružje se nervozno puše sa strane), jer svake godine tržište softvera za prikupljanje i analizu velikih podataka raste za 32%.

Kako bih okarakterizirao tržište velikih podataka u Rusiji, sjećam se jednog starog vica. Veliki spoj je kao da imate seks prije nego napunite 18 godina. Svi pričaju o tome, oko toga je puno hypea, a malo prave akcije, a svi se stide priznati da sami to ne rade. Zaista, oko ovoga ima mnogo propagande, ali malo prave akcije.

Iako je poznata istraživačka kompanija Gartner već 2015. objavila da veliki podaci više nisu rastući trend (kao, inače, umjetna inteligencija), već potpuno neovisni alati za analizu i razvoj naprednih tehnologija.

Najaktivnije niše u kojima se veliki podaci koriste u Rusiji su banke/osiguranje (nije uzalud počeo članak sa šefom Sberbanke), sektor telekomunikacija, maloprodaja, nekretnine i... javni sektor.

Kao primjer, reći ću vam detaljnije o nekoliko privrednih sektora koji koriste algoritme velikih podataka.

1. Banke

Počnimo s bankama i informacijama koje prikupljaju o nama i našim akcijama. Kao primjer, uzeo sam TOP 5 ruskih banaka koje aktivno ulažu u velike podatke:

Sberbank;
Gazprombank;
VTB 24;
Alfa banka;
Tinkoff banka.

Posebno je prijatno videti Alfa banku među ruskim liderima. U najmanju ruku, lijepo je znati da banka, čiji ste službeni partner, razumije potrebu za uvođenjem novih marketinških alata u svoju kompaniju.

Ali želim pokazati primjere korištenja i uspješne implementacije velikih podataka u banci koja mi se sviđa zbog nekonvencionalnog pogleda i postupaka njenog osnivača.

Govorim o Tinkoff banci. Njihov glavni izazov bio je da razviju sistem za analizu velikih podataka u realnom vremenu zbog rastuće baze klijenata.

Rezultati: vrijeme internih procesa smanjeno je najmanje 10 puta, a nekima i više od 100 puta.

Pa, malo ometanja. Znate li zašto sam počeo da pričam o nekonvencionalnim nestašlucima i postupcima Olega Tinkova? Samo što su mu, po mom mišljenju, upravo oni pomogli da se od osrednjeg biznismena, kojih u Rusiji ima na hiljade, transformiše u jednog od najpoznatijih i najprepoznatljivijih preduzetnika. Da biste to potvrdili, pogledajte ovaj neobičan i zanimljiv video:

2. Nekretnine

U nekretninama je sve mnogo komplikovanije. A ovo je upravo primjer koji vam želim dati da shvatite velike datume unutar običnog poslovanja. Početni podaci:

Veliki obim tekstualne dokumentacije;
Otvoreni izvori (privatni sateliti koji prenose podatke o promjenama na Zemlji);
Ogromna količina nekontroliranih informacija na Internetu;
Stalne promjene izvora i podataka.

I na osnovu toga potrebno je pripremiti i procijeniti vrijednost zemljišne parcele, na primjer, u blizini uralskog sela. Profesionalcu će biti potrebna sedmica da to uradi.

Ruskom društvu procjenitelja & ROSEKO, koje je zapravo implementiralo analizu velikih podataka pomoću softvera, neće biti potrebno više od 30 minuta ležernog rada. Uporedite, sedmicu i 30 minuta. Ogromna razlika.

Alati za kreiranje

Naravno, ogromne količine informacija ne mogu se pohraniti i obraditi na jednostavnim tvrdim diskovima.

A softver, koji strukturira i analizira podatke – to je općenito intelektualno vlasništvo i svaki put autorski razvoj. Međutim, postoje alati na osnovu kojih se stvara sva ova ljepota:

Hadoop & MapReduce;
NoSQL baze podataka;
Alati klase za otkrivanje podataka.

Iskreno govoreći, ne mogu vam jasno objasniti po čemu se one međusobno razlikuju, jer se upoznavanje i rad sa ovim stvarima uči na institutima za fiziku i matematiku.

Zašto sam onda pričao o ovome ako nisam mogao da objasnim? Sjećate se, u svim filmovima, pljačkaši uđu u bilo koju banku i vide ogroman broj svih vrsta hardvera povezanih žicama? Isto je i na velikom spoju. Na primjer, evo modela koji je trenutno jedan od vodećih na tržištu.

Alat za veliki sastanak

Cijena maksimalne konfiguracije dostiže 27 miliona rubalja po stalku. Ovo je, naravno, luksuzna verzija. Želim da unaprijed isprobate kreiranje velikih podataka u svom poslovanju.

Ukratko o glavnoj stvari

Možda ćete se zapitati zašto je vama, malom i srednjem preduzeću, potrebno raditi sa velikim podacima?

Na to ću vam odgovoriti citatom jedne osobe: „U bliskoj budućnosti klijenti će biti tražene kompanije koje bolje razumiju njihovo ponašanje i navike i koje im najbolje odgovaraju.”

Ali hajde da se suočimo sa tim. Da biste implementirali velike podatke u malom preduzeću, morate imati ne samo velike budžete za razvoj i implementaciju softvera, već i za održavanje stručnjaka, barem kao što su analitičar velikih podataka i administrator sistema.

A sada ćutim o tome da takve podatke morate imati za obradu.

OK. Tema gotovo nije primjenjiva za mala poduzeća. Ali to ne znači da morate zaboraviti sve što ste pročitali gore. Samo proučite ne svoje podatke, već rezultate analize podataka poznatih stranih i ruskih kompanija.

na primjer, maloprodajni lanac Target je, koristeći big data analitiku, otkrio da trudnice prije drugog tromjesečja trudnoće (od 1. do 12. tjedna trudnoće) aktivno kupuju proizvode bez mirisa.

Koristeći te podatke, šalju im kupone s vremenski ograničenim popustima na proizvode bez mirisa.

Šta ako ste, na primjer, vrlo mali kafić? Da, vrlo jednostavno. Koristite aplikaciju lojalnosti. A nakon nekog vremena i zahvaljujući prikupljenim informacijama, moći ćete ne samo da ponudite kupcima jela koja odgovaraju njihovim potrebama, već i da u samo nekoliko klikova mišem vidite najneprodavanija jela s najvišom maržom.

Otuda zaključak. Malo je vjerovatno da bi mali biznis trebao implementirati velike podatke, ali je imperativ koristiti rezultate i razvoj drugih kompanija.

Samo lijeni ne pričaju o velikim podacima, ali jedva razumiju šta je to i kako funkcionira. Počnimo od najjednostavnije stvari - terminologije. Govoreći na ruskom, veliki podaci su različiti alati, pristupi i metode za obradu i strukturiranih i nestrukturiranih podataka kako bi se koristili za određene zadatke i svrhe.

Nestrukturirani podaci su informacije koje nemaju unaprijed određenu strukturu ili nisu organizirane određenim redoslijedom.

Termin "veliki podaci" uveo je urednik časopisa Nature Clifford Lynch 2008. godine u specijalnom izdanju posvećenom eksplozivnom rastu svjetske količine informacija. Iako su, naravno, i sami veliki podaci postojali i ranije. Prema mišljenju stručnjaka, kategorija Big data uključuje većinu protoka podataka preko 100 GB dnevno.

Pročitajte također:

Danas ovaj jednostavan pojam krije samo dvije riječi - skladištenje i obrada podataka.

Veliki podaci - jednostavnim riječima

U savremenom svijetu, veliki podaci su društveno-ekonomski fenomen koji je povezan s činjenicom da su se pojavile nove tehnološke mogućnosti za analizu ogromne količine podataka.

Pročitajte također:

Da biste lakše razumjeli, zamislite supermarket u kojem sva roba nije onim redom na koji ste navikli. Hleb pored voća, paradajz pasta pored smrznute pice, tečnost za upaljač ispred stalka za tampone, koja između ostalog sadrži avokado, tofu ili šitake pečurke. Big data stavlja sve na svoje mjesto i pomaže vam da pronađete mlijeko s orašastim plodovima, saznate cijenu i rok trajanja, kao i ko, osim vas, kupuje ovo mlijeko i zašto je bolje od kravljeg mlijeka.

Kenneth Cukier: Veliki podaci su bolji podaci

Tehnologija velikih podataka

Ogromne količine podataka se obrađuju kako bi osoba dobila konkretne i potrebne rezultate za njihovu dalju efikasnu upotrebu.

Pročitajte također:

U stvari, veliki podaci su rješenje problema i alternativa tradicionalnim sistemima za upravljanje podacima.

Tehnike i metode analize primjenjive na Big data prema McKinseyju:

Data Mining;
Crowdsourcing;
Miješanje i integracija podataka;
Strojno učenje;
Umjetne neuronske mreže;
Prepoznavanje uzoraka;
Prediktivna analitika;
Simulacijsko modeliranje;
Prostorna analiza;
Statistička analiza;
Vizualizacija analitičkih podataka.

Horizontalna skalabilnost koja omogućava obradu podataka je osnovni princip obrade velikih podataka. Podaci se distribuiraju preko računarskih čvorova, a obrada se odvija bez degradacije performansi. McKinsey je takođe uključio sisteme relacionog upravljanja i poslovnu inteligenciju u kontekstu primenljivosti.

Tehnologije:

NoSQL;
MapReduce;
Hadoop;
Hardverska rješenja.

Pročitajte također:

Za velike podatke postoje tradicionalne karakteristike koje je razvila Meta Group još 2001. godine, a koje se nazivaju „ Tri V»:

Volume- količina fizičkog volumena.
Brzina- stopa rasta i potreba za brzom obradom podataka za postizanje rezultata.
Raznolikost- mogućnost istovremene obrade različitih vrsta podataka.

Veliki podaci: aplikacije i mogućnosti

Tradicionalnim alatima nemoguće je obraditi količine heterogenih digitalnih informacija koje brzo pristižu. Sama analiza podataka omogućava vam da vidite određene i neprimjetne obrasce koje ljudi ne mogu vidjeti. To nam omogućava da optimiziramo sva područja našeg života - od javna uprava za proizvodnju i telekomunikacije.

Na primjer, neke kompanije su prije nekoliko godina štitile svoje klijente od prijevare, a briga o novcu klijenata znači i brigu o svom novcu.

Susan Etliger: Šta je sa velikim podacima?

Rešenja zasnovana na Big data: Sberbank, Beeline i druge kompanije

Beeline ima ogromnu količinu podataka o pretplatnicima, koje koriste ne samo za rad s njima, već i za kreiranje analitičkih proizvoda, poput eksternog savjetovanja ili IPTV analitike. Beeline je segmentirao bazu podataka i zaštitio klijente od finansijskih prevara i virusa, koristeći HDFS i Apache Spark za skladištenje, a Rapidminer i Python za obradu podataka.

Pročitajte također:

Ili se sjetimo Sberbanke sa njihovim starim slučajem AS SAFI. Ovo je sistem koji analizira fotografije kako bi identifikovao klijente banke i sprečio prevaru. Sistem je uveden još 2014. godine, sistem se bazira na upoređivanju fotografija iz baze podataka, koje zahvaljujući kompjuterskom vidu dospevaju sa web kamera na štandove. Osnova sistema je biometrijska platforma. Zahvaljujući tome, slučajevi prevara su se smanjili za 10 puta.

Veliki podaci u svijetu

Do 2020. godine, prema prognozama, čovječanstvo će generirati 40-44 zetabajta informacija. A do 2025. će porasti 10 puta, prema izvještaju The Data Age 2025, koji su pripremili analitičari iz IDC-a. U izvještaju se navodi da će većinu podataka generirati sama preduzeća, a ne obični potrošači.

Analitičari istraživanja vjeruju da će podaci postati vitalna imovina, a sigurnost kritična osnova u životu. Autori rada su također uvjereni da će tehnologija promijeniti ekonomski krajolik, a prosječan korisnik će komunicirati sa povezanim uređajima oko 4.800 puta dnevno.

Tržište velikih podataka u Rusiji

U 2017. globalni prihod na tržištu velikih podataka trebao bi dostići 150,8 milijardi dolara, što je 12,4% više nego prošle godine. Globalno Rusko tržište Usluge i tehnologije velikih podataka još uvijek su vrlo male. Američka kompanija IDC je 2014. godine procijenila na 340 miliona dolara. U Rusiji se tehnologija koristi u bankarstvu, energetici, logistici, javnom sektoru, telekomunikacijama i industriji.

Pročitajte također:

Što se tiče tržišta podataka, ono se tek razvija u Rusiji. U okviru RTB ekosistema, provajderi podataka su vlasnici programskih platformi za upravljanje podacima (DMP) i razmene podataka. Telekom operateri dijele informacije potrošača o potencijalnim zajmoprimcima s bankama u pilot modu.

Veliki podaci obično dolaze iz tri izvora:

Internet (društvene mreže, forumi, blogovi, mediji i druge stranice);
Arhiva korporativnih dokumenata;
Očitavanja sa senzora, instrumenata i drugih uređaja.

Veliki podaci u bankama

Pored gore opisanog sistema, strategija Sberbanke za period 2014-2018 uključuje: govori o važnosti analize super podataka za kvalitetnu uslugu korisnicima, upravljanje rizicima i optimizaciju troškova. Sada banka koristi Big data za upravljanje rizicima, borbu protiv prevara, segmentaciju i procjenu kreditne sposobnosti klijenata, upravljanje osobljem, predviđanje redova u ekspoziturama, obračun bonusa zaposlenima i druge poslove.

VTB24 koristi velike podatke za segmentiranje i upravljanje odlivom kupaca, formom finansijski izvještaji, analiza recenzija na društvenim mrežama i forumima. Za to koristi rješenja iz Teradata, SAS Visual Analytics i SAS Marketing Optimizer.

Veliki podaci su širok pojam za nekonvencionalne strategije i tehnologije potrebne za prikupljanje, organiziranje i obradu informacija iz velikih skupova podataka. Iako izazov rada sa podacima koji premašuju kapacitet obrade ili skladištenja jednog računara nije nov, obim i vrijednost ove vrste računarstva značajno su se proširili posljednjih godina.

Ovaj članak će vas provesti kroz osnovne koncepte s kojima se možete susresti dok istražujete velike podatke. Također govori o nekim procesima i tehnologijama koje se trenutno koriste u ovoj oblasti.

Šta su veliki podaci?

Preciznu definiciju “velikih podataka” teško je artikulirati jer ih projekti, dobavljači, praktičari i poslovni profesionalci koriste na vrlo različite načine. Imajući ovo na umu, veliki podaci se mogu definirati kao:

Veliki skupovi podataka.
Kategorija računarskih strategija i tehnologija koje se koriste za obradu velikih skupova podataka.

U ovom kontekstu, "veliki skup podataka" znači skup podataka koji je prevelik da bi se mogao obraditi ili pohraniti pomoću tradicionalnih alata ili na jednom računalu. To znači da se ukupna skala velikih skupova podataka stalno mijenja i može značajno varirati od slučaja do slučaja.

Sistemi velikih podataka

Osnovni zahtjevi za rad s velikim podacima isti su kao i za bilo koji drugi skup podataka. Međutim, veliki obim, brzina obrade i karakteristike podataka koje se susreću u svakom koraku procesa predstavljaju značajne nove izazove za razvoj alata. Cilj većine sistema velikih podataka je da razumeju i komuniciraju sa velikim količinama heterogenih podataka, što ne bi bilo moguće korišćenjem konvencionalnih metoda.

Godine 2001, Gartnerov Doug Laney predstavio je "tri V velikih podataka" kako bi opisao neke od karakteristika koje razlikuju obradu velikih podataka od drugih vrsta obrade podataka:

Volumen (volumen podataka).
Brzina (brzina akumulacije i obrade podataka).
Raznolikost (raznolikost vrsta obrađenih podataka).

Obim podataka

Sama skala obrađenih informacija pomaže u definiranju sistema velikih podataka. Ovi skupovi podataka mogu biti za redove veličine veći od tradicionalnih skupova podataka, što zahtijeva veću pažnju u svakoj fazi obrade i skladištenja.

Budući da zahtjevi premašuju mogućnosti jednog računara, često se javlja problem udruživanja, distribucije i koordinacije resursa iz grupa računara. Upravljanje klasterima i algoritmi koji mogu rastaviti zadatke na manje dijelove postaju sve važniji u ovoj oblasti.

Brzina akumulacije i obrade

Druga karakteristika koja značajno razlikuje velike podatke od drugih sistema podataka je brzina kojom se informacije kreću kroz sistem. Podaci često ulaze u sistem iz više izvora i moraju se obraditi u realnom vremenu kako bi se ažuriralo trenutno stanje sistema.

Ovaj naglasak na trenutnom povratne informacije prisilio mnoge praktičare da napuste pristup orijentisan na pakete i daju prednost sistemu za striming u realnom vremenu. Podaci se stalno dodaju, obrađuju i analiziraju kako bi bili u toku s prilivom novih informacija i pružili vrijedne uvide rano, kada je to najrelevantnije. Ovo zahteva robusne sisteme sa visoko dostupnim komponentama za zaštitu od kvarova duž cevovoda podataka.

Različiti tipovi podataka koji se obrađuju

Postoji mnogo jedinstvenih izazova u velikim podacima zbog širokog spektra obrađenih izvora i njihovog relativnog kvaliteta.

Podaci mogu doći iz internih sistema kao što su zapisnici aplikacija i servera, iz kanala društvenih medija i drugih vanjskih API-ja, iz senzora fizičkih uređaja i iz drugih izvora. Cilj sistema velikih podataka je da obrađuju potencijalno korisne podatke, bez obzira na porijeklo, kombinovanjem svih informacija u jedan sistem.

Medijski formati i tipovi također mogu značajno varirati. Medijski fajlovi (slike, video i audio) se kombinuju sa tekstualnim datotekama, strukturiranim zapisnicima, itd. Tradicionalniji sistemi za obradu podataka očekuju da podaci uđu u cevovod već označeni, formatirani i organizovani, ali sistemi velikih podataka obično unose i pohranjuju podatke, pokušavajući da ih sačuvaju. njima početno stanje. U idealnom slučaju, sve transformacije ili promjene sirovih podataka će se dogoditi u memoriji tokom obrade.

Ostale karakteristike

Tokom vremena, praktičari i organizacije su predložili proširenja originalnih „tri Vs“, iako ove inovacije više opisuju probleme nego karakteristike velikih podataka.

Verodostojnost: Raznolikost izvora i složenost obrade mogu dovesti do problema u proceni kvaliteta podataka (a samim tim i kvaliteta rezultirajuće analize).
Varijabilnost: Promjene u podacima dovode do velikih varijacija u kvaliteti. Možda će biti potrebni dodatni resursi za identifikaciju, obradu ili filtriranje podataka niske kvalitete kako bi se poboljšao kvalitet podataka.
Vrijednost: Krajnji cilj velikih podataka je vrijednost. Ponekad su sistemi i procesi vrlo složeni, što otežava korištenje podataka i izdvajanje stvarnih vrijednosti.

Životni ciklus velikih podataka

Dakle, kako se zapravo obrađuju veliki podaci? Postoji nekoliko različitih pristupa implementaciji, ali postoje zajedničke karakteristike u strategijama i softveru.

Unošenje podataka u sistem
Pohranjivanje podataka u memoriju
Računarstvo i analiza podataka
Vizualizacija rezultata

Prije nego što detaljno pogledamo ove četiri kategorije tokova rada, hajde da pričamo o klasterskom računarstvu, važnoj strategiji koju koriste mnogi alati za velike podatke. Postavljanje računarskog klastera je osnovna tehnologija koja se koristi u svakoj fazi životnog ciklusa.

Cluster computing

Zbog kvaliteta velikih podataka, pojedinačni računari nisu pogodni za obradu podataka. Klasteri su prikladniji za ovo jer mogu podnijeti potrebe za skladištenjem i računanjem velikih podataka.

Softver za klasterisanje velikih podataka kombinuje resurse mnogih malih mašina, sa ciljem da pruži niz prednosti:

Udruživanje resursa: Obrada velikih skupova podataka zahtijeva velike količine CPU-a i memorijskih resursa, kao i puno dostupnog prostora za pohranu.
Visoka dostupnost: Klasteri mogu pružiti različite nivoe tolerancije grešaka i dostupnosti tako da kvarovi hardvera ili softvera ne utiču na pristup i obradu podataka. Ovo je posebno važno za analitiku u realnom vremenu.
Skalabilnost: klasteri podržavaju brzo horizontalno skaliranje (dodavanje novih mašina u klaster).

Da biste radili u klasteru, potrebni su vam alati za upravljanje članstvom u klasteru, koordinaciju distribucije resursa i planiranje rada s pojedinačnim čvorovima. Članstvo u klasteru i alokacija resursa mogu se upravljati pomoću programa kao što su Hadoop YARN (Yet Another Resource Negotiator) ili Apache Mesos.

Prefabricirani računarski klaster često djeluje kao okosnica s kojom drugi softver komunicira u procesu obrade podataka. Mašine koje učestvuju u računarskom klasteru su takođe obično povezane sa upravljanjem distribuiranim sistemom skladištenja.

Prijem podataka

Unošenje podataka je proces dodavanja neobrađenih podataka sistemu. Složenost ove operacije u velikoj meri zavisi od formata i kvaliteta izvora podataka i od toga koliko podaci ispunjavaju zahteve za obradu.

Možete dodati velike podatke sistemu pomoću posebnih alata. Tehnologije kao što je Apache Sqoop mogu preuzeti postojeće podatke iz relacionih baza podataka i dodati ih u sistem velikih podataka. Također možete koristiti Apache Flume i Apache Chukwa - projekte dizajnirane za agregiranje i uvoz dnevnika aplikacija i servera. Posrednici poruka kao što je Apache Kafka mogu se koristiti kao interfejs između različitih generatora podataka i sistema velikih podataka. Okviri poput Gobblina mogu kombinovati i optimizirati izlaz svih alata na kraju cjevovoda.

Prilikom unosa podataka obično se provode analize, sortiranje i označavanje. Ovaj proces se ponekad naziva ETL (extract, transform, load), što je skraćenica za ekstrakt, transformaciju i učitavanje. Iako se termin obično odnosi na stare procese skladištenja podataka, ponekad se primjenjuje na sisteme velikih podataka. Tipične operacije uključuju modificiranje dolaznih podataka za formatiranje, kategorizaciju i označavanje, filtriranje ili provjeru usklađenosti podataka.

U idealnom slučaju, primljeni podaci prolaze kroz minimalno formatiranje.

Skladištenje podataka

Jednom primljeni, podaci se pomiču u komponente koje upravljaju skladištem.

Obično se distribuirani datotečni sistemi koriste za skladištenje sirovih podataka. Rešenja kao što je HDFS iz Apache Hadoop-a omogućavaju da se velike količine podataka upisuju na više čvorova u klasteru. Ovaj sistem omogućava pristup računarskim resursima podacima, može učitati podatke u klaster RAM za memorijske operacije i rukovati kvarovima komponenti. Drugi distribuirani sistemi datoteka mogu se koristiti umjesto HDFS-a, uključujući Ceph i GlusterFS.

Podaci se također mogu uvesti u druge distribuirane sisteme za strukturiraniji pristup. Distribuirane baze podataka, posebno NoSQL baze podataka, dobro su prikladne za ovu ulogu jer mogu rukovati heterogenim podacima. Ima ih mnogo razne vrste distribuirane baze podataka, izbor ovisi o tome kako želite organizirati i prezentirati podatke.

Računarstvo i analiza podataka

Kada podaci postanu dostupni, sistem može započeti obradu. Računarski sloj je možda najslobodniji dio sistema, budući da se zahtjevi i pristupi ovdje mogu značajno razlikovati ovisno o vrsti informacija. Podaci se često obrađuju više puta, bilo korištenjem jednog alata ili korištenjem više alata za obradu različitih vrsta podataka.

Batch obrada je jedna od metoda za računanje na velikim skupovima podataka. Ovaj proces uključuje razbijanje podataka na manje dijelove, planiranje svakog dijela za obradu na zasebnoj mašini, preuređivanje podataka na osnovu međurezultata, a zatim izračunavanje i prikupljanje konačnog rezultata. Apache Hadoop MapReduce koristi ovu strategiju. Batch obrada je najkorisnija kada se radi s vrlo velikim skupovima podataka koji zahtijevaju dosta izračunavanja.

Ostala radna opterećenja zahtijevaju obradu u realnom vremenu. Međutim, informacije se moraju odmah obraditi i pripremiti, a sistem mora blagovremeno reagovati kada nove informacije postanu dostupne. Jedan od načina implementacije obrade u realnom vremenu je obrada kontinuiranog toka podataka koji se sastoji od pojedinačnih elemenata. Još jedna uobičajena karakteristika procesora u realnom vremenu je da oni računaju podatke u memoriji klastera, izbjegavajući potrebu za pisanjem na disk.

Apache Storm, Apache Flink i Apache Spark nude različite načine implementacije obrade u realnom vremenu. Ove fleksibilne tehnologije omogućavaju vam da odaberete najbolji pristup za svaki pojedinačni problem. Općenito, obrada u realnom vremenu je najprikladnija za analizu malih dijelova podataka koji se mijenjaju ili se brzo dodaju sistemu.

Svi ovi programi su okviri. Međutim, postoji mnogo drugih načina za izračunavanje ili analizu podataka u sistemu velikih podataka. Ovi alati se često povezuju na gore navedene okvire i pružaju dodatna sučelja za interakciju s osnovnim slojevima. Na primjer, Apache Hive pruža sučelje skladišta podataka za Hadoop, Apache Pig pruža interfejs za upite i interakcije sa SQL podaci obezbeđeno koristeći Apache Drill, Apache Impala, Apache Spark SQL i Presto. Mašinsko učenje koristi Apache SystemML, Apache Mahout i MLlib iz Apache Sparka. Za direktno analitičko programiranje, koje je široko podržano od strane ekosistema podataka, koriste se R i Python.

Vizualizacija rezultata

Često je prepoznavanje trendova ili promjena u podacima tokom vremena važnije od rezultirajućih vrijednosti. Vizualizacija podataka je jedan od najkorisnijih načina da se identifikuju trendovi i organiziraju velika količina tačke podataka.

Obrada u realnom vremenu se koristi za vizualizaciju metrike aplikacije i servera. Podaci se često mijenjaju, a velike varijacije u metrikama obično ukazuju na značajan uticaj na zdravlje sistema ili organizacija. Projekti kao što je Prometheus mogu se koristiti za obradu tokova podataka i vremenskih serija i vizualizaciju ovih informacija.

Jedan popularan način za vizualizaciju podataka je Elastic stack, ranije poznat kao ELK stack. Logstash se koristi za prikupljanje podataka, Elasticsearch za indeksiranje podataka, a Kibana za vizualizaciju. Elastic stack može raditi s velikim podacima, vizualizirati rezultate proračuna ili komunicirati sa sirovim metrikama. Sličan stog se može dobiti kombinovanjem Apache Solra za indeksiranje sa viljuškom Kibana zvanom Banana za vizualizaciju. Ovaj stog se zove Svila.

Još jedna tehnologija vizualizacije za interakciju s podacima su dokumenti. Ovakvi projekti omogućavaju interaktivno istraživanje i vizualizaciju podataka u formatu koji je jednostavan za dijeljenje i prezentiranje podataka. Popularni primjeri ovog tipa sučelja su Jupyter Notebook i Apache Zeppelin.

Pojmovnik velikih podataka

Veliki podaci su širok pojam za skupove podataka koje konvencionalni računari ili alati ne mogu pravilno obraditi zbog njihovog volumena, brzine i raznolikosti. Termin se takođe obično primenjuje na tehnologije i strategije za rad sa takvim podacima.
Batch obrada je računarska strategija koja uključuje obradu podataka u velikim skupovima. Obično je ova metoda idealna za rad s podacima koji nisu hitni.
Grupirano računarstvo je praksa udruživanja resursa više mašina i upravljanja njihovim zajedničkim mogućnostima za obavljanje zadataka. U ovom slučaju, potreban je sloj upravljanja klasterom koji upravlja komunikacijom između pojedinačnih čvorova.
Jezero podataka je veliko spremište prikupljenih podataka u relativno sirovom stanju. Termin se često koristi za označavanje nestrukturiranih velikih podataka koji se često mijenjaju.
Data mining je širok pojam za različite prakse pronalaženja obrazaca u velikim skupovima podataka. To je pokušaj organiziranja mase podataka u razumljiviji i koherentniji skup informacija.
Skladište podataka je veliko, organizovano spremište za analizu i izvještavanje. Za razliku od jezera podataka, skladište se sastoji od formatiranih i dobro organiziranih podataka koji su integrirani s drugim izvorima. Skladišta podataka se često spominju u vezi sa velikim podacima, ali su često komponente konvencionalnih sistema za obradu podataka.
ETL (extract, transform, and load) – izdvajanje, transformacija i učitavanje podataka. Ovo je proces dobijanja i pripreme sirovih podataka za upotrebu. Povezan je sa skladištima podataka, ali karakteristike ovog procesa se takođe nalaze u cevovodima sistema velikih podataka.
Hadoop je open source Apache projekat izvorni kod za velike podatke. Sastoji se od distribuiranog sistema datoteka koji se zove HDFS i planera klastera i resursa koji se zove YARN. Mogućnosti serijska obrada koju pruža mašina za računanje MapReduce. Moderne Hadoop implementacije mogu pokretati druge računarske i analitičke sisteme uz MapReduce.
Računanje u memoriji je strategija koja uključuje premeštanje čitavih radnih skupova podataka u memoriju klastera. Srednji proračuni se ne zapisuju na disk, već se pohranjuju u memoriju. Ovo daje sistemima ogromnu prednost u brzini u odnosu na I/O-vezane sisteme.
Mašinsko učenje je proučavanje i praksa dizajniranja sistema koji mogu da uče, prilagođavaju i poboljšavaju se na osnovu podataka koji im se dostavljaju. To obično znači implementaciju prediktivnih i statističkih algoritama.
Map reduce (ne treba mešati sa MapReduce iz Hadoop-a) je algoritam za planiranje računarskih klastera. Proces uključuje podjelu zadatka između čvorova i dobivanje međurezultata, miješanje i zatim izlaz jedne vrijednosti za svaki skup.
NoSQL je širok pojam koji se odnosi na baze podataka dizajnirane izvan tradicionalnog relacioni model. NoSQL baze podataka su pogodne za velike podatke zbog svoje fleksibilnosti i distribuirane arhitekture.
Obrada toka je praksa izračunavanja pojedinačnih podataka dok se kreću kroz sistem. Ovo omogućava analizu podataka u realnom vremenu i pogodno je za obradu vremenski osjetljivih transakcija korištenjem metrike velike brzine.

Tagovi: ,

Povezani članci