Lielo datu analīzes metodes. Mārketinga enciklopēdija

26.02.2022

Pastāvīgs datu pieauguma paātrinājums ir mūsdienu realitātes neatņemama sastāvdaļa. Sociālie mediji, mobilajām ierīcēm, dati no mērierīcēm, biznesa informācija – tie ir tikai daži avotu veidi, kas var ģenerēt milzīgus datu apjomus.

Pašlaik termins Big Data ir kļuvis diezgan izplatīts. Ne visi joprojām apzinās, cik ātri un dziļi tehnoloģijas liela apjoma datu apstrādei mainās visvairāk dažādi aspekti sabiedrības dzīve. Izmaiņas notiek dažādās jomās, radot jaunas problēmas un izaicinājumus, tostarp jomā informācijas drošība, kur priekšplānā ir jābūt tā svarīgākajiem aspektiem, piemēram, konfidencialitātei, integritātei, pieejamībai utt.

Diemžēl daudzi mūsdienu uzņēmumi izmanto lielo datu tehnoloģiju, neradot atbilstošu infrastruktūru, lai droši uzglabātu milzīgos datu apjomus, ko tie apkopo un glabā. No otras puses, šobrīd strauji attīstās blokķēdes tehnoloģija, kas paredzēta šīs un daudzu citu problēmu risināšanai.

Kas ir lielie dati?

Faktiski termina definīcija ir vienkārša: “lielie dati” nozīmē ļoti lielu datu apjomu pārvaldību, kā arī to analīzi. Ja skatāmies plašāk, tā ir informācija, ko nevar apstrādāt ar klasiskām metodēm tās lielo apjomu dēļ.

Pats termins Big Data parādījās salīdzinoši nesen. Saskaņā ar Google Trends šī termina popularitātes aktīvā izaugsme notika 2011. gada beigās:

2010. gadā sāka parādīties pirmie produkti un risinājumi, kas tieši saistīti ar lielo datu apstrādi. Līdz 2011. gadam lielākā daļa lielāko IT uzņēmumu, tostarp IBM, Oracle, Microsoft un Hewlett-Packard, savās biznesa stratēģijās aktīvi izmanto terminu Big Data. Pamazām tirgus analītiķi informācijas tehnoloģijas uzsāk aktīvu šīs koncepcijas izpēti.

Šobrīd šis termins ir ieguvis ievērojamu popularitāti un tiek aktīvi izmantots dažādās jomās. Taču nevar droši apgalvot, ka Big Data ir kaut kāda fundamentāli jauna parādība – tieši otrādi, lielo datu avoti pastāv jau daudzus gadus. Mārketingā tie ietver datubāzes par klientu pirkumiem, kredītvēsturi, dzīvesveidu utt. Gadu gaitā analītiķi ir izmantojuši šos datus, lai palīdzētu uzņēmumiem paredzēt nākotnes klientu vajadzības, novērtēt riskus, veidot patērētāju vēlmes un daudz ko citu.

Šobrīd situācija ir mainījusies divos aspektos:

— ir radušies sarežģītāki rīki un metodes dažādu datu kopu analīzei un salīdzināšanai;
— saistībā ar plašo pāreju uz digitālajām tehnoloģijām, kā arī jaunām datu vākšanas un mērīšanas metodēm, analīzes rīki ir papildināti ar daudziem jauniem datu avotiem.

Pētnieki prognozē, ka Big Data tehnoloģijas visaktīvāk tiks izmantotas ražošanā, veselības aprūpē, tirdzniecībā, valsts pārvaldē un citās dažādās jomās un nozarēs.

Lielie dati nav konkrēts datu masīvs, bet gan metožu kopums to apstrādei. Lielo datu noteicošā iezīme ir ne tikai to apjoms, bet arī citas kategorijas, kas raksturo darbietilpīgus datu apstrādes un analīzes procesus.

Sākotnējie dati apstrādei var būt, piemēram:

— interneta lietotāju uzvedības žurnāli;
— lietu internets;
— sociālie mediji;
— meteoroloģiskie dati;
— digitalizētas grāmatas no lielākajām bibliotēkām;
— GPS signāli no transportlīdzekļiem;
— informācija par bankas klientu darījumiem;
— dati par abonentu atrašanās vietu mobilos tīklus;
— informācija par pirkumiem lielajos mazumtirdzniecības tīklos u.c.

Laika gaitā datu apjoms un to avotu skaits nepārtraukti pieaug, un uz šī fona rodas jaunas informācijas apstrādes metodes un tiek pilnveidotas esošās.

Lielo datu pamatprincipi:

— Horizontālā mērogojamība – datu masīvi var būt milzīgi, un tas nozīmē, ka lielo datu apstrādes sistēmai ir dinamiski jāpaplašina, palielinoties to apjomam.
— Bojājumu tolerance — pat tad, ja daži iekārtas elementi sabojājas, visai sistēmai ir jāpaliek darbotiesspējīgai.
— datu atrašanās vieta. Lielās sadalītās sistēmās dati parasti tiek izplatīti ievērojamā skaitā iekārtu. Tomēr, kad vien iespējams un resursu taupīšanas nolūkā, dati bieži tiek apstrādāti tajā pašā serverī, kurā tie tiek glabāti.

Visu trīs principu stabilai darbībai un attiecīgi lielai lielo datu uzglabāšanas un apstrādes efektivitātei ir nepieciešamas jaunas revolucionāras tehnoloģijas, piemēram, blokķēde.

Kāpēc mums ir vajadzīgi lielie dati?

Lielo datu apjoms nepārtraukti paplašinās:

— Lielos datus var izmantot medicīnā. Tādējādi pacientam diagnozi var noteikt ne tikai pamatojoties uz pacienta slimības vēstures analīzes datiem, bet arī ņemot vērā citu ārstu pieredzi, informāciju par pacienta dzīvesvietas vides stāvokli un daudzi citi faktori.
— Big Data tehnoloģijas var izmantot, lai organizētu bezpilota transportlīdzekļu kustību.
— Apstrādājot lielu datu apjomu, fotoattēlos un videoklipos varat atpazīt sejas.
— Big Data tehnoloģijas var izmantot mazumtirgotāji — tirdzniecības uzņēmumi var aktīvi izmantot datu kopas no sociālajos tīklos lai efektīvi izveidotu savas reklāmas kampaņas, kuras var maksimāli mērķēt uz noteiktu patērētāju segmentu.
— Šo tehnoloģiju aktīvi izmanto vēlēšanu kampaņu organizēšanā, tostarp sabiedrības politisko preferenču analīzē.
— Lielo datu tehnoloģiju izmantošana ir būtiska ienākumu nodrošināšanas (RA) klases risinājumiem, kas ietver rīkus neatbilstību noteikšanai un padziļinātai datu analīzei, ļaujot laikus identificēt iespējamos informācijas zudumus vai izkropļojumus, kas varētu izraisīt ienākumu samazināšanos. finanšu rezultāti.
— Telekomunikāciju pakalpojumu sniedzēji var apkopot lielus datus, tostarp ģeogrāfisko atrašanās vietu; savukārt šī informācija var komerciāli interesēt reklāmas aģentūras, kuras to var izmantot, lai attēlotu mērķtiecīgu un lokālu reklāmu, kā arī mazumtirgotājiem un bankām.
— Lielajiem datiem var būt svarīga loma, pieņemot lēmumu par mazumtirdzniecības vietas atvēršanu noteiktā vietā, pamatojoties uz datiem par spēcīgas mērķtiecīgas cilvēku plūsmas klātbūtni.

Tādējādi visredzamākais Big Data tehnoloģiju praktiskais pielietojums ir mārketinga jomā. Pateicoties interneta attīstībai un visu veidu sakaru ierīču izplatībai, uzvedības dati (piemēram, zvanu skaits, iepirkšanās paradumi un pirkumi) kļūst pieejami reāllaikā.

Lielo datu tehnoloģijas var efektīvi izmantot arī finansēs, socioloģiskajos pētījumos un daudzās citās jomās. Eksperti apgalvo, ka visas šīs lielo datu izmantošanas iespējas ir tikai aisberga redzamā daļa, jo šīs tehnoloģijas daudz lielākos apjomos tiek izmantotas izlūkošanā un pretizlūkošanā, militārajās lietās, kā arī visā, ko parasti sauc par informācijas karu.

Vispārīgi runājot, darba ar lielajiem datiem secība sastāv no datu vākšanas, saņemtās informācijas strukturēšanas, izmantojot pārskatus un informācijas paneļus, un pēc tam rīcības ieteikumu formulēšanu.

Īsi apskatīsim Big Data tehnoloģiju izmantošanas iespējas mārketingā. Kā zināms, mārketinga speciālistam informācija ir galvenais prognozēšanas un stratēģijas izstrādes instruments. Lielo datu analīze jau sen ir veiksmīgi izmantota, lai noteiktu mērķauditorija, patērētāju intereses, pieprasījums un aktivitāte. Jo īpaši lielo datu analīze ļauj rādīt reklāmu (pamatojoties uz RTB izsoles modeli - Real Time Bidding) tikai tiem patērētājiem, kurus interesē kāds produkts vai pakalpojums.

Lielo datu izmantošana mārketingā ļauj uzņēmējiem:

— labāk iepazīt savus patērētājus, piesaistīt līdzīgu auditoriju internetā;
— novērtēt klientu apmierinātības pakāpi;
— saprast, vai piedāvātais pakalpojums atbilst cerībām un vajadzībām;
— atrast un ieviest jaunus veidus, kā palielināt klientu uzticību;
— veidot projektus, kas ir pieprasīti utt.

Piemēram, pakalpojums Google.trends var norādīt mārketinga speciālistam prognozi par sezonas pieprasījuma aktivitāti konkrētam produktam, svārstībām un klikšķu ģeogrāfiju. Salīdzinot šo informāciju ar statistikas datiem, ko savā vietnē savāc atbilstošs spraudnis, varat sastādīt reklāmas budžeta sadales plānu, norādot mēnesi, reģionu un citus parametrus.

Pēc daudzu pētnieku domām, Trampa vēlēšanu kampaņas panākumi slēpjas lielo datu segmentācijā un izmantošanā. Topošā ASV prezidenta komanda spēja pareizi sadalīt auditoriju, izprast tās vēlmes un parādīt tieši to vēstījumu, ko vēlētāji vēlas redzēt un dzirdēt. Tādējādi, pēc Irinas Beļiševas no Data-Centric Alliance domām, Trampa uzvara lielā mērā bija iespējama, pateicoties nestandarta pieejai interneta mārketingam, kas balstījās uz lielajiem datiem, psiholoģisko un uzvedības analīzi un personalizētu reklāmu.

Trampa politiskie stratēģi un mārketinga speciālisti izmantoja īpaši izstrādātu matemātisko modeli, kas ļāva padziļināti analizēt visu ASV vēlētāju datus un sistematizēt tos, veicot īpaši precīzu mērķauditorijas atlasi ne tikai pēc ģeogrāfiskajiem raksturlielumiem, bet arī pēc vēlētāju nodomiem, interesēm, viņu psihotips, uzvedības īpašības utt. Pēc Lai to panāktu, mārketinga speciālisti organizēja personalizētu saziņu ar katru iedzīvotāju grupu, pamatojoties uz viņu vajadzībām, noskaņojumiem, politiskajiem uzskatiem, psiholoģiskajām īpašībām un pat ādas krāsu, izmantojot savu vēstījumu gandrīz katram atsevišķam vēlētājam.

Kas attiecas uz Hilariju Klintoni, viņa savā kampaņā izmantoja “laikā pārbaudītas” metodes, kas balstītas uz socioloģiskiem datiem un standarta mārketingu, sadalot elektorātu tikai formāli viendabīgās grupās (vīrieši, sievietes, afroamerikāņi, latīņamerikāņi, nabadzīgie, bagātie utt.) .

Rezultātā uzvarēja tas, kurš novērtēja jauno tehnoloģiju un analīzes metožu potenciālu. Zīmīgi, ka Hilarijas Klintones kampaņas izdevumi bija divreiz lielāki nekā viņas pretiniecei:

Dati: Pew Research

Galvenās lielo datu izmantošanas problēmas

Papildus augstajām izmaksām viens no galvenajiem faktoriem, kas kavē lielo datu ieviešanu dažādās jomās, ir apstrādājamo datu izvēles problēma, proti, noteikt, kuri dati ir jāizgūst, jāuzglabā un jāanalizē un kuri nav jāņem vērā.

Vēl viena problēma ar lielajiem datiem ir ētiska. Citiem vārdiem sakot, rodas loģisks jautājums: vai šādu datu vākšanu (īpaši bez lietotāja ziņas) var uzskatīt par privātuma pārkāpumu?

Nav noslēpums, ka informācija tiek glabāta meklētājprogrammās Google sistēmas un Yandex, ļauj IT gigantiem pastāvīgi uzlabot savus pakalpojumus, padarīt tos lietotājam draudzīgus un radīt jaunas interaktīvas lietojumprogrammas. Lai to izdarītu, meklētājprogrammas apkopo lietotāju datus par lietotāju aktivitātēm internetā, IP adreses, ģeogrāfiskās atrašanās vietas datus, intereses un tiešsaistes pirkumus, personas datus, e-pasta ziņas utt. Tas viss ļauj jums parādīt kontekstuālā reklāma atbilstoši lietotāja uzvedībai internetā. Šajā gadījumā lietotāju piekrišana tam parasti netiek prasīta, kā arī netiek dota iespēja izvēlēties, kādu informāciju par sevi sniegt. Tas nozīmē, ka pēc noklusējuma viss tiek apkopots lielajos datos, kas pēc tam tiks saglabāti vietņu datu serveros.

Tas noved pie nākamās svarīgās problēmas saistībā ar datu uzglabāšanas un lietošanas drošību. Piemēram, vai konkrēta analītiskā platforma, uz kuru patērētāji automātiski pārsūta savus datus, ir droša? Turklāt daudzi uzņēmumu pārstāvji atzīmē augsti kvalificētu analītiķu un mārketinga speciālistu trūkumu, kas varētu efektīvi apstrādāt lielu datu apjomu un ar viņu palīdzību atrisināt konkrētas biznesa problēmas.

Neskatoties uz visām grūtībām ar Big Data ieviešanu, bizness plāno palielināt investīcijas šajā jomā. Saskaņā ar Gartner pētījumu, vadošās nozares, kas iegulda lielajos datos, ir mediju, mazumtirdzniecības, telekomunikāciju, banku un pakalpojumu uzņēmumi.

Blokķēdes un lielo datu tehnoloģiju mijiedarbības perspektīvas

Integrācijai ar lielajiem datiem ir sinerģisks efekts, un tā paver uzņēmējdarbībai plašu jaunu iespēju klāstu, tostarp ļauj:

— piekļūt detalizētai informācijai par patērētāju vēlmēm, uz kuras pamata jūs varat izveidot detalizētus analītiskos profilus konkrētiem piegādātājiem, produktiem un produktu sastāvdaļām;
— integrēt detalizētus datus par darījumiem un atsevišķu preču grupu patēriņa statistiku pa dažādām lietotāju kategorijām;
— saņemt detalizētus analītiskos datus par piegādes un patēriņa ķēdēm, kontrolēt produktu zudumus transportēšanas laikā (piemēram, svara zudums noteikta veida preču žāvēšanas un iztvaikošanas dēļ);
— cīnītos pret preču viltošanu, palielinātu naudas atmazgāšanas un krāpšanas apkarošanas efektivitāti utt.

Piekļuve detalizētiem datiem par preču izmantošanu un patēriņu būtiski atklās Big Data tehnoloģijas potenciālu galveno biznesa procesu optimizēšanā, regulējošo risku mazināšanā, jaunu monetizācijas iespēju atklāšanā un tādu produktu radīšanā, kas vislabāk atbilst pašreizējām patērētāju vēlmēm.

Kā zināms, lielāko finanšu institūciju pārstāvji jau izrāda ievērojamu interesi par blokķēdes tehnoloģiju, tajā skaitā u.c.. Pēc Šveices finanšu holdinga UBS IT menedžera Olivera Busmana teiktā, blokķēdes tehnoloģija var “samazināt darījumu apstrādes laiku no vairākām dienām līdz vairākām minūtes”.

Blokķēdes analīzes potenciāls, izmantojot Big Data tehnoloģiju, ir milzīgs. Sadalītās virsgrāmatas tehnoloģija nodrošina informācijas integritāti, kā arī uzticamu un caurspīdīgu visas darījumu vēstures uzglabāšanu. Savukārt Big Data sniedz jaunus rīkus efektīvai analīzei, prognozēšanai, ekonomikas modelēšanai un attiecīgi paver jaunas iespējas pārdomātāku vadības lēmumu pieņemšanai.

Blockchain un Big Data tandēmu var veiksmīgi izmantot veselības aprūpē. Kā zināms, nepilnīgi un nepilnīgi dati par pacienta veselību ievērojami palielina nepareizas diagnozes un nepareizi nozīmētas ārstēšanas risku. Kritiskajiem datiem par ārstniecības iestāžu klientu veselību jābūt maksimāli aizsargātiem, ar nemainīguma īpašībām, pārbaudāmiem un nekādām manipulācijām.

Informācija blokķēdē atbilst visām iepriekš minētajām prasībām un var kalpot kā augstas kvalitātes un uzticami avota dati padziļinātai analīzei, izmantojot jaunās Big Data tehnoloģijas. Turklāt ar blokķēdes palīdzību medicīnas iestādes varētu apmainīties ar uzticamiem datiem ar apdrošināšanas kompānijām, tiesu iestādēm, darba devējiem, zinātniskajām iestādēm un citām organizācijām, kurām nepieciešama medicīniskā informācija.

Lielie dati un informācijas drošība

Plašā nozīmē informācijas drošība ir informācijas un atbalsta infrastruktūras aizsardzība no nejaušas vai apzinātas dabiskas vai mākslīgas negatīvas ietekmes.

Informācijas drošības jomā Big Data saskaras ar šādiem izaicinājumiem:

— datu aizsardzības un to integritātes nodrošināšanas problēmas;
— ārējas iejaukšanās un konfidenciālas informācijas noplūdes risks;
— nepareiza konfidenciālas informācijas glabāšana;
— informācijas zaudēšanas risks, piemēram, kāda ļaunprātīgas darbības dēļ;
— risks, ka trešās personas ļaunprātīgi izmantos personas datus utt.

Viena no galvenajām lielo datu problēmām, kuras risināšanai ir paredzēta blokķēde, ir informācijas drošības jomā. Nodrošinot atbilstību visiem tās pamatprincipiem, sadalītās virsgrāmatas tehnoloģija var garantēt datu integritāti un uzticamību, un, tā kā nav viena atteices punkta, blokķēde padara darbu stabilu. informācijas sistēmas. Sadalītā virsgrāmatas tehnoloģija var palīdzēt atrisināt datu uzticības problēmu, kā arī nodrošināt iespēju universāla apmaiņa viņiem.

Informācija ir vērtīga vērtība, kas nozīmē, ka informācijas drošības pamataspektu nodrošināšanai ir jābūt priekšplānā. Lai izturētu konkurenci, uzņēmumiem ir jāiet līdzi laikam, kas nozīmē, ka tie nevar ignorēt potenciālās iespējas un priekšrocības, ko sniedz blokķēdes tehnoloģija un Big Data rīki.

Priekšvārds

“Lielie dati” ir mūsdienās moderns termins, kas parādās gandrīz visās profesionālajās konferencēs, kas veltītas datu analīzei, prognozējošajai analītikai, datu ieguvei, CRM. Termins tiek lietots jomās, kur ir aktuāls darbs ar kvalitatīvi lieliem datu apjomiem, kur pastāvīgi palielinās datu plūsmas ātrums organizatoriskajā procesā: ekonomika, banku darbība, ražošana, mārketings, telekomunikācijas, tīmekļa analīze, medicīna utt.

Līdz ar straujo informācijas uzkrāšanu strauji attīstās arī datu analīzes tehnoloģijas. Ja pirms dažiem gadiem bija iespējams, teiksim, tikai segmentēt klientus grupās ar līdzīgām preferencēm, tad tagad katram klientam ir iespējams izveidot modeļus reāllaikā, analizējot, piemēram, viņa kustību internetā, lai meklētu konkrētu produkts. Var analizēt patērētāja intereses un atbilstoši izveidotajam modelim atvasināt piemērotus sludinājumus vai konkrētus piedāvājumus. Modeli var arī pielāgot un pārbūvēt reāllaikā, kas vēl pirms dažiem gadiem nebija iedomājams.

Piemēram, telekomunikāciju jomā ir izstrādātas tehnoloģijas fiziskās atrašanās vietas noteikšanai mobilos tālruņus un to īpašniekiem, un šķiet, ka 2002. gada zinātniskās fantastikas filmā Minority Report aprakstītā ideja, kur reklāmas informācija tiek attēlota iepirkšanās centriņēma vērā konkrētu garāmejošu personu intereses.

Tajā pašā laikā ir situācijas, kad aizraušanās ar jaunajām tehnoloģijām var radīt vilšanos. Piemēram, dažreiz reti dati ( Reti dati), kas sniedz svarīgu ieskatu realitātē, ir daudz vērtīgāki nekā Lielie dati(Big Data), kas apraksta kalnus, bieži vien nesatur būtisku informāciju.

Šī raksta mērķis ir precizēt un pārdomāt jaunās lielo datu iespējas un ilustrēt, kā analītikas platforma STATISTIKA StatSoft var palīdzēt efektīvi izmantot lielos datus procesu optimizēšanai un problēmu risināšanai.

Cik lieli ir lielie dati?

Protams, pareizajai atbildei uz šo jautājumu vajadzētu būt “atkarīgs...”

Mūsdienu diskusijās lielo datu jēdziens tiek raksturots kā dati terabaitu secībā.

Praksē (ja runājam par gigabaitiem vai terabaitiem) šādus datus ir viegli uzglabāt un pārvaldīt, izmantojot “tradicionālās” datu bāzes un standarta aparatūru (datu bāzes serverus).

Programmatūra STATISTIKA izmanto daudzpavedienu tehnoloģiju algoritmiem piekļuvei datiem (lasīšanai), transformācijai un paredzamo (un vērtēšanas) modeļu veidošanai, tāpēc šādus datu paraugus var viegli analizēt un tiem nav nepieciešami specializēti rīki.

Daži pašreizējie StatSoft projekti apstrādā paraugus aptuveni 9–12 miljonu rindu apmērā. Sareizināsim tos ar 1000 parametriem (mainīgajiem), kas savākti un sakārtoti datu noliktavā, lai izveidotu riska vai prognozēšanas modeļus. Šāda veida fails būs “tikai” aptuveni 100 gigabaitu liels. Šī, protams, nav maza datu noliktava, taču tās izmēri nepārsniedz standarta datu bāzes tehnoloģiju iespējas.

Produktu līnija STATISTIKA partijas analīzei un vērtēšanas modeļu veidošanai ( Uzņēmuma STATISTIKA), reāllaika risinājumi ( STATISTIKA tiešraides rezultāts), un analītiskos rīkus modeļu izveidei un pārvaldībai ( STATISTICA Data Miner, Lēmumu pieņemšana) viegli mērogojams vairākos serveros ar daudzkodolu procesoriem.

Praksē tas nozīmē, ka, izmantojot standarta rīkus, gandrīz vienmēr var sasniegt pietiekamu analītisko modeļu (piemēram, kredītriska prognozes, krāpšanas iespējamība, iekārtu komponentu uzticamība utt.) ātrumu, kas ļauj pieņemt operatīvus lēmumus. STATISTIKA.

No lieliem datu apjomiem līdz lielajiem datiem

Parasti diskusijas par lielo datu bāzi notiek ap datu noliktavām (un uz šādām noliktavām balstīta analīze), kas ir daudz lielākas par dažiem terabaitiem.

Jo īpaši dažas datu noliktavas var palielināties līdz tūkstošiem terabaitu, t.i., līdz pat petabaitiem (1000 terabaiti = 1 petabaiti).

Papildus petabaitiem datu uzkrāšanu var izmērīt eksabaitos, piemēram, ražošanas sektorā visā pasaulē 2010. gadā tika lēsts, ka kopumā tika uzkrāti 2 eksabaiti jaunas informācijas (Manyika et al., 2011).

Ir nozares, kur dati tiek vākti un uzkrāti ļoti intensīvi.

Piemēram, ražošanas vidē, piemēram, spēkstacijā, katru minūti vai pat katru sekundi tiek ģenerēta nepārtraukta datu plūsma, dažreiz desmitiem tūkstošu parametru.

Turklāt dažu pēdējo gadu laikā ir ieviestas tā sauktās “viedā tīkla” tehnoloģijas, kas ļauj komunālajiem dienestiem mērīt atsevišķu mājsaimniecību elektroenerģijas patēriņu katru minūti vai sekundi.

Šāda veida lietojumprogrammām, kurās dati ir jāglabā gadiem ilgi, uzkrātie dati tiek klasificēti kā ārkārtīgi lieli dati.

Pieaug arī lielo datu lietojumprogrammu skaits komerciālajā un valdības sektorā, kur datu apjoms glabāšanā var būt simtiem terabaitu vai petabaitu.

Mūsdienu tehnoloģijas ļauj dažādos veidos “izsekot” cilvēkiem un viņu uzvedībai. Piemēram, kad lietojam internetu, iepērkamies interneta veikalos vai lieli tīkli veikalos, piemēram, Walmart (saskaņā ar Wikipedia tiek lēsts, ka Walmart datu krātuve ir vairāk nekā 2 petabaiti) vai pārvietojas ar mobilie tālruņi- mēs atstājam pēdas no savām darbībām, kas noved pie jaunas informācijas uzkrāšanās.

Dažādas saziņas metodes, sākot no vienkāršiem tālruņa zvaniem un beidzot ar informācijas augšupielādi, izmantojot sociālo tīklu vietnes, piemēram, Facebook (saskaņā ar Wikipedia informāciju katru mēnesi apmainās ar 30 miljardiem), vai kopīgot videoklipus tādās vietnēs kā YouTube (Youtube apgalvo, ka tas augšupielādē 24 stundas video ik minūti; skatiet Wikipedia), katru dienu ģenerējot milzīgu daudzumu jaunu datu.

Tāpat mūsdienu medicīnas tehnoloģijas ģenerē lielu datu apjomu, kas attiecas uz veselības aprūpes sniegšanu (attēli, video, reāllaika uzraudzība).

Tātad datu apjomu klasifikāciju var attēlot šādi:

Lielas datu kopas: no 1000 megabaitiem (1 gigabaits) līdz simtiem gigabaitu

Milzīgas datu kopas: no 1000 gigabaitiem (1 terabaitam) līdz vairākiem terabaitiem

Lielie dati: no vairākiem terabaitiem līdz simtiem terabaitu

Īpaši lieli dati: 1000 līdz 10 000 terabaiti = 1 līdz 10 petabaiti

Uzdevumi, kas saistīti ar lielajiem datiem

Ir trīs veidu uzdevumi, kas saistīti ar lielajiem datiem:

1. Uzglabāšana un pārvaldība

Simtiem terabaitu vai petabaitu datu nevar viegli uzglabāt un pārvaldīt, izmantojot tradicionālo relāciju datu bāzes datus.

2. Nestrukturēta informācija

Lielākā daļa lielo datu ir nestrukturēti. Tie. kā var sakārtot tekstu, video, attēlus utt.?

3. Lielo datu analīze

Kā analizēt nestrukturētu informāciju? Kā izveidot vienkāršus pārskatus, pamatojoties uz lielajiem datiem, izveidot un ieviest padziļinātus prognozēšanas modeļus?

Lielo datu glabāšana un pārvaldība

Lielie dati parasti tiek glabāti un sakārtoti sadalītās failu sistēmās.

Kopumā informācija tiek glabāta vairākos (dažreiz tūkstošiem) cietie diski, standarta datoros.

Tā sauktā “karte” seko tam, kur (kurā datorā un/vai diskā) tiek glabāta konkrēta informācija.

Lai nodrošinātu kļūdu toleranci un uzticamību, katra informācija parasti tiek saglabāta vairākas reizes, piemēram, trīs reizes.

Piemēram, pieņemsim, ka esat apkopojis atsevišķus darījumus no lielas mazumtirdzniecības ķēdes. Detalizēta informācija Katrs darījums tiks glabāts dažādos serveros un cietajos diskos, un “karte” indeksē, kur tieši tiek glabāta informācija par attiecīgo darījumu.

Izmantojot standarta aprīkojumu un atvērt programmatūra lai pārvaldītu šo izplatīto failu sistēmu (piemēram, Hadoop), ir salīdzinoši viegli ieviest uzticamas datu noliktavas petabaitu mērogā.

Nestrukturēta informācija

Lielāko daļu apkopotās informācijas izplatītajā failu sistēmā veido nestrukturēti dati, piemēram, teksts, attēli, fotogrāfijas vai video.

Tam ir savas priekšrocības un trūkumi.

Priekšrocība ir tāda, ka iespēja uzglabāt lielus datus ļauj saglabāt "visus datus", neuztraucoties par to, kura datu daļa ir svarīga vēlākai analīzei un lēmumu pieņemšanai.

Trūkums ir tāds, ka šādos gadījumos, lai iegūtu noderīga informācija ir nepieciešama šo milzīgo datu apjomu pēcapstrāde.

Lai gan dažas no šīm darbībām var būt vienkāršas (piemēram, vienkārši aprēķini utt.), citām ir nepieciešami sarežģītāki algoritmi, kuriem jābūt īpaši izstrādātiem, lai tie efektīvi darbotos sadalītā failu sistēmā.

Kāds izpilddirektors reiz StatSoft teica, ka viņš "iztērējis lielu naudu IT un datu glabāšanai un joprojām nav sācis pelnīt", jo nav domājis par to, kā vislabāk izmantot šos datus, lai uzlabotu pamatdarbību.

Tātad, lai gan datu apjoms var pieaugt eksponenciāli, spēja iegūt informāciju un rīkoties saskaņā ar šo informāciju ir ierobežota un asimptotiski sasniegs ierobežojumu.

Ir svarīgi, lai kopā ar datu uzglabāšanas sistēmām tiktu izstrādātas metodes un procedūras modeļu veidošanai, atjaunināšanai un lēmumu pieņemšanas automatizācijai, lai nodrošinātu, ka šādas sistēmas ir noderīgas un izdevīgas uzņēmumam.

Lielo datu analīze

Šī ir patiešām lielā problēma ar nestrukturētu lielo datu analīzi: kā to lietderīgi analizēt. PAR šo jautājumu Daudz mazāk ir rakstīts par datu glabāšanu un Big Data pārvaldības tehnoloģijām.

Ir jāapsver vairāki jautājumi.

Karte-Samazināt

Analizējot simtiem terabaitu vai petabaitu datu, nav iespējams iegūt datus uz citu vietu analīzei (piemēram, STATISTICA uzņēmuma analīzes serveris).

Datu pārsūtīšanas process pa kanāliem uz atsevišķu serveri vai serveriem (paralēlai apstrādei) prasīs pārāk ilgu laiku un prasīs pārāk daudz trafika.

Tā vietā analītiskie aprēķini ir jāveic fiziski tuvu datu glabāšanas vietai.

Map-Reduce algoritms ir sadalītās skaitļošanas modelis. Tās darbības princips ir šāds: ievades dati tiek izplatīti sadalītā tīkla darba mezgliem (atsevišķiem mezgliem). failu sistēma priekšapstrādei (kartes solis) un pēc tam jau iepriekš apstrādāto datu konvolūcijai (apvienošanai) (samazināt solis).

Tātad, pieņemsim, lai aprēķinātu galīgo summu, algoritms paralēli aprēķinās starpsummas katrā sadalītās failu sistēmas mezglā un pēc tam summēs šīs starpsummas.

Internetā ir pieejams milzīgs daudzums informācijas par to, kā var veikt dažādus aprēķinus, izmantojot kartes samazināšanas modeli, tostarp paredzamajai analītikai.

Vienkārša statistika, biznesa inteliģence (BI)

Lai izveidotu vienkāršus BI pārskatus, ir daudz atvērtā pirmkoda produktu, kas ļauj aprēķināt summas, vidējos rādītājus, proporcijas utt. izmantojot kartes samazināšanu.

Tādējādi ir ļoti viegli iegūt precīzus skaitļus un citu vienkāršu statistiku ziņošanai.

Prognozējošā modelēšana, uzlabota statistika

No pirmā acu uzmetiena var šķist, ka prognozējošo modeļu izveide sadalītā failu sistēmā ir grūtāka, taču tas tā nebūt nav. Apskatīsim datu analīzes sākotnējos posmus.

Datu sagatavošana. Pirms kāda laika StatSoft veica virkni lielu un veiksmīgu projektu, kas ietvēra ļoti lielas datu kopas, kas apraksta spēkstacijas procesa darbību minūti pēc minūtes. Analīzes mērķis bija uzlabot iekārtu efektivitāti un samazināt emisijas (Elektroenerģijas pētniecības institūts, 2009).

Ir svarīgi, lai, lai gan datu kopas var būt ļoti lielas, tajās esošā informācija ir daudz mazāka.

Piemēram, ja dati tiek uzkrāti katru sekundi vai katru minūti, daudzi parametri (gāzes un krāsns temperatūra, plūsmas, aizbīdņu pozīcijas utt.) ilgstoši saglabājas stabili. Citiem vārdiem sakot, katru sekundi reģistrētie dati būtībā ir vienas un tās pašas informācijas atkārtojumi.

Līdz ar to nepieciešams veikt “gudru” datu apkopošanu, modelēšanai un optimizācijai iegūstot datus, kas satur tikai nepieciešamo informāciju par elektrostacijas efektivitāti un emisiju apjomu ietekmējošajām dinamiskajām izmaiņām.

Teksta klasifikācija un datu pirmapstrāde. Vēlreiz ilustrēsim, kā lielās datu kopās var būt daudz mazāk noderīgas informācijas.

Piemēram, StatSoft ir iesaistījies projektos, kas saistīti ar tvītu teksta ieguvi, atspoguļojot to, cik apmierināti pasažieri ir ar aviokompānijām un to pakalpojumiem.

Lai gan katru stundu un katru dienu tika izgūts liels skaits atbilstošu tvītu, izteiktie viedokļi bija diezgan vienkārši un vienmuļi. Lielākā daļa ziņojumu ir sūdzības un īsi viena teikuma ziņojumi par “slikto pieredzi”. Turklāt šo sajūtu skaits un “spēks” ir relatīvi stabils laika gaitā un saistībā ar konkrētiem jautājumiem (piemēram, nozaudēta bagāža, slikta pārtika, lidojumu atcelšana).

Tādējādi, samazinot faktiskos tvītus līdz drīzam (novērtējot) noskaņojumu, izmantojot teksta ieguves metodes (piemēram, tās, kas ieviestas STATISTIKA teksta kalnrači) rezultātā tiek iegūts daudz mazāks datu apjoms, ko pēc tam var viegli salīdzināt ar esošajiem strukturētajiem datiem (faktiskā biļešu tirdzniecība vai informācija par regulāriem lidojumiem). Analīze ļauj sadalīt klientus grupās un izpētīt viņu tipiskās sūdzības.

Ir pieejami daudzi rīki, lai veiktu šo datu apkopošanu (piemēram, noskaņojuma rādītājus) sadalītā failu sistēmā, padarot šo analītisko procesu viegli īstenojamu.

Celtniecības modeļi

Bieži vien izaicinājums ir ātri izveidot precīzus modeļus datiem, kas tiek glabāti sadalītā failu sistēmā.

Ir karšu samazināšanas implementācijas dažādiem datu ieguves/prognozējošās analītikas algoritmiem, kas piemēroti liela mēroga paralēlai datu apstrādei sadalītā failu sistēmā (kuru var atbalstīt, izmantojot platformu STATISTIKA StatSoft).

Tomēr tieši tāpēc, ka apstrādājāt tik lielu datu apjomu, vai esat pārliecināts, ka iegūtais modelis patiešām ir precīzāks?

Faktiski, visticamāk, ir ērtāk izveidot modeļus maziem datu segmentiem izplatītā failu sistēmā.

Kā teikts nesenajā Forrester ziņojumā, "divi plus divi ir vienāds ar 3,9 parasti ir diezgan labi" (Hopkins & Evelson, 2011).

Statistiskā un matemātiskā precizitāte slēpjas faktā, ka modelis lineārā regresija, tostarp, piemēram, 10 prognozes, kuru pamatā ir pareizi veikts varbūtības izlase no 100 000 novērojumiem būs tikpat precīzi kā modelis, kas izveidots uz 100 miljoniem novērojumu.

Savulaik es dzirdēju terminu “Big Data” no Germana Grefa (Sberbank vadītāja). Viņi saka, ka tagad aktīvi strādā pie ieviešanas, jo tas viņiem palīdzēs samazināt laiku, ko viņi strādā ar katru klientu.

Otro reizi ar šo koncepciju saskāros klienta interneta veikalā, pie kura strādājām un palielinājām sortimentu no pāris tūkstošiem līdz pāris desmitiem tūkstošu preču vienību.

Trešo reizi es redzēju, ka Yandex ir nepieciešams lielo datu analītiķis. Tad nolēmu iedziļināties šajā tēmā un pie reizes uzrakstīt rakstu, kas pastāstīs, kāds termins tas ir, kas saviļņo TOP vadītāju prātus un interneta telpu.

Kas tas ir

Es parasti sāku jebkuru savu rakstu ar skaidrojumu par to, kas ir šis termins. Šis raksts nebūs izņēmums.

Taču to galvenokārt izraisa nevis vēlme parādīt, cik gudra esmu, bet gan fakts, ka tēma ir patiesi sarežģīta un prasa rūpīgu skaidrojumu.

Piemēram, varat izlasīt, kas ir lielie dati Vikipēdijā, neko nesaprast un pēc tam atgriezties pie šī raksta, lai joprojām saprastu definīciju un piemērojamību uzņēmējdarbībai. Tātad, sāksim ar aprakstu un pēc tam piemēriem biznesam.

Lielie dati ir lielie dati. Apbrīnojami, vai ne? Faktiski tas tulkojumā no angļu valodas nozīmē “lielie dati”. Bet šī definīcija, varētu teikt, ir paredzēta manekeniem.

Lielo datu tehnoloģija– ir apstrādes pieeja/metode vairāk datus, lai iegūtu jaunu informāciju, kuru ir grūti apstrādāt parastajos veidos.

Dati var būt apstrādāti (strukturēti) vai izkaisīti (t.i., nestrukturēti).

Pats termins parādījās salīdzinoši nesen. 2008. gadā zinātnisks žurnāls paredzēja, ka šī pieeja ir nepieciešama, lai apstrādātu lielu informācijas apjomu, kas pieaug eksponenciāli.

Piemēram, katru gadu informācija internetā, kas jāuzglabā un, protams, jāapstrādā, pieaug par 40%. Vēlreiz: katru gadu internetā parādās +40% jaunas informācijas.

Ja izdrukātie dokumenti ir skaidri un arī to apstrādes metodes ir skaidras (pārsūtiet uz elektroniskais skats, iešūt vienā mapē, numuru), tad ko darīt ar informāciju, kas tiek pasniegta pavisam citos “medijos” un citos sējumos:

  • Interneta dokumenti;
  • Blogi un sociālie tīkli;
  • Audio/video avoti;
  • Mērīšanas ierīces.

Ir pazīmes, kas ļauj informāciju un datus klasificēt kā lielos datus. Tas nozīmē, ka ne visi dati var būt piemēroti analīzei. Šie raksturlielumi precīzi satur lielo datu galveno jēdzienu. Viņi visi iekļaujas trīs vs.

  1. Apjoms(no angļu sējuma). Dati tiek mērīti analizējamā “dokumenta” fiziskā apjoma izteiksmē;
  2. Ātrums(no angļu valodas velocity). Dati nestāv uz vietas savā attīstībā, bet nepārtraukti aug, tāpēc rezultātu iegūšanai nepieciešama to ātra apstrāde;
  3. Kolektors(no angļu valodas šķirnes). Dati var nebūt vienā formātā. Tas ir, tie var būt izkaisīti, strukturēti vai daļēji strukturēti.

Tomēr laiku pa laikam VVV tiek pievienots ceturtais V (patiesība) un pat piektais V (dažos gadījumos tas ir dzīvotspēja, citos tā ir vērtība).

Kaut kur pat redzēju 7V, kas raksturo datus, kas saistīti ar lielajiem datiem. Bet, manuprāt, šis ir no sērijas (kur periodiski tiek pievienoti P, lai gan izpratnei pietiek ar sākuma 4).

MĒS JAU ESAM VAIRĀK KĀ 29 000 cilvēku.
IESLĒDZIET

Kam tas vajadzīgs

Rodas loģisks jautājums: kā var izmantot informāciju (ja kas, lielie dati ir simtiem un tūkstošiem terabaitu)?

Pat ne tas. Šeit ir informācija. Kāpēc tad tika izgudrots lielais datums? Kāda ir lielo datu izmantošana mārketingā un biznesā?

  1. Parastās datubāzes nevar uzglabāt un apstrādāt (es pat nerunāju par analīzi, bet vienkārši uzglabāšanu un apstrādi) milzīgu informācijas apjomu.
    Lielie dati atrisina šo galveno problēmu. Veiksmīgi uzglabā un pārvalda lielu informācijas apjomu;
  2. Strukturē informāciju, kas nāk no dažādiem avotiem (video, attēli, audio un teksta dokumenti), vienā, saprotamā un sagremojamā formā;
  3. Analītiķu ģenerēšana un precīzu prognožu veidošana, pamatojoties uz strukturētu un apstrādātu informāciju.

Tas ir sarežģīti. Vienkārši sakot, jebkurš mārketinga speciālists, kurš saprot, ka, izpētot lielu informācijas daudzumu (par jums, jūsu uzņēmumu, konkurentiem, jūsu nozari), varat iegūt ļoti pienācīgus rezultātus:

  • Pilnīga izpratne par savu uzņēmumu un savu biznesu no skaitļu puses;
  • Izpētiet savus konkurentus. Un tas, savukārt, dos iespēju tikt uz priekšu, dominējot pār tiem;
  • Uzziniet jaunu informāciju par saviem klientiem.

Un tieši tāpēc, ka lielo datu tehnoloģija rada šādus rezultātus, visi ar to steidzas. Viņi cenšas iekļaut šo biznesu savā uzņēmumā, lai palielinātu pārdošanas apjomu un samazinātu izmaksas. Un ja konkrēti, tad:

  1. Šķērspārdošanas un papildu pārdošanas palielināšana, pateicoties labākām zināšanām par klientu vēlmēm;
  2. Meklējiet populārus produktus un iemeslus, kāpēc cilvēki tos pērk (un otrādi);
  3. Produkta vai pakalpojuma uzlabošana;
  4. Pakalpojuma līmeņa paaugstināšana;
  5. Lojalitātes un klientu fokusa palielināšana;
  6. Krāpšanas novēršana (vairāk attiecas uz banku sektoru);
  7. Nevajadzīgo izmaksu samazināšana.

Visizplatītākais piemērs, kas norādīts visos avotos, protams, ir Apple uzņēmums, kas apkopo datus par saviem lietotājiem (tālrunis, pulkstenis, dators).

Tieši ekosistēmas klātbūtnes dēļ korporācija tik daudz zina par saviem lietotājiem un pēc tam izmanto to peļņas gūšanai.

Šos un citus lietošanas piemērus varat izlasīt jebkurā citā rakstā, izņemot šo.

Mūsdienu piemērs

Es jums pastāstīšu par citu projektu. Pareizāk sakot, par cilvēku, kurš veido nākotni, izmantojot lielo datu risinājumus.

Tas ir Elons Masks un viņa uzņēmums Tesla. Viņa galvenais sapnis ir padarīt automašīnas autonomas, tas ir, tu sēdies pie stūres, ieslēdz autopilotu no Maskavas līdz Vladivostokai un... aizmigsi, jo ar mašīnu nemaz nevajag braukt, jo derēs. viss pats par sevi.

Šķiet fantastiski? Bet nē! Vienkārši Elons rīkojās daudz gudrāk nekā Google, kas kontrolē automašīnas, izmantojot desmitiem satelītu. Un viņš devās uz citu ceļu:

  1. Katra pārdotā automašīna ir aprīkota ar datoru, kas apkopo visu informāciju.
    Viss – tas nozīmē visu. Par vadītāju, viņa braukšanas stilu, ceļiem ap viņu, citu automašīnu kustību. Šādu datu apjoms sasniedz 20-30 GB stundā;
  2. Pēc tam šī informācija tiek pārsūtīta, izmantojot satelīta sakarus centrālais dators kas apstrādā šos datus;
  3. Pamatojoties uz apstrādātajiem lielajiem datiem šo datoru, tiek būvēts bezpilota transportlīdzekļa modelis.

Starp citu, ja Google iet diezgan slikti un viņu mašīnas nemitīgi iekļūst avārijās, tad Muskam, pateicoties tam, ka viņš strādā ar lielajiem datiem, veicas daudz labāk, jo testa modeļi uzrāda ļoti labus rezultātus.

Bet... Tas viss ir par ekonomiku. Kas mums vispār ir par peļņu, bet par peļņu? Daudzas lietas, ko var izšķirt liels randiņš, nav pilnībā saistītas ar ienākumiem un naudu.

Google statistika, kas balstīta uz lielajiem datiem, parāda interesantu lietu.

Pirms ārsti paziņo par slimības epidēmijas sākumu noteiktā reģionā, cilvēku skaits šajā reģionā ievērojami palielinās. meklēšanas vaicājumi par šīs slimības ārstēšanu.

Tādējādi pareiza datu izpēte un to analīze var veidot prognozes un paredzēt epidēmijas sākšanos (un attiecīgi tās novēršanu) daudz ātrāk nekā oficiālo iestāžu secinājumi un to rīcība.

Pielietojums Krievijā

Tomēr Krievija, kā vienmēr, nedaudz piebremzē. Tādējādi pati lielo datu definīcija Krievijā parādījās ne vairāk kā pirms 5 gadiem (es tagad runāju par parastajiem uzņēmumiem).

Un tas neskatoties uz to, ka šis ir viens no visstraujāk augošajiem tirgiem pasaulē (narkotikas un ieroči nervozi smēķē malā), jo katru gadu lielo datu vākšanas un analīzes programmatūras tirgus pieaug par 32%.

Lai raksturotu lielo datu tirgu Krievijā, atceros vienu senu joku. Liels randiņš ir kā sekss pirms 18 gadu vecuma sasniegšanas. Visi par to runā, ap to ir liela ažiotāža un maz reālas darbības, un visiem ir kauns atzīt, ka viņi paši to nedara. Patiešām, par to ir daudz ažiotāžu, bet maz reālu darbību.

Lai gan pazīstamā pētījumu kompānija Gartner jau 2015. gadā paziņoja, ka lielie dati vairs nav pieaugoša tendence (kā, starp citu, mākslīgais intelekts), bet gan pilnīgi neatkarīgi rīki progresīvu tehnoloģiju analīzei un attīstībai.

Aktīvākās nišas, kurās tiek izmantoti lielie dati Krievijā, ir bankas/apdrošināšana (ne velti rakstu sāku ar Sberbank vadītāju), telekomunikāciju sektors, mazumtirdzniecība, nekustamais īpašums un... publiskais sektors.

Piemēram, es jums pastāstīšu sīkāk par pāris ekonomikas nozarēm, kurās tiek izmantoti lielo datu algoritmi.

1. Bankas

Sāksim ar bankām un informāciju, ko tās apkopo par mums un mūsu darbībām. Kā piemēru es ņēmu TOP 5 Krievijas bankas, kas aktīvi iegulda lielajos datos:

  1. Sberbank;
  2. Gazprombank;
  3. VTB 24;
  4. Alfa banka;
  5. Tinkoff banka.

Īpaši patīkami ir redzēt Alfa banku starp Krievijas līderiem. Vismaz patīkami apzināties, ka banka, kuras oficiālais partneris jūs esat, saprot nepieciešamību ieviest savā uzņēmumā jaunus mārketinga rīkus.

Bet es vēlos parādīt lielo datu izmantošanas un veiksmīgas ieviešanas piemērus bankā, kas man patīk ar tās dibinātāja netradicionālo skatījumu un rīcību.

Es runāju par Tinkoff Bank. Viņu galvenais izaicinājums bija izveidot sistēmu lielu datu analīzei reāllaikā, ņemot vērā viņu augošo klientu bāzi.

Rezultāti: iekšējo procesu laiks tika samazināts vismaz 10 reizes, bet dažiem - vairāk nekā 100 reizes.

Nu, neliela uzmanības novēršana. Vai jūs zināt, kāpēc es sāku runāt par Oļega Tinkova netradicionālajām dēkām un darbībām? Manuprāt, tieši viņi viņam palīdzēja no viduvēja uzņēmēja, kuru Krievijā ir tūkstošiem, pārvērsties par vienu no slavenākajiem un atpazīstamākajiem uzņēmējiem. Lai to apstiprinātu, noskatieties šo neparasto un interesanto video:

2. Nekustamais īpašums

Nekustamajā īpašumā viss ir daudz sarežģītāk. Un tieši šo piemēru es vēlos jums sniegt, lai saprastu lielos datumus parastajā biznesā. Sākotnējie dati:

  1. Liels teksta dokumentācijas apjoms;
  2. Atvērtie avoti (privātie satelīti, kas pārraida datus par zemes izmaiņām);
  3. Milzīgs daudzums nekontrolētas informācijas internetā;
  4. Pastāvīgas izmaiņas avotos un datos.

Un, pamatojoties uz to, ir jāsagatavo un jānovērtē zemes gabala vērtība, piemēram, netālu no Urālu ciema. Lai to izdarītu, profesionālim būs nepieciešama nedēļa.

Krievijas Vērtētāju biedrība un ROSEKO, kas faktiski ieviesa lielu datu analīzi, izmantojot programmatūru, aizņems ne vairāk kā 30 minūtes nesteidzīga darba. Salīdziniet, nedēļa un 30 minūtes. Milzīga atšķirība.

izveides rīki

Protams, vienkāršos cietajos diskos nevar glabāt un apstrādāt milzīgus informācijas apjomus.

A programmatūra, kas strukturē un analizē datus – tas parasti ir intelektuālais īpašums un katru reizi autora attīstība. Tomēr ir instrumenti, uz kuru pamata tiek radīts viss šis skaistums:

  • Hadoop & MapReduce;
  • NoSQL datu bāzes;
  • Datu atklāšanas klases rīki.

Godīgi sakot, es nevaru jums skaidri izskaidrot, ar ko tās atšķiras viena no otras, jo šo lietu iepazīšana un darbs ar tām notiek fizikas un matemātikas institūtos.

Kāpēc tad es par to runāju, ja nevarēju to izskaidrot? Atcerieties, ka visās filmās laupītāji ieiet jebkurā bankā un redz milzīgu skaitu visu veidu aparatūras, kas savienotas ar vadiem? Tas pats ir lielajā randiņā. Piemēram, šeit ir modelis, kas šobrīd ir viens no līderiem tirgū.

Liels datuma rīks

Maksimālās konfigurācijas izmaksas sasniedz 27 miljonus rubļu par plauktu. Šī, protams, ir luksusa versija. Es vēlos, lai jūs jau iepriekš izmēģinātu lielo datu izveidi savā biznesā.

Īsumā par galveno

Jūs varat jautāt, kāpēc jums, mazam un vidējam uzņēmumam, ir jāstrādā ar lielajiem datiem?

Uz to es jums atbildēšu ar vienas personas citātu: “Tuvākajā nākotnē klienti būs pieprasīti pēc uzņēmumiem, kas labāk izprot viņu uzvedību un paradumus un viņiem vislabāk atbilst.”

Bet atzīsim. Lai ieviestu lielos datus mazā uzņēmumā, ir nepieciešami lieli budžeti ne tikai programmatūras izstrādei un ieviešanai, bet arī speciālistu uzturēšanai, vismaz tādu kā lielo datu analītiķis un sistēmas administrators.

Un tagad es klusēju par to, ka jums ir jābūt šādiem datiem apstrādei.

Labi. Tēma gandrīz nav piemērojama mazajiem uzņēmumiem. Bet tas nenozīmē, ka jums ir jāaizmirst viss, ko izlasījāt iepriekš. Vienkārši izpētiet nevis savus datus, bet gan labi zināmu ārvalstu, gan Krievijas uzņēmumu datu analīzes rezultātus.

Piemēram, mazumtirdzniecības ķēde Target, izmantojot lielo datu analīzi, atklāja, ka grūtnieces pirms otrā grūtniecības trimestra (no 1. līdz 12. grūtniecības nedēļai) aktīvi iegādājas UN aromatizētus produktus.

Izmantojot šos datus, viņi nosūta viņiem kuponus ar ierobežota laika atlaidēm produktiem bez smaržas.

Ko darīt, ja jūs, piemēram, esat tikai ļoti maza kafejnīca? Jā, ļoti vienkārši. Izmantojiet lojalitātes lietotni. Un pēc kāda laika un pateicoties uzkrātajai informācijai, varēsiet ne tikai piedāvāt klientiem ēdienus, kas atbilst viņu vajadzībām, bet arī redzēt visvairāk nepārdotos un ar lielāko peļņu saistītus ēdienus tikai pāris peles klikšķu laikā.

Līdz ar to secinājums. Maz ticams, ka mazam uzņēmumam vajadzētu ieviest lielos datus, taču obligāti jāizmanto citu uzņēmumu rezultāti un attīstība.

Tikai slinkie nerunā par lielajiem datiem, bet diez vai saprot, kas tie ir un kā tie darbojas. Sāksim ar vienkāršāko lietu – terminoloģiju. Krievu valodā runājot, lielie dati ir dažādi rīki, pieejas un metodes gan strukturētu, gan nestrukturētu datu apstrādei, lai tos izmantotu konkrētiem uzdevumiem un mērķiem.

Nestrukturēti dati ir informācija, kurai nav iepriekš noteiktas struktūras vai kas nav sakārtota noteiktā secībā.

Terminu “lielie dati” žurnāla Nature redaktors Klifords Linčs ieviesa tālajā 2008. gadā īpašā izdevumā, kas veltīts pasaules informācijas apjoma straujam pieaugumam. Lai gan, protams, paši lielie dati pastāvēja iepriekš. Pēc ekspertu domām, lielo datu kategorijā ietilpst lielākā daļa datu plūsmu, kas pārsniedz 100 GB dienā.

Lasi arī:

Mūsdienās šis vienkāršais termins slēpj tikai divus vārdus – datu glabāšana un apstrāde.

Lielie dati – vienkāršiem vārdiem

Mūsdienu pasaulē lielie dati ir sociāli ekonomiska parādība, kas saistīta ar to, ka ir parādījušās jaunas tehnoloģiskās iespējas, lai analizētu milzīgu datu apjomu.

Lasi arī:

Lai būtu vieglāk saprast, iedomājieties lielveikalu, kurā visas preces nav tādā kārtībā, kādā esat pieradis. Maize pie augļiem, tomātu pasta pie saldētas picas, šķiltavas tamponu plaukta priekšā, kurā cita starpā ir avokado, tofu vai šitaki sēnes. Lielie dati noliek visu savās vietās un palīdz atrast riekstu pienu, uzzināt izmaksas un derīguma termiņu, kā arī to, kurš, izņemot jūs, pērk šo pienu un kāpēc tas ir labāks par govs pienu.

Kenets Kukiers: lielie dati ir labāki dati

Lielo datu tehnoloģija

Tiek apstrādāti milzīgi datu apjomi, lai persona varētu iegūt konkrētus un nepieciešamos rezultātus to tālākai efektīvai izmantošanai.

Lasi arī:

Faktiski lielie dati ir problēmu risinājums un alternatīva tradicionālajām datu pārvaldības sistēmām.

Lielajiem datiem piemērojamās analīzes metodes un metodes saskaņā ar McKinsey:

  • Datu ieguve;
  • Crowdsourcing;
  • Datu sajaukšana un integrēšana;
  • Mašīnmācība;
  • Mākslīgie neironu tīkli;
  • Rakstu atpazīšana;
  • Paredzamā analītika;
  • Simulācijas modelēšana;
  • Telpiskā analīze;
  • Statistiskā analīze;
  • Analītisko datu vizualizācija.

Horizontālā mērogojamība, kas nodrošina datu apstrādi, ir lielo datu apstrādes pamatprincips. Dati tiek sadalīti pa skaitļošanas mezgliem, un apstrāde notiek bez veiktspējas pasliktināšanās. McKinsey piemērojamības kontekstā iekļāva arī relāciju pārvaldības sistēmas un biznesa inteliģenci.

Tehnoloģijas:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • Aparatūras risinājumi.

Lasi arī:

Lielajiem datiem ir tradicionāli definējošie raksturlielumi, kurus Meta Group izstrādāja 2001. gadā un kurus sauc par “ Trīs V»:

  1. Apjoms- fiziskā apjoma apjoms.
  2. Ātrums- izaugsmes temps un nepieciešamība pēc ātras datu apstrādes rezultātu iegūšanai.
  3. Daudzveidība- iespēja vienlaicīgi apstrādāt dažāda veida datus.

Lielie dati: lietojumprogrammas un iespējas

Neviendabīgas un strauji ienākošas digitālās informācijas apjomus nav iespējams apstrādāt ar tradicionālajiem rīkiem. Pati datu analīze ļauj jums redzēt noteiktus un nemanāmus modeļus, ko cilvēki nevar redzēt. Tas ļauj optimizēt visas mūsu dzīves jomas – no valsts pārvalde uz ražošanu un telekomunikācijām.

Piemēram, daži uzņēmumi pirms dažiem gadiem pasargāja savus klientus no krāpšanas, un rūpēties par klienta naudu nozīmē rūpēties par savu naudu.

Sūzana Etligere: Kā ar lielajiem datiem?

Risinājumi, kuru pamatā ir lielie dati: Sberbank, Beeline un citi uzņēmumi

Beeline ir milzīgs datu apjoms par abonentiem, ko viņi izmanto ne tikai, lai strādātu ar viņiem, bet arī radītu analītiskos produktus, piemēram, ārējās konsultācijas vai IPTV analīzi. Beeline segmentēja datu bāzi un aizsargāja klientus no finanšu krāpšanas un vīrusiem, glabāšanai izmantojot HDFS un Apache Spark, bet datu apstrādei Rapidminer un Python.

Lasi arī:

Vai arī atcerēsimies Sberbank ar viņu veco lietu, ko sauc par AS SAFI. Šī ir sistēma, kas analizē fotogrāfijas, lai identificētu bankas klientus un novērstu krāpšanu. Sistēma tika ieviesta tālajā 2014. gadā, tās pamatā ir datu bāzes fotogrāfiju salīdzināšana, kas, pateicoties datorredzei, nokļūst no tīmekļa kamerām uz stendiem. Sistēmas pamatā ir biometriskā platforma. Pateicoties tam, krāpšanas gadījumu skaits ir samazinājies 10 reizes.

Lielie dati pasaulē

Līdz 2020. gadam, saskaņā ar prognozēm, cilvēce ģenerēs 40–44 zettabaitus informācijas. Un līdz 2025. gadam tas pieaugs 10 reizes, liecina ziņojums The Data Age 2025, ko sagatavojuši IDC analītiķi. Ziņojumā norādīts, ka lielāko daļu datu ģenerēs paši uzņēmumi, nevis parastie patērētāji.

Pētniecības analītiķi uzskata, ka dati kļūs par būtisku aktīvu un drošība kļūs par būtisku dzīves pamatu. Darba autori arī ir pārliecināti, ka tehnoloģija mainīs ekonomisko ainavu, un vidusmēra lietotājs ar pieslēgtajām ierīcēm sazināsies aptuveni 4800 reižu dienā.

Lielais datu tirgus Krievijā

2017. gadā globālajiem ieņēmumiem lielo datu tirgū vajadzētu sasniegt 150,8 miljardus ASV dolāru, kas ir par 12,4% vairāk nekā pērn. Globāli Krievijas tirgus Lielo datu pakalpojumi un tehnoloģijas joprojām ir ļoti mazas. 2014. gadā amerikāņu kompānija IDC novērtēja to 340 miljonu dolāru apmērā. Krievijā šī tehnoloģija tiek izmantota banku nozarē, enerģētikā, loģistikā, valsts sektorā, telekomunikācijās un rūpniecībā.

Lasi arī:

Kas attiecas uz datu tirgu, tad Krievijā tas tikai veidojas. RTB ekosistēmā datu nodrošinātāji ir programmatisko datu pārvaldības platformu (DMP) un datu apmaiņas īpašnieki. Telekomunikāciju operatori pilotrežīmā dalās ar bankām patērētāju informācijā par potenciālajiem aizņēmējiem.

Lielie dati parasti nāk no trim avotiem:

  • Internets (sociālie tīkli, forumi, emuāri, mediji un citas vietnes);
  • Korporatīvo dokumentu arhīvi;
  • Nolasījumi no sensoriem, instrumentiem un citām ierīcēm.

Lielie dati bankās

Papildus iepriekš aprakstītajai sistēmai Sberbank stratēģijā 2014.-2018. gadam ir iekļauts: stāsta par superdatu analīzes nozīmi kvalitatīvai klientu apkalpošanai, riska pārvaldībai un izmaksu optimizēšanai. Tagad banka izmanto Big data risku pārvaldībai, krāpšanas apkarošanai, klientu kredītspējas segmentēšanai un novērtēšanai, personāla vadībai, rindu prognozēšanai filiālēs, darbinieku prēmiju aprēķināšanai un citiem uzdevumiem.

VTB24 izmanto lielos datus, lai segmentētu un pārvaldītu klientu aizplūšanu, formu finanšu pārskati, sociālo tīklu un forumu atsauksmju analīze. Lai to izdarītu, viņš izmanto risinājumus no Teradata, SAS Visual Analytics un SAS Marketing Optimizer.

Lielie dati ir plašs jēdziens netradicionālām stratēģijām un tehnoloģijām, kas nepieciešamas, lai savāktu, organizētu un apstrādātu informāciju no lielām datu kopām. Lai gan izaicinājums strādāt ar datiem, kas pārsniedz viena datora apstrādes vai uzglabāšanas jaudu, nav jauns, pēdējos gados šāda veida skaitļošanas iespējas un vērtība ir ievērojami paplašinājusies.

Šajā rakstā ir aprakstīti pamatjēdzieni, ar kuriem jūs varētu saskarties, pētot lielos datus. Tajā aplūkoti arī daži procesi un tehnoloģijas, kas pašlaik tiek izmantotas šajā jomā.

Kas ir lielie dati?

Precīzu “lielo datu” definīciju ir grūti formulēt, jo projekti, pārdevēji, praktiķi un biznesa profesionāļi tos izmanto ļoti dažādos veidos. Paturot to prātā, lielos datus var definēt šādi:

  • Lielas datu kopas.
  • Skaitļošanas stratēģiju un tehnoloģiju kategorija, ko izmanto lielu datu kopu apstrādei.

Šajā kontekstā "liela datu kopa" nozīmē datu kopu, kas ir pārāk liela, lai to apstrādātu vai uzglabātu, izmantojot tradicionālos rīkus vai vienā datorā. Tas nozīmē, ka lielo datu kopu kopējais mērogs pastāvīgi mainās un var ievērojami atšķirties katrā gadījumā.

Lielo datu sistēmas

Pamatprasības darbam ar lielajiem datiem ir tādas pašas kā jebkurai citai datu kopai. Tomēr lielais mērogs, apstrādes ātrums un datu raksturlielumi, ar kuriem saskaras katrā procesa posmā, rada nozīmīgus jaunus izaicinājumus rīku izstrādei. Lielāko daļu lielo datu sistēmu mērķis ir saprast un sazināties ar lielu neviendabīgu datu apjomu, kas nebūtu iespējams, izmantojot parastās metodes.

2001. gadā Gartnera Dougs Leinijs ieviesa "lielo datu trīs V", lai aprakstītu dažas pazīmes, kas atšķir lielo datu apstrādi no citiem datu apstrādes veidiem:

  1. Apjoms (datu apjoms).
  2. Ātrums (datu uzkrāšanas un apstrādes ātrums).
  3. Daudzveidība (dažādi apstrādāto datu veidi).

Datu apjoms

Milzīgais apstrādātās informācijas apjoms palīdz definēt lielo datu sistēmas. Šīs datu kopas var būt daudz lielākas nekā tradicionālās datu kopas, un tām ir jāpievērš lielāka uzmanība katrā apstrādes un uzglabāšanas posmā.

Tā kā prasības pārsniedz viena datora iespējas, bieži rodas problēma ar datoru grupu resursu apvienošanu, sadali un koordinēšanu. Klasteru pārvaldība un algoritmi, kas var sadalīt uzdevumus mazākās daļās, kļūst arvien svarīgāki šajā jomā.

Uzkrāšanas un apstrādes ātrums

Otrs raksturlielums, kas būtiski atšķir lielos datus no citām datu sistēmām, ir ātrums, ar kādu informācija pārvietojas pa sistēmu. Dati bieži nonāk sistēmā no vairākiem avotiem, un tie ir jāapstrādā reāllaikā, lai atjauninātu pašreizējo sistēmas stāvokli.

Šis uzsvars uz momentāno atsauksmes piespieda daudzus praktiķus atteikties no uz paketēm orientētas pieejas un dot priekšroku reāllaika straumēšanas sistēmai. Dati tiek pastāvīgi pievienoti, apstrādāti un analizēti, lai neatpaliktu no jaunas informācijas pieplūduma un sniegtu vērtīgu ieskatu agrīnā stadijā, kad tas ir visatbilstošākais. Tam ir nepieciešamas stabilas sistēmas ar ļoti pieejamiem komponentiem, lai aizsargātu pret kļūmēm datu cauruļvadā.

Apstrādāto datu tipu dažādība

Lielo datu jomā ir daudz unikālu izaicinājumu, kas saistīts ar apstrādāto avotu plašo klāstu un to relatīvo kvalitāti.

Dati var nākt no iekšējām sistēmām, piemēram, lietojumprogrammu un serveru žurnāliem, no sociālo mediju kanāliem un citiem ārējiem API, no fizisko ierīču sensoriem un citiem avotiem. Lielo datu sistēmu mērķis ir apstrādāt potenciāli noderīgus datus neatkarīgi no izcelsmes, apvienojot visu informāciju vienā sistēmā.

Arī multivides formāti un veidi var ievērojami atšķirties. Multivides faili (attēli, video un audio) tiek apvienoti ar teksta failiem, strukturētiem žurnāliem utt. Tradicionālākas datu apstrādes sistēmas paredz, ka dati tiks ievadīti konveijerā, kas jau ir marķēti, formatēti un sakārtoti, taču lielas datu sistēmas parasti pārņem un saglabā datus, mēģinot saglabāt. viņiem sākotnējais stāvoklis. Ideālā gadījumā jebkuras transformācijas vai izmaiņas neapstrādātajos datos notiks atmiņā apstrādes laikā.

Citas īpašības

Laika gaitā praktiķi un organizācijas ir ierosinājušas oriģinālo “trīs V” paplašināšanu, lai gan šie jauninājumi drīzāk apraksta problēmas, nevis lielo datu īpašības.

  • Patiesība: dažādu avotu un apstrādes sarežģītības dēļ var rasties problēmas, novērtējot datu kvalitāti (un līdz ar to arī iegūtās analīzes kvalitāti).
  • Mainība: datu izmaiņas rada lielas kvalitātes atšķirības. Var būt nepieciešami papildu resursi, lai identificētu, apstrādātu vai filtrētu zemas kvalitātes datus, lai uzlabotu datu kvalitāti.
  • Vērtība: lielo datu galvenais mērķis ir vērtība. Dažreiz sistēmas un procesi ir ļoti sarežģīti, kas apgrūtina datu izmantošanu un faktisko vērtību ieguvi.

Lielo datu dzīves cikls

Tātad, kā faktiski tiek apstrādāti lielie dati? Ir vairākas dažādas ieviešanas pieejas, taču stratēģijās un programmatūrā ir kopīgas iezīmes.

  • Datu ievadīšana sistēmā
  • Datu saglabāšana krātuvē
  • Datu skaitļošana un analīze
  • Rezultātu vizualizācija

Pirms sīkāk aplūkojam šīs četras darbplūsmu kategorijas, parunāsim par klasteru skaitļošanu, kas ir svarīga stratēģija, ko izmanto daudzi lielo datu rīki. Skaitļošanas klastera iestatīšana ir galvenā tehnoloģija, ko izmanto katrā dzīves cikla posmā.

Klasteru skaitļošana

Lielo datu kvalitātes dēļ atsevišķi datori nav piemēroti datu apstrādei. Klasteri šim nolūkam ir piemērotāki, jo tie var apstrādāt lielo datu uzglabāšanas un skaitļošanas vajadzības.

Lielo datu klasterizācijas programmatūra apvieno daudzu mazu mašīnu resursus, lai nodrošinātu vairākas priekšrocības:

  • Resursu apvienošana: lielu datu kopu apstrādei ir nepieciešams liels CPU un atmiņas resursu daudzums, kā arī daudz pieejamās krātuves vietas.
  • Augsta pieejamība: klasteri var nodrošināt dažādus kļūdu tolerances un pieejamības līmeņus, lai aparatūras vai programmatūras kļūmes neietekmētu piekļuvi datiem un apstrādi. Tas ir īpaši svarīgi reāllaika analītikai.
  • Mērogojamība: klasteri atbalsta ātru horizontālu mērogošanu (jaunu iekārtu pievienošana klasterim).

Lai strādātu klasterī, ir nepieciešami rīki, lai pārvaldītu dalību klasterī, koordinētu resursu sadali un ieplānotu darbu ar atsevišķiem mezgliem. Klastera dalību un resursu piešķiršanu var apstrādāt, izmantojot tādas programmas kā Hadoop YARN (Yet Another Resource Negotiator) vai Apache Mesos.

Saliekams skaitļošanas klasteris bieži darbojas kā mugurkauls, ar kuru cita programmatūra mijiedarbojas, lai apstrādātu datus. Iekārtas, kas piedalās skaitļošanas klasterī, parasti ir saistītas arī ar sadalītas krātuves sistēmas pārvaldību.

Datu saņemšana

Datu ievadīšana ir neapstrādātu datu pievienošanas process sistēmai. Šīs darbības sarežģītība lielā mērā ir atkarīga no datu avotu formāta un kvalitātes, kā arī no tā, cik lielā mērā dati atbilst apstrādes prasībām.

Sistēmai var pievienot lielus datus, izmantojot īpašus rīkus. Tādas tehnoloģijas kā Apache Sqoop var ņemt esošos datus no relāciju datu bāzēm un pievienot tos lielajai datu sistēmai. Varat arī izmantot Apache Flume un Apache Chukwa — projektus, kas paredzēti lietojumprogrammu un serveru žurnālu apkopošanai un importēšanai. Tādus ziņojumu brokerus kā Apache Kafka var izmantot kā saskarni starp dažādiem datu ģeneratoriem un lielo datu sistēmu. Tādi ietvari kā Gobblin var apvienot un optimizēt visu rīku izvadi cauruļvada beigās.

Datu uzņemšanas laikā parasti tiek veikta analīze, šķirošana un marķēšana. Šo procesu dažreiz sauc par ETL (extract, transform, load), kas nozīmē ekstrakts, pārveidošana un ielāde. Lai gan šis termins parasti attiecas uz mantotajiem datu noliktavas procesiem, dažkārt tas tiek piemērots lielo datu sistēmām. Tipiskās darbības ietver ienākošo datu modificēšanu formatēšanai, kategorizēšanu un marķēšanu, filtrēšanu vai datu atbilstības pārbaudi.

Ideālā gadījumā saņemtie dati tiek formatēti minimāli.

Datu glabāšana

Pēc saņemšanas dati tiek pārvietoti uz komponentiem, kas pārvalda krātuvi.

Parasti izdalītās failu sistēmas tiek izmantotas neapstrādātu datu glabāšanai. Risinājumi, piemēram, HDFS no Apache Hadoop, ļauj rakstīt lielu datu apjomu vairākos klastera mezglos. Šī sistēma nodrošina skaitļošanas resursu piekļuvi datiem, var ielādēt datus klastera RAM, lai veiktu atmiņas darbības, un apstrādāt komponentu kļūmes. HDFS vietā var izmantot citas izplatītas failu sistēmas, tostarp Ceph un GlusterFS.

Datus var arī importēt citās sadalītās sistēmās, lai iegūtu strukturētāku piekļuvi. Izplatītās datu bāzes, īpaši NoSQL datu bāzes, ir labi piemērotas šai lomai, jo tās var apstrādāt neviendabīgus datus. Ir daudz dažādi veidi izplatītās datu bāzes, izvēle ir atkarīga no tā, kā vēlaties kārtot un parādīt datus.

Datu skaitļošana un analīze

Kad dati ir pieejami, sistēma var sākt apstrādi. Skaitļošanas slānis, iespējams, ir visbrīvākā sistēmas daļa, jo prasības un pieejas šeit var ievērojami atšķirties atkarībā no informācijas veida. Dati bieži tiek apstrādāti atkārtoti, izmantojot vienu rīku vai vairākus rīkus dažāda veida datu apstrādei.

Pakešu apstrāde ir viena no metodēm lielu datu kopu aprēķināšanai. Šis process ietver datu sadalīšanu mazākās daļās, katras daļas plānošanu apstrādei atsevišķā mašīnā, datu pārkārtošanu, pamatojoties uz starprezultātiem, un pēc tam gala rezultāta aprēķināšanu un apkopošanu. Apache Hadoop MapReduce izmanto šo stratēģiju. Pakešu apstrāde ir visnoderīgākā, strādājot ar ļoti lielām datu kopām, kurām nepieciešams diezgan daudz aprēķinu.

Citām darba slodzēm ir nepieciešama reāllaika apstrāde. Taču informācija ir jāapstrādā un jāsagatavo nekavējoties, un sistēmai ir jāreaģē savlaicīgi, tiklīdz kļūst pieejama jauna informācija. Viens no veidiem, kā īstenot reāllaika apstrādi, ir apstrādāt nepārtrauktu datu plūsmu, kas sastāv no atsevišķiem elementiem. Vēl viena izplatīta reāllaika procesoru iezīme ir tā, ka tie aprēķina datus klastera atmiņā, izvairoties no nepieciešamības rakstīt diskā.

Apache Storm, Apache Flink un Apache Spark piedāvā dažādus veidus, kā ieviest reāllaika apstrādi. Šīs elastīgās tehnoloģijas ļauj izvēlēties labāko pieeju katrai atsevišķai problēmai. Kopumā reāllaika apstrāde ir vispiemērotākā, lai analizētu mazus datu fragmentus, kas mainās vai tiek ātri pievienoti sistēmai.

Visas šīs programmas ir ietvari. Tomēr ir daudzi citi veidi, kā aprēķināt vai analizēt datus lielo datu sistēmā. Šie rīki bieži savienojas ar iepriekšminētajiem ietvariem un nodrošina papildu saskarnes, lai mijiedarbotos ar pamatā esošajiem slāņiem. Piemēram, Apache Hive nodrošina datu noliktavas saskarni Hadoop, Apache Pig nodrošina vaicājuma saskarni un mijiedarbību ar SQL dati nodrošināts, izmantojot Apache Drill, Apache Impala, Apache Spark SQL un Presto. Mašīnmācība izmanto Apache SystemML, Apache Mahout un MLlib no Apache Spark. Tiešai analītiskai programmēšanai, ko plaši atbalsta datu ekosistēma, tiek izmantoti R un Python.

Rezultātu vizualizācija

Bieži vien tendenču vai datu izmaiņu atpazīšana laika gaitā ir svarīgāka par iegūtajām vērtībām. Datu vizualizācija ir viens no noderīgākajiem tendenču noteikšanas un organizēšanas veidiem lielos daudzumos datu punkti.

Reāllaika apstrāde tiek izmantota, lai vizualizētu lietojumprogrammu un servera metriku. Dati bieži mainās, un lielas metrikas atšķirības parasti norāda uz būtisku ietekmi uz sistēmu vai organizāciju veselību. Tādus projektus kā Prometheus var izmantot, lai apstrādātu datu plūsmas un laikrindas un vizualizētu šo informāciju.

Viens populārs datu vizualizācijas veids ir elastīgā steks, kas agrāk bija pazīstama kā ELK steks. Logstash tiek izmantots datu vākšanai, Elasticsearch datu indeksēšanai un Kibana vizualizācijai. Elastīgā kaudze var darboties ar lieliem datiem, vizualizēt aprēķinu rezultātus vai mijiedarboties ar neapstrādātu metriku. Līdzīgu kaudzi var iegūt, apvienojot Apache Solr indeksēšanai ar Kibana dakšiņu, ko sauc par Banānu vizualizācijai. Šo kaudzi sauc par zīdu.

Vēl viena vizualizācijas tehnoloģija mijiedarbībai ar datiem ir dokumenti. Šādi projekti nodrošina interaktīvu datu izpēti un vizualizāciju formātā, kurā ir viegli koplietot un prezentēt datus. Populāri šāda veida saskarnes piemēri ir Jupyter Notebook un Apache Zeppelin.

Lielo datu glosārijs

  • Lielie dati ir plašs termins, kas apzīmē datu kopas, kuras nevar pareizi apstrādāt ar tradicionāliem datoriem vai rīkiem to apjoma, ātruma un daudzveidības dēļ. Šis termins parasti tiek lietots arī tehnoloģijām un stratēģijām darbam ar šādiem datiem.
  • Pakešu apstrāde ir skaitļošanas stratēģija, kas ietver datu apstrādi lielās kopās. Parasti šī metode ir ideāli piemērota darbam ar datiem, kas nav steidzami.
  • Klasterizētā skaitļošana ir prakse, kurā tiek apvienoti vairāku iekārtu resursi un pārvaldītu to kopīgās iespējas, lai veiktu uzdevumus. Šajā gadījumā ir nepieciešams klasteru pārvaldības slānis, kas apstrādā saziņu starp atsevišķiem mezgliem.
  • Datu ezers ir liela savākto datu krātuve salīdzinoši neapstrādātā stāvoklī. Šo terminu bieži lieto, lai apzīmētu nestrukturētus un bieži mainīgus lielos datus.
  • Datu ieguve ir plašs termins, kas apzīmē dažādas metodes, kā atrast modeļus lielās datu kopās. Tas ir mēģinājums sakārtot datu masu saprotamākā un saskaņotākā informācijas kopumā.
  • Datu noliktava ir liela, organizēta krātuve analīzei un pārskatu sniegšanai. Atšķirībā no datu ezera, noliktava sastāv no formatētiem un labi sakārtotiem datiem, kas ir integrēti ar citiem avotiem. Datu noliktavas bieži tiek minētas saistībā ar lielajiem datiem, taču tās bieži vien ir parasto datu apstrādes sistēmu sastāvdaļas.
  • ETL (extract, transform, and load) – datu ieguve, pārveidošana un ielāde. Šis ir neapstrādātu datu iegūšanas un sagatavošanas process lietošanai. Tas ir saistīts ar datu noliktavām, bet šī procesa īpašības ir atrodamas arī lielo datu sistēmu cauruļvados.
  • Hadoop ir atvērtā koda Apache projekts pirmkods lielajiem datiem. Tas sastāv no izplatītas failu sistēmas ar nosaukumu HDFS un klastera un resursu plānotāja ar nosaukumu YARN. Iespējas partijas apstrāde nodrošina MapReduce skaitļošanas programma. Mūsdienu Hadoop izvietošana var darbināt citas skaitļošanas un analītikas sistēmas kopā ar MapReduce.
  • Atmiņas skaitļošana ir stratēģija, kas ietver visu darba datu kopu pārvietošanu klastera atmiņā. Starpaprēķini netiek ierakstīti diskā, bet tiek saglabāti atmiņā. Tas sniedz sistēmām milzīgas ātruma priekšrocības salīdzinājumā ar I/O sistēmām.
  • Mašīnmācība ir tādu sistēmu izstrādes izpēte un prakse, kuras var mācīties, pielāgot un uzlabot, pamatojoties uz tām ievadītajiem datiem. Tas parasti nozīmē paredzamo un statistisko algoritmu ieviešanu.
  • Kartes samazināšana (nejaukt ar MapReduce no Hadoop) ir skaitļošanas klasteru plānošanas algoritms. Process ietver uzdevuma sadalīšanu starp mezgliem un starprezultātu iegūšanu, sajaukšanu un pēc tam vienas vērtības izvadīšanu katrai kopai.
  • NoSQL ir plašs termins, kas attiecas uz datu bāzēm, kas izstrādātas ārpus tradicionālās relāciju modelis. NoSQL datu bāzes ir labi piemērotas lieliem datiem to elastības un izkliedētās arhitektūras dēļ.
  • Straumes apstrāde ir atsevišķu datu vienību aprēķināšanas prakse, kad tās pārvietojas sistēmā. Tas ļauj veikt datu analīzi reāllaikā un ir piemērots laika ziņā jutīgu darījumu apstrādei, izmantojot ātrgaitas metriku.
Birkas: ,