დიდი მონაცემთა ანალიზის ტექნიკა. მარკეტინგის ენციკლოპედია

26.02.2022

მონაცემთა ზრდის მუდმივი აჩქარება თანამედროვე რეალობის განუყოფელი ელემენტია. სოციალური მედია, მობილური მოწყობილობები, მონაცემები საზომი მოწყობილობებიდან, ბიზნეს ინფორმაცია - ეს არის მხოლოდ რამდენიმე ტიპის წყარო, რომელსაც შეუძლია გიგანტური რაოდენობის მონაცემების გენერირება.

ამჟამად ტერმინი Big Data საკმაოდ გავრცელებული გახდა. ყველამ ჯერ კიდევ არ იცის, რამდენად სწრაფად და ღრმად იცვლება დიდი რაოდენობით მონაცემთა დამუშავების ტექნოლოგიები ყველაზე მეტად სხვადასხვა ასპექტებისაზოგადოების ცხოვრება. ცვლილებები ხდება სხვადასხვა სფეროში, რაც იწვევს ახალ პრობლემებსა და გამოწვევებს, მათ შორის სფეროში ინფორმაციის უსაფრთხოება, სადაც წინა პლანზე უნდა იყოს მისი ყველაზე მნიშვნელოვანი ასპექტები, როგორიცაა კონფიდენციალურობა, მთლიანობა, ხელმისაწვდომობა და ა.შ.

სამწუხაროდ, ბევრი თანამედროვე კომპანია მიმართავს Big Data ტექნოლოგიას სათანადო ინფრასტრუქტურის შექმნის გარეშე, რათა უზრუნველყოს მათ მიერ შეგროვებული და შენახული უზარმაზარი რაოდენობის მონაცემების საიმედო შენახვა. მეორე მხრივ, ამჟამად სწრაფად ვითარდება ბლოკჩეინის ტექნოლოგია, რომელიც შექმნილია ამ და მრავალი სხვა პრობლემის გადასაჭრელად.

რა არის დიდი მონაცემები?

სინამდვილეში, ტერმინის განმარტება მარტივია: „დიდი მონაცემები“ ნიშნავს მონაცემთა ძალიან დიდი მოცულობის მართვას, ასევე მათ ანალიზს. თუ უფრო ფართოდ განვიხილავთ, ეს არის ინფორმაცია, რომლის დამუშავება კლასიკური მეთოდებით მისი დიდი მოცულობის გამო შეუძლებელია.

თავად ტერმინი დიდი მონაცემები შედარებით ცოტა ხნის წინ გამოჩნდა. Google Trends-ის მიხედვით, ტერმინის პოპულარობის აქტიური ზრდა მოხდა 2011 წლის ბოლოს:

2010 წელს გამოჩნდა პირველი პროდუქტები და გადაწყვეტილებები, რომლებიც პირდაპირ იყო დაკავშირებული დიდი მონაცემების დამუშავებასთან. 2011 წლისთვის, უმსხვილესი IT კომპანიების უმეტესობა, მათ შორის IBM, Oracle, Microsoft და Hewlett-Packard, აქტიურად იყენებენ ტერმინს Big Data თავიანთ ბიზნეს სტრატეგიებში. თანდათან ბაზრის ანალიტიკოსები საინფორმაციო ტექნოლოგიებიიწყებენ ამ კონცეფციის აქტიურ კვლევას.

ამჟამად ამ ტერმინმა მნიშვნელოვანი პოპულარობა მოიპოვა და აქტიურად გამოიყენება სხვადასხვა სფეროში. თუმცა, დარწმუნებით არ შეიძლება ითქვას, რომ დიდი მონაცემები არის ერთგვარი ფუნდამენტურად ახალი ფენომენი - პირიქით, დიდი მონაცემების წყაროები მრავალი წელია არსებობს. მარკეტინგში, ეს მოიცავს კლიენტების შესყიდვების, საკრედიტო ისტორიების, ცხოვრების სტილის და ა.შ.

ამჟამად ვითარება შეიცვალა ორ ასპექტში:

— გაჩნდა უფრო დახვეწილი ინსტრუმენტები და მეთოდები სხვადასხვა მონაცემთა ნაკრების ანალიზისა და შედარებისთვის;
— ანალიზის ინსტრუმენტებს დაემატა მრავალი ახალი მონაცემთა წყარო, რაც გამოწვეულია ციფრულ ტექნოლოგიებზე ფართო გადასვლით, ასევე მონაცემთა შეგროვებისა და გაზომვის ახალი მეთოდებით.

მკვლევარები ვარაუდობენ, რომ Big Data ტექნოლოგიები ყველაზე აქტიურად იქნება გამოყენებული წარმოებაში, ჯანდაცვაში, ვაჭრობაში, სახელმწიფო ადმინისტრაციაში და სხვა მრავალფეროვან სფეროებში და ინდუსტრიებში.

დიდი მონაცემები არ არის მონაცემთა კონკრეტული მასივი, არამედ მისი დამუშავების მეთოდების ნაკრები. დიდი მონაცემების განმსაზღვრელი მახასიათებელია არა მხოლოდ მისი მოცულობა, არამედ სხვა კატეგორიები, რომლებიც ახასიათებს შრომატევადი მონაცემთა დამუშავებისა და ანალიზის პროცესებს.

დამუშავების საწყისი მონაცემები შეიძლება იყოს, მაგალითად:

— ინტერნეტის მომხმარებლის ქცევის ჟურნალები;
- ნივთების ინტერნეტი;
- სოციალური მედია;
— მეტეოროლოგიური მონაცემები;
- გაციფრული წიგნები ძირითადი ბიბლიოთეკებიდან;
- GPS სიგნალები მანქანები;
- ინფორმაცია ბანკის კლიენტების ტრანზაქციების შესახებ;
- მონაცემები აბონენტების ადგილმდებარეობის შესახებ მობილური ქსელები;
— ინფორმაცია მსხვილ საცალო ქსელებში შესყიდვების შესახებ და ა.შ.

დროთა განმავლობაში მონაცემთა მოცულობა და მისი წყაროების რაოდენობა მუდმივად იზრდება და ამ ფონზე ჩნდება ინფორმაციის დამუშავების ახალი მეთოდები და იხვეწება არსებული.

დიდი მონაცემების ძირითადი პრინციპები:

— ჰორიზონტალური მასშტაბურობა – მონაცემთა მასივები შეიძლება იყოს უზარმაზარი და ეს ნიშნავს, რომ დიდი მონაცემთა დამუშავების სისტემა დინამიურად უნდა გაფართოვდეს მათი მოცულობის გაზრდისას.
— ხარვეზების ტოლერანტობა - მაშინაც კი, თუ ზოგიერთი მოწყობილობის ელემენტი ვერ ხერხდება, მთელი სისტემა უნდა დარჩეს ფუნქციონირებისთვის.
- მონაცემთა ლოკალიზაცია. დიდ განაწილებულ სისტემებში მონაცემები ჩვეულებრივ ნაწილდება მანქანების მნიშვნელოვან რაოდენობაზე. თუმცა, როდესაც ეს შესაძლებელია და რესურსების დაზოგვის მიზნით, მონაცემები ხშირად მუშავდება იმავე სერვერზე, სადაც ინახება.

სამივე პრინციპის სტაბილური მუშაობისთვის და, შესაბამისად, დიდი მონაცემების შენახვისა და დამუშავების მაღალი ეფექტურობისთვის საჭიროა ახალი გარღვევის ტექნოლოგიები, როგორიცაა, მაგალითად, ბლოკჩეინი.

რატომ გვჭირდება დიდი მონაცემები?

დიდი მონაცემების ფარგლები მუდმივად ფართოვდება:

— დიდი მონაცემების გამოყენება შესაძლებელია მედიცინაში. ამრიგად, დიაგნოზი შეიძლება დაისვას პაციენტისთვის არა მხოლოდ პაციენტის სამედიცინო ისტორიის ანალიზის მონაცემების საფუძველზე, არამედ სხვა ექიმების გამოცდილების, პაციენტის საცხოვრებელი ადგილის გარემოსდაცვითი მდგომარეობის შესახებ ინფორმაციის გათვალისწინებით და ბევრი სხვა ფაქტორი.
— Big Data ტექნოლოგიების გამოყენება შესაძლებელია უპილოტო მანქანების გადაადგილების ორგანიზებისთვის.
— დიდი რაოდენობით მონაცემების დამუშავებით, შეგიძლიათ ამოიცნოთ სახეები ფოტოებსა და ვიდეოებში.
— Big Data ტექნოლოგიების გამოყენება შესაძლებელია საცალო ვაჭრობის მიერ - სავაჭრო კომპანიებს შეუძლიათ აქტიურად გამოიყენონ მონაცემთა ნაკრები სოციალური ქსელებიეფექტურად მოაწყოთ თქვენი სარეკლამო კამპანიები, რომლებიც მაქსიმალურად იქნება გათვლილი კონკრეტული სამომხმარებლო სეგმენტისთვის.
— ეს ტექნოლოგია აქტიურად გამოიყენება საარჩევნო კამპანიების ორგანიზებაში, მათ შორის საზოგადოებაში პოლიტიკური პრეფერენციების ანალიზში.
— Big Data ტექნოლოგიების გამოყენება რელევანტურია შემოსავლის უზრუნველყოფის (RA) კლასის გადაწყვეტილებებისთვის, რომლებიც მოიცავს შეუსაბამობების გამოვლენის ინსტრუმენტებს და მონაცემთა სიღრმისეულ ანალიზს, რაც საშუალებას იძლევა დროულად გამოავლინოს სავარაუდო დანაკარგები ან ინფორმაციის დამახინჯება, რამაც შეიძლება გამოიწვიოს ფინანსური შედეგები.
— სატელეკომუნიკაციო პროვაიდერებს შეუძლიათ დიდი მონაცემების აგრეგაცია, მათ შორის გეოლოკაცია; თავის მხრივ, ეს ინფორმაცია შეიძლება იყოს კომერციული ინტერესი სარეკლამო სააგენტოებისთვის, რომლებსაც შეუძლიათ მისი გამოყენება მიზნობრივი და ადგილობრივი რეკლამის ჩვენებისთვის, ასევე საცალო ვაჭრობისთვის და ბანკებისთვის.
— დიდ მონაცემებს შეუძლიათ მნიშვნელოვანი როლი შეასრულონ გარკვეულ ადგილას საცალო მაღაზიის გახსნის გადაწყვეტილებაში, ხალხის ძლიერი მიზნობრივი ნაკადის არსებობის შესახებ მონაცემების საფუძველზე.

ამრიგად, დიდი მონაცემთა ტექნოლოგიის ყველაზე აშკარა პრაქტიკული გამოყენება მარკეტინგის სფეროშია. ინტერნეტის განვითარებისა და ყველა სახის საკომუნიკაციო მოწყობილობის გამრავლების წყალობით, ქცევითი მონაცემები (როგორიცაა ზარების რაოდენობა, სავაჭრო ჩვევები და შესყიდვები) ხელმისაწვდომი ხდება რეალურ დროში.

დიდი მონაცემთა ტექნოლოგიები ასევე შეიძლება ეფექტურად იქნას გამოყენებული ფინანსებში, სოციოლოგიურ კვლევებში და ბევრ სხვა სფეროში. ექსპერტები ამტკიცებენ, რომ დიდი მონაცემების გამოყენების ყველა ეს შესაძლებლობა მხოლოდ აისბერგის ხილული ნაწილია, რადგან ეს ტექნოლოგიები ბევრად უფრო დიდი მოცულობით გამოიყენება დაზვერვაში და კონტრდაზვერვაში, სამხედრო საქმეებში, ისევე როგორც ყველაფერში, რასაც ჩვეულებრივ ინფორმაციულ ომს უწოდებენ.

ზოგადად, Big Data-სთან მუშაობის თანმიმდევრობა შედგება მონაცემების შეგროვებისგან, მიღებული ინფორმაციის სტრუქტურირებისგან ანგარიშებისა და დაფების გამოყენებით და შემდეგ მოქმედების რეკომენდაციების ჩამოყალიბება.

მოკლედ განვიხილოთ Big Data ტექნოლოგიების გამოყენების შესაძლებლობები მარკეტინგში. მოგეხსენებათ, მარკეტერისთვის ინფორმაცია პროგნოზირებისა და სტრატეგიის შემუშავების მთავარი ინსტრუმენტია. დიდი მონაცემების ანალიზი დიდი ხანია წარმატებით გამოიყენება დასადგენად სამიზნე აუდიტორია, მომხმარებელთა ინტერესები, მოთხოვნა და აქტივობა. დიდი მონაცემების ანალიზი, კერძოდ, შესაძლებელს ხდის რეკლამის ჩვენებას (RTB აუქციონის მოდელის საფუძველზე - Real Time Bidding) მხოლოდ იმ მომხმარებლებისთვის, რომლებიც დაინტერესებულნი არიან პროდუქტით ან სერვისით.

დიდი მონაცემების გამოყენება მარკეტინგში ბიზნესმენებს საშუალებას აძლევს:

— უკეთ გაიცანით თქვენი მომხმარებლები, მოიზიდეთ მსგავსი აუდიტორია ინტერნეტში;
— შეაფასოს მომხმარებლის კმაყოფილების ხარისხი;
— გააცნობიეროს, აკმაყოფილებს თუ არა შემოთავაზებული სერვისი მოლოდინებსა და საჭიროებებს;
— იპოვონ და განახორციელონ ახალი გზები მომხმარებელთა ნდობის გაზრდის მიზნით;
- შექმენით პროექტები, რომლებიც მოთხოვნადია და ა.შ.

მაგალითად, Google.trends სერვისს შეუძლია მარკეტერს მიუთითოს კონკრეტულ პროდუქტზე სეზონური მოთხოვნის აქტივობის პროგნოზი, რყევები და დაწკაპუნებების გეოგრაფია. თუ ამ ინფორმაციას შეადარებთ თქვენს ვებსაიტზე შესაბამისი მოდულის მიერ შეგროვებულ სტატისტიკურ მონაცემებს, შეგიძლიათ შეადგინოთ სარეკლამო ბიუჯეტის განაწილების გეგმა, მითითებით თვე, რეგიონი და სხვა პარამეტრები.

მრავალი მკვლევარის აზრით, ტრამპის საარჩევნო კამპანიის წარმატება მდგომარეობს დიდი მონაცემების სეგმენტაციასა და გამოყენებაში. აშშ-ის მომავალი პრეზიდენტის გუნდმა შეძლო სწორად დაყო აუდიტორია, გაეგო მისი სურვილები და ზუსტად ეჩვენებინა ის გზავნილი, რომლის ნახვა და მოსმენა სურს ამომრჩეველს. ამრიგად, ირინა ბელიშევას თქმით, მონაცემთა ცენტრის ალიანსიდან, ტრამპის გამარჯვება დიდწილად შესაძლებელი გახდა ინტერნეტ მარკეტინგისადმი არასტანდარტული მიდგომის წყალობით, რომელიც დაფუძნებული იყო დიდ მონაცემებზე, ფსიქოლოგიურ და ქცევით ანალიზსა და პერსონალიზებულ რეკლამაზე.

ტრამპის პოლიტიკურმა სტრატეგებმა და მარკეტოლოგებმა გამოიყენეს სპეციალურად შემუშავებული მათემატიკური მოდელი, რამაც შესაძლებელი გახადა აშშ-ს ყველა ამომრჩევლის მონაცემების ღრმა ანალიზი და მათი სისტემატიზაცია, ულტრა ზუსტი დამიზნება არა მხოლოდ გეოგრაფიული მახასიათებლებით, არამედ ამომრჩეველთა ზრახვებით, ინტერესებით. მათი ფსიქოტიპი, ქცევითი მახასიათებლები და ა.შ. ამის მისაღწევად მარკეტერებმა მოაწყეს პერსონალიზებული კომუნიკაცია მოქალაქეთა თითოეულ ჯგუფთან მათი საჭიროებების, განწყობის, პოლიტიკური შეხედულებების, ფსიქოლოგიური მახასიათებლებისა და კანის ფერის მიხედვითაც კი, გამოიყენეს საკუთარი გზავნილი თითქმის თითოეული ამომრჩევლისთვის.

რაც შეეხება ჰილარი კლინტონს, მან თავის კამპანიაში გამოიყენა „დროში გამოცდილი“ მეთოდები, რომლებიც ეფუძნება სოციოლოგიურ მონაცემებსა და სტანდარტულ მარკეტინგის, ამომრჩეველს ყოფდა მხოლოდ ფორმალურ ჰომოგენურ ჯგუფებად (კაცები, ქალები, აფროამერიკელები, ლათინოამერიკელები, ღარიბები, მდიდრები და ა.შ.). .

შედეგად, გაიმარჯვა ის, ვინც დააფასა ახალი ტექნოლოგიებისა და ანალიზის მეთოდების პოტენციალი. აღსანიშნავია, რომ ჰილარი კლინტონის საარჩევნო კამპანიის ხარჯები ორჯერ მეტი იყო, ვიდრე მისი ოპონენტი.

მონაცემები: Pew Research

დიდი მონაცემების გამოყენების ძირითადი პრობლემები

გარდა მაღალი ღირებულებისა, ერთ-ერთი მთავარი ფაქტორი, რომელიც აფერხებს დიდი მონაცემთა დანერგვას სხვადასხვა სფეროში, არის დასამუშავებელი მონაცემების არჩევის პრობლემა: ანუ იმის განსაზღვრა, თუ რომელი მონაცემების მოძიება, შენახვა და ანალიზია საჭირო და რომელი. არ იყოს გათვალისწინებული.

დიდი მონაცემების კიდევ ერთი პრობლემა ეთიკურია. სხვა სიტყვებით რომ ვთქვათ, ჩნდება ლოგიკური კითხვა: შეიძლება თუ არა მონაცემთა ამგვარი შეგროვება (განსაკუთრებით მომხმარებლის ცოდნის გარეშე) ჩაითვალოს კონფიდენციალურობის დარღვევად?

საიდუმლო არ არის, რომ ინფორმაცია ინახება საძიებო სისტემებში Google სისტემებიდა Yandex, საშუალებას აძლევს IT გიგანტებს მუდმივად გააუმჯობესონ თავიანთი სერვისები, გახადონ ისინი მოსახერხებელი და შექმნან ახალი ინტერაქტიული აპლიკაციები. ამისათვის საძიებო სისტემები აგროვებენ მომხმარებლის მონაცემებს მომხმარებლის აქტივობის შესახებ ინტერნეტში, IP მისამართები, გეოლოკაციის მონაცემები, ინტერესები და ონლაინ შესყიდვები, პერსონალური მონაცემები, ელექტრონული ფოსტის შეტყობინებები და ა.შ. ეს ყველაფერი საშუალებას გაძლევთ აჩვენოთ კონტექსტური რეკლამაინტერნეტში მომხმარებლის ქცევის შესაბამისად. ამ შემთხვევაში, მომხმარებლების თანხმობა, როგორც წესი, არ ითხოვენ ამაზე და არ არის მოცემული შესაძლებლობა აირჩიონ რა ინფორმაცია მიაწოდონ საკუთარ თავზე. ანუ ნაგულისხმევად ყველაფერი გროვდება Big Data-ში, რომელიც შემდეგ შეინახება საიტების მონაცემთა სერვერებზე.

ეს იწვევს შემდეგ მნიშვნელოვან პრობლემას მონაცემთა შენახვისა და გამოყენების უსაფრთხოებასთან დაკავშირებით. მაგალითად, არის თუ არა უსაფრთხო კონკრეტული ანალიტიკური პლატფორმა, რომელზეც მომხმარებლები ავტომატურად გადასცემენ თავიანთ მონაცემებს? გარდა ამისა, ბიზნესის მრავალი წარმომადგენელი აღნიშნავს მაღალკვალიფიციური ანალიტიკოსებისა და მარკეტინგის დეფიციტს, რომლებსაც შეუძლიათ ეფექტურად გაუმკლავდნენ დიდი მოცულობის მონაცემებს და მოაგვარონ კონკრეტული ბიზნეს პრობლემები მათი დახმარებით.

Big Data-ის განხორციელებასთან დაკავშირებული ყველა სირთულის მიუხედავად, ბიზნესი ამ სფეროში ინვესტიციების გაზრდას აპირებს. Gartner-ის კვლევის მიხედვით, Big Data-ში ინვესტირების ინდუსტრიებში ლიდერები არიან მედია, საცალო ვაჭრობა, ტელეკომი, საბანკო და მომსახურების კომპანიები.

ბლოკჩეინისა და დიდი მონაცემთა ტექნოლოგიების ურთიერთქმედების პერსპექტივები

დიდ მონაცემებთან ინტეგრაციას აქვს სინერგიული ეფექტი და ხსნის ბიზნესისთვის ახალი შესაძლებლობების ფართო სპექტრს, მათ შორის საშუალებას იძლევა:

— მიიღეთ წვდომა მომხმარებელთა პრეფერენციების შესახებ დეტალურ ინფორმაციაზე, რომლის საფუძველზეც შეგიძლიათ შექმნათ დეტალური ანალიტიკური პროფილები კონკრეტული მომწოდებლების, პროდუქტებისა და პროდუქტის კომპონენტებისთვის;
— დეტალური მონაცემების ინტეგრირება საქონლის გარკვეული ჯგუფების ტრანზაქციებისა და მოხმარების სტატისტიკის შესახებ სხვადასხვა კატეგორიის მომხმარებლების მიხედვით;
- მიიღეთ დეტალური ანალიტიკური მონაცემები მიწოდებისა და მოხმარების ჯაჭვებზე, აკონტროლეთ პროდუქტის დანაკარგები ტრანსპორტირებისას (მაგალითად, წონის დაკლება გარკვეული ტიპის საქონლის გაშრობისა და აორთქლების გამო);
— დაუპირისპირდეს პროდუქციის გაყალბებას, გაზარდოს ფულის გათეთრებისა და თაღლითობის წინააღმდეგ ბრძოლის ეფექტურობა და ა.შ.

საქონლის გამოყენებისა და მოხმარების შესახებ დეტალურ მონაცემებზე წვდომა მნიშვნელოვნად გამოავლენს Big Data ტექნოლოგიის პოტენციალს ძირითადი ბიზნეს პროცესების ოპტიმიზაციისთვის, მარეგულირებელი რისკების შესამცირებლად, მონეტიზაციის ახალი შესაძლებლობების გამოვლენისა და პროდუქტების შესაქმნელად, რომლებიც საუკეთესოდ დააკმაყოფილებს მომხმარებელთა მიმდინარე პრეფერენციებს.

როგორც ცნობილია, უმსხვილესი ფინანსური ინსტიტუტების წარმომადგენლები უკვე იჩენენ მნიშვნელოვან ინტერესს ბლოკჩეინის ტექნოლოგიის მიმართ, მათ შორის და ა.შ. შვეიცარიული ფინანსური ჰოლდინგის UBS-ის IT მენეჯერის ოლივერ ბუსმანის თქმით, ბლოკჩეინის ტექნოლოგიას შეუძლია „შეამციროს ტრანზაქციის დამუშავების დრო რამდენიმე დღიდან რამდენიმე დღამდე. წუთი“.

დიდი მონაცემთა ტექნოლოგიის გამოყენებით ბლოკჩეინიდან ანალიზის პოტენციალი უზარმაზარია. განაწილებული წიგნის ტექნოლოგია უზრუნველყოფს ინფორმაციის მთლიანობას, ასევე ტრანზაქციის მთელი ისტორიის საიმედო და გამჭვირვალე შენახვას. Big Data, თავის მხრივ, უზრუნველყოფს ახალ ინსტრუმენტებს ეფექტური ანალიზის, პროგნოზირების, ეკონომიკური მოდელირებისთვის და, შესაბამისად, ხსნის ახალ შესაძლებლობებს უფრო ინფორმირებული მენეჯმენტის გადაწყვეტილებების მისაღებად.

ბლოკჩეინისა და დიდი მონაცემების ტანდემი წარმატებით გამოიყენება ჯანდაცვის სფეროში. როგორც ცნობილია, პაციენტის ჯანმრთელობის შესახებ არასრულყოფილი და არასრული მონაცემები მნიშვნელოვნად ზრდის არასწორი დიაგნოზის და არასწორად დანიშნული მკურნალობის რისკს. სამედიცინო დაწესებულებების კლიენტების ჯანმრთელობის შესახებ კრიტიკული მონაცემები უნდა იყოს მაქსიმალურად დაცული, ჰქონდეს უცვლელობის თვისებები, იყოს გადამოწმებადი და არ უნდა ექვემდებარებოდეს რაიმე მანიპულირებას.

ბლოკჩეინში არსებული ინფორმაცია აკმაყოფილებს ყველა ზემოთ ჩამოთვლილ მოთხოვნას და შეიძლება გახდეს მაღალი ხარისხის და სანდო წყაროს მონაცემები სიღრმისეული ანალიზისთვის ახალი დიდი მონაცემთა ტექნოლოგიების გამოყენებით. გარდა ამისა, ბლოკჩეინის დახმარებით, სამედიცინო დაწესებულებებს შეეძლოთ სანდო მონაცემების გაცვლა სადაზღვევო კომპანიებთან, იუსტიციის ორგანოებთან, დამსაქმებლებთან, სამეცნიერო დაწესებულებებთან და სხვა ორგანიზაციებთან, რომლებსაც ესაჭიროებათ სამედიცინო ინფორმაცია.

დიდი მონაცემები და ინფორმაციის უსაფრთხოება

ფართო გაგებით, ინფორმაციული უსაფრთხოება არის ინფორმაციის დაცვა და დამხმარე ინფრასტრუქტურა ბუნებრივი ან ხელოვნური ხასიათის შემთხვევითი ან განზრახ უარყოფითი ზემოქმედებისგან.

ინფორმაციული უსაფრთხოების სფეროში Big Data-ის წინაშე დგას შემდეგი გამოწვევები:

— მონაცემთა დაცვისა და მათი მთლიანობის უზრუნველყოფის პრობლემები;
— გარე ჩარევისა და კონფიდენციალური ინფორმაციის გაჟონვის რისკი;
— კონფიდენციალური ინფორმაციის არასათანადო შენახვა;
- ინფორმაციის დაკარგვის რისკი, მაგალითად, ვინმეს მავნე ქმედებების გამო;
— მესამე მხარის მიერ პერსონალური მონაცემების ბოროტად გამოყენების რისკი და ა.შ.

მონაცემთა ერთ-ერთი მთავარი პრობლემა, რომლის გადასაჭრელადაც ბლოკჩეინი არის შექმნილი, მდგომარეობს ინფორმაციის უსაფრთხოების სფეროში. მისი ყველა ძირითადი პრინციპის დაცვის უზრუნველყოფით, განაწილებული ლეჯერის ტექნოლოგიას შეუძლია უზრუნველყოს მონაცემთა მთლიანობა და სანდოობა, ხოლო ერთი მარცხის წერტილის არარსებობის გამო, ბლოკჩეინი აქცევს მუშაობას სტაბილურად. საინფორმაციო სისტემები. განაწილებული წიგნის ტექნოლოგია დაგეხმარებათ მონაცემთა ნდობის პრობლემის გადაჭრაში და ასევე უზრუნველყოს ამის შესაძლებლობა უნივერსალური გაცვლამათ.

ინფორმაცია ღირებული აქტივია, რაც ნიშნავს, რომ ინფორმაციის უსაფრთხოების ძირითადი ასპექტების უზრუნველყოფა წინა პლანზე უნდა იყოს. იმისათვის, რომ გადარჩეს კონკურენცია, კომპანიებმა უნდა გააგრძელონ დრო, რაც ნიშნავს, რომ მათ არ შეუძლიათ იგნორირება გაუკეთონ პოტენციურ შესაძლებლობებსა და უპირატესობებს, რომლებსაც შეიცავს blockchain ტექნოლოგია და Big Data ინსტრუმენტები.

წინასიტყვაობა

„დიდი მონაცემები“ დღესდღეობით მოდური ტერმინია, რომელიც ჩნდება თითქმის ყველა პროფესიულ კონფერენციაზე, რომელიც ეძღვნება მონაცემთა ანალიზს, წინასწარმეტყველურ ანალიტიკას, მონაცემთა მოპოვებას, CRM-ს. ტერმინი გამოიყენება იმ სფეროებში, სადაც ხარისხობრივად დიდი მოცულობის მონაცემებთან მუშაობა აქტუალურია, სადაც მუდმივად იზრდება ორგანიზაციულ პროცესში მონაცემთა ნაკადის სიჩქარე: ეკონომიკა, საბანკო, წარმოება, მარკეტინგი, ტელეკომუნიკაცია, ვებ ანალიტიკა, მედიცინა და ა.შ.

ინფორმაციის სწრაფ დაგროვებასთან ერთად სწრაფად ვითარდება მონაცემთა ანალიზის ტექნოლოგიებიც. თუ რამდენიმე წლის წინ შესაძლებელი იყო, ვთქვათ, მომხმარებლების მხოლოდ მსგავსი პრეფერენციების მქონე ჯგუფებად დაყოფა, ახლა შესაძლებელია თითოეული მომხმარებლისთვის მოდელების შექმნა რეალურ დროში, მაგალითად, ინტერნეტში მისი მოძრაობის გაანალიზება კონკრეტულის მოსაძებნად. პროდუქტი. შესაძლებელია მომხმარებლის ინტერესების გაანალიზება და კონსტრუირებული მოდელის შესაბამისად, შესაბამისი რეკლამა ან კონკრეტული შეთავაზება. მოდელის მორგება და აღდგენა შესაძლებელია რეალურ დროში, რაც წარმოუდგენელი იყო რამდენიმე წლის წინ.

მაგალითად, ტელეკომუნიკაციების სფეროში შემუშავდა ტექნოლოგიები ფიზიკური მდებარეობის დასადგენად მობილური ტელეფონებიდა მათი მფლობელები, და როგორც ჩანს, იდეა აღწერილია 2002 წლის სამეცნიერო ფანტასტიკურ ფილმში Minority Report, სადაც სარეკლამო ინფორმაციაა ნაჩვენები სავაჭრო ცენტრებიითვალისწინებდა გამვლელი კონკრეტული პირების ინტერესებს.

ამავდროულად, არის სიტუაციები, როდესაც ახალი ტექნოლოგიებისადმი გატაცებამ შეიძლება იმედგაცრუება გამოიწვიოს. მაგალითად, ზოგჯერ მწირი მონაცემები ( მწირი მონაცემები), რომლებიც იძლევა რეალობის მნიშვნელოვან ხედვას, ბევრად უფრო ღირებულია ვიდრე დიდი მონაცემები(დიდი მონაცემები), რომელიც აღწერს მთებს, ხშირად არ შეიცავს არსებით ინფორმაციას.

ამ სტატიის მიზანია გარკვევა და ასახვა Big Data-ის ახალი შესაძლებლობების შესახებ და იმის ილუსტრირება, თუ როგორია ანალიტიკური პლატფორმა სტატისტიკა StatSoft დაგეხმარებათ ეფექტურად გამოიყენოთ დიდი მონაცემები პროცესების ოპტიმიზაციისა და პრობლემების გადასაჭრელად.

რამდენად დიდია დიდი მონაცემები?

რა თქმა უნდა, ამ კითხვაზე სწორი პასუხი უნდა იყოს "ეს დამოკიდებულია ..."

თანამედროვე დისკუსიებში დიდი მონაცემების კონცეფცია აღწერილია, როგორც მონაცემები ტერაბაიტების რიგითობით.

პრაქტიკაში (თუ ჩვენ ვსაუბრობთ გიგაბაიტებზე ან ტერაბაიტებზე), ასეთი მონაცემების შენახვა და მართვა მარტივია „ტრადიციული“ მონაცემთა ბაზებისა და სტანდარტული აპარატურის (მონაცემთა ბაზის სერვერების) გამოყენებით.

პროგრამული უზრუნველყოფა სტატისტიკაიყენებს მრავალძახიან ტექნოლოგიას ალგორითმებისთვის მონაცემთა წვდომის (კითხვის), ტრანსფორმაციისა და პროგნოზირებადი (და ქულის მინიჭების) მოდელების შესაქმნელად, ამიტომ მონაცემთა ასეთი ნიმუშები ადვილად შეიძლება გაანალიზდეს და არ საჭიროებს სპეციალიზებულ ინსტრუმენტებს.

ზოგიერთი მიმდინარე StatSoft პროექტი ამუშავებს ნიმუშებს 9-12 მილიონი რიგის მიხედვით. მოდით გავამრავლოთ ისინი 1000 პარამეტრზე (ცვლადზე), შეგროვებული და ორგანიზებული მონაცემთა საწყობში რისკის ან პროგნოზირებადი მოდელების შესაქმნელად. ამ ტიპის ფაილი იქნება "მხოლოდ" დაახლოებით 100 გიგაბაიტის ზომა. ეს, რა თქმა უნდა, არ არის მცირე მონაცემთა საწყობი, მაგრამ მისი ზომა არ აღემატება მონაცემთა ბაზის სტანდარტული ტექნოლოგიის შესაძლებლობებს.

პროდუქტის ხაზი სტატისტიკასერიული ანალიზისთვის და ქულების მოდელების მშენებლობისთვის ( სტატისტიკის საწარმო), რეალურ დროში გადაწყვეტილებები ( STATISTICA ცოცხალი ანგარიში) და ანალიტიკური ინსტრუმენტები მოდელების შექმნისა და მართვისთვის ( STATISTICA Data Miner, გადაწყვეტილების მიღება) ადვილად მასშტაბირებს მრავალ სერვერზე მრავალბირთვიანი პროცესორებით.

პრაქტიკაში, ეს ნიშნავს, რომ ანალიტიკური მოდელების საკმარისი სიჩქარე (მაგალითად, პროგნოზები საკრედიტო რისკთან დაკავშირებით, თაღლითობის ალბათობა, აღჭურვილობის კომპონენტების საიმედოობა და ა. სტატისტიკა.

დიდი მოცულობის მონაცემებიდან დიდ მონაცემებამდე

როგორც წესი, დიდი მონაცემთა ცენტრის დისკუსიები მონაცემთა საწყობების ირგვლივ (და ანალიზი ასეთ საწყობებზე), რომლებიც ბევრად აღემატება რამდენიმე ტერაბაიტს.

კერძოდ, ზოგიერთი მონაცემთა საწყობი შეიძლება გაიზარდოს ათასობით ტერაბაიტამდე, ანუ პეტაბაიტამდე (1000 ტერაბაიტი = 1 პეტაბაიტი).

პეტაბაიტების გარდა, მონაცემთა დაგროვება შეიძლება გაიზომოს ექსაბიტებში, მაგალითად, წარმოების სექტორში მთელ მსოფლიოში, 2010 წელს შეფასდა, რომ სულ 2 ეგბაიტი ახალი ინფორმაცია დაგროვდა (Manyika et al., 2011).

არის ინდუსტრიები, სადაც მონაცემები გროვდება და გროვდება ძალიან ინტენსიურად.

მაგალითად, საწარმოო გარემოში, როგორიცაა ელექტროსადგური, წარმოიქმნება მონაცემთა უწყვეტი ნაკადი, ზოგჯერ ათიათასობით პარამეტრზე, ყოველ წუთში ან თუნდაც ყოველ წამში.

გარდა ამისა, ბოლო რამდენიმე წლის განმავლობაში დაინერგა ეგრეთ წოდებული „ჭკვიანი ქსელის“ ტექნოლოგიები, რომლებიც კომუნალურ კომპანიებს საშუალებას აძლევს გაზომონ ცალკეული ოჯახების ელექტროენერგიის მოხმარება ყოველ წუთში ან ყოველ წამში.

ამ ტიპის აპლიკაციისთვის, სადაც მონაცემები წლების განმავლობაში უნდა იყოს შენახული, დაგროვილი მონაცემები კლასიფიცირდება როგორც უკიდურესად დიდი მონაცემები.

ასევე იზრდება დიდი მონაცემთა აპლიკაციების რაოდენობა კომერციულ და სამთავრობო სექტორებს შორის, სადაც მონაცემთა მოცულობა შეიძლება იყოს ასობით ტერაბაიტი ან პეტაბაიტი.

თანამედროვე ტექნოლოგიები შესაძლებელს ხდის ადამიანებისა და მათი ქცევის სხვადასხვა გზით „თვალყურედება“. მაგალითად, როდესაც ვიყენებთ ინტერნეტს, ვიყიდით ონლაინ მაღაზიებში ან დიდი ქსელებიმაღაზიები, როგორიცაა Walmart (ვიკიპედიის მიხედვით, Walmart-ის მონაცემთა შენახვა 2 პეტაბაიტზე მეტია) ან გადაადგილება მობილური ტელეფონები- ჩვენი ქმედებების კვალს ვტოვებთ, რაც ახალი ინფორმაციის დაგროვებას იწვევს.

კომუნიკაციის სხვადასხვა მეთოდი, მარტივი სატელეფონო ზარებიდან ინფორმაციის ატვირთვამდე სოციალური ქსელების საშუალებით, როგორიცაა Facebook (ვიკიპედიის მიხედვით, ინფორმაციის გაცვლა ხდება ყოველთვიურად 30 მილიარდად), ან ვიდეოების გაზიარება ისეთ საიტებზე, როგორიცაა YouTube (Youtube აცხადებს, რომ ის ატვირთავს 24 საათის განმავლობაში. ვიდეოს ყოველ წუთში იხილეთ ვიკიპედია), ყოველდღიურად აწარმოებს უზარმაზარ ახალ მონაცემებს.

ანალოგიურად, თანამედროვე სამედიცინო ტექნოლოგიები წარმოქმნის დიდი რაოდენობით მონაცემებს, რომლებიც დაკავშირებულია ჯანდაცვის მიწოდებასთან (სურათები, ვიდეოები, რეალურ დროში მონიტორინგი).

ამრიგად, მონაცემთა მოცულობის კლასიფიკაცია შეიძლება წარმოდგენილი იყოს შემდეგნაირად:

მონაცემთა დიდი ნაკრები: 1000 მეგაბაიტიდან (1 გიგაბაიტი) ასობით გიგაბაიტამდე

მონაცემთა უზარმაზარი ნაკრები: 1000 გიგაბაიტიდან (1 ტერაბაიტი) რამდენიმე ტერაბაიტამდე

დიდი მონაცემები: რამდენიმე ტერაბაიტიდან ასობით ტერაბაიტამდე

უკიდურესად დიდი მონაცემები: 1000-დან 10000 ტერაბაიტამდე = 1-დან 10 პეტაბაიტამდე

დიდ მონაცემებთან დაკავშირებული ამოცანები

არსებობს სამი სახის დავალება, რომლებიც დაკავშირებულია დიდ მონაცემებთან:

1. შენახვა და მართვა

ასობით ტერაბაიტი ან პეტაბაიტი მონაცემთა ადვილად შენახვა და მართვა შეუძლებელია ტრადიციული გამოყენებით ურთიერთობითი ბაზებიმონაცემები.

2. არასტრუქტურირებული ინფორმაცია

დიდი მონაცემების უმეტესობა არასტრუქტურირებულია. იმათ. როგორ შეგიძლიათ მოაწყოთ ტექსტი, ვიდეო, სურათები და ა.შ.

3. დიდი მონაცემთა ანალიზი

როგორ გავაანალიზოთ არასტრუქტურირებული ინფორმაცია? როგორ შევქმნათ მარტივი ანგარიშები დიდ მონაცემებზე დაყრდნობით, ავაშენოთ და დანერგოთ სიღრმისეული პროგნოზირების მოდელები?

დიდი მონაცემთა შენახვა და მართვა

დიდი მონაცემები ჩვეულებრივ ინახება და ორგანიზებულია განაწილებულ ფაილურ სისტემებში.

ზოგადად, ინფორმაცია ინახება რამდენიმე (ზოგჯერ ათასობით) მყარი დისკებისტანდარტულ კომპიუტერებზე.

ეგრეთ წოდებული „რუკა“ ინახავს სად (რომელ კომპიუტერზე და/ან დისკზე) ინახება კონკრეტული ინფორმაცია.

შეცდომების ტოლერანტობისა და სანდოობის უზრუნველსაყოფად, თითოეული ინფორმაცია ჩვეულებრივ ინახება რამდენჯერმე, მაგალითად სამჯერ.

მაგალითად, ვთქვათ, თქვენ შეაგროვეთ ინდივიდუალური ტრანზაქციები მაღაზიების დიდი საცალო ქსელიდან. დეტალური ინფორმაციათითოეული ტრანზაქცია შეინახება სხვადასხვა სერვერებზე და მყარ დისკზე, ხოლო „რუკა“ მიუთითებს, სადაც ზუსტად ინახება ინფორმაცია შესაბამისი ტრანზაქციის შესახებ.

სტანდარტული აღჭურვილობის გამოყენებით და ღია პროგრამული უზრუნველყოფაამ განაწილებული ფაილური სისტემის სამართავად (მაგალითად, ჰადოპ), შედარებით მარტივია სანდო მონაცემთა საწყობების დანერგვა პეტაბაიტის მასშტაბით.

არასტრუქტურირებული ინფორმაცია

განაწილებულ ფაილურ სისტემაში შეგროვებული ინფორმაციის უმეტესობა შედგება არასტრუქტურირებული მონაცემებისგან, როგორიცაა ტექსტი, სურათები, ფოტოები ან ვიდეოები.

ამას აქვს თავისი დადებითი და უარყოფითი მხარეები.

უპირატესობა ის არის, რომ დიდი მონაცემების შენახვის შესაძლებლობა საშუალებას გაძლევთ შეინახოთ „ყველა მონაცემი“ ისე, რომ არ იფიქროთ იმაზე, თუ რომელი ნაწილია შესაბამისი შემდგომი ანალიზისა და გადაწყვეტილების მისაღებად.

მინუსი არის ის, რომ ასეთ შემთხვევებში, ამონაწერი სასარგებლო ინფორმაციასაჭიროა ამ უზარმაზარი რაოდენობის მონაცემების შემდგომი დამუშავება.

მიუხედავად იმისა, რომ ზოგიერთი ოპერაცია შეიძლება იყოს მარტივი (მაგ. მარტივი გამოთვლები და ა.შ.), სხვები საჭიროებენ უფრო რთულ ალგორითმებს, რომლებიც სპეციალურად უნდა იყოს შემუშავებული, რათა ეფექტურად იმუშაონ განაწილებულ ფაილურ სისტემაზე.

ერთხელ აღმასრულებელმა განუცხადა StatSoft-ს, რომ მან „დიდი ფული დახარჯა IT-სა და მონაცემთა შენახვაზე და ჯერ კიდევ არ დაუწყია ფულის გამომუშავება“, რადგან არ უფიქრია იმაზე, თუ როგორ გამოიყენოს ეს მონაცემები საუკეთესოდ ძირითადი ბიზნესის გასაუმჯობესებლად.

ამრიგად, მიუხედავად იმისა, რომ მონაცემთა მოცულობა შეიძლება გაიზარდოს ექსპონენტურად, ინფორმაციის მოპოვებისა და ამ ინფორმაციაზე მოქმედების შესაძლებლობა შეზღუდულია და ასიმპტომურად მიაღწევს ლიმიტს.

მნიშვნელოვანია, რომ შეიქმნას, მოდელების განახლებისა და გადაწყვეტილების მიღების ავტომატიზირებული მეთოდები და პროცედურები მონაცემთა შენახვის სისტემებთან ერთად შემუშავდეს, რათა უზრუნველყოს ასეთი სისტემების სასარგებლო და მომგებიანი საწარმოსთვის.

დიდი მონაცემთა ანალიზი

ეს არის მართლაც დიდი პრობლემა არასტრუქტურირებული დიდი მონაცემების ანალიტიკასთან: როგორ გავაანალიზოთ ის სასარგებლო. შესახებ ამ საკითხსგაცილებით ნაკლები დაიწერა მონაცემთა შენახვისა და დიდი მონაცემთა მართვის ტექნოლოგიების შესახებ.

გასათვალისწინებელია მთელი რიგი საკითხები.

რუკა-შემცირება

ასობით ტერაბაიტი ან პეტაბაიტი მონაცემების გაანალიზებისას შეუძლებელია მონაცემების სხვა ადგილას ამოღება ანალიზისთვის (მაგალითად, STATISTICA Enterprise Analysis სერვერი).

არხების მეშვეობით მონაცემების ცალკე სერვერზე ან სერვერებზე (პარალელური დამუშავებისთვის) გადაცემის პროცესი ძალიან დიდ დროს მიიღებს და ძალიან დიდ ტრაფიკს მოითხოვს.

ამის ნაცვლად, ანალიტიკური გამოთვლები უნდა განხორციელდეს ფიზიკურად ახლოს, სადაც მონაცემები ინახება.

Map-Reduce ალგორითმი არის მოდელი განაწილებული გამოთვლებისთვის. მისი მოქმედების პრინციპი ასეთია: შეყვანის მონაცემები ნაწილდება განაწილებულის სამუშაო კვანძებზე (ინდივიდუალურ კვანძებზე). ფაილური სისტემაწინასწარ დამუშავებისთვის (რუკის ნაბიჯი) და შემდეგ უკვე წინასწარ დამუშავებული მონაცემების კონვოლუცია (შერწყმა) (შემცირების ნაბიჯი).

ასე რომ, ვთქვათ, საბოლოო ჯამის გამოსათვლელად, ალგორითმი გამოთვლის ქვეჯამებს პარალელურად განაწილებული ფაილური სისტემის თითოეულ კვანძზე და შემდეგ შეაჯამებს ამ ქვეჯამებს.

ინტერნეტში არის უზარმაზარი ინფორმაცია იმის შესახებ, თუ როგორ შეგიძლიათ განახორციელოთ სხვადასხვა გამოთვლები რუქის შემცირების მოდელის გამოყენებით, მათ შორის პროგნოზირებადი ანალიტიკისთვის.

მარტივი სტატისტიკა, ბიზნეს დაზვერვა (BI)

მარტივი BI ანგარიშების შესაქმნელად, არსებობს მრავალი ღია კოდის პროდუქტი, რომელიც საშუალებას გაძლევთ გამოთვალოთ ჯამები, საშუალოები, პროპორციები და ა.შ. რუკის შემცირების გამოყენებით.

ეს ძალიან აადვილებს ზუსტი დათვლის და სხვა მარტივი სტატისტიკის მიღებას მოხსენებისთვის.

პროგნოზირებადი მოდელირება, მოწინავე სტატისტიკა

ერთი შეხედვით, შეიძლება ჩანდეს, რომ განაწილებულ ფაილურ სისტემაში პროგნოზირებადი მოდელების შექმნა უფრო რთულია, მაგრამ ეს ასე არ არის. განვიხილოთ მონაცემთა ანალიზის წინასწარი ეტაპები.

მონაცემთა მომზადება. რამდენიმე ხნის წინ, StatSoft-მა განახორციელა მთელი რიგი მსხვილი და წარმატებული პროექტები, რომლებიც მოიცავდა მონაცემთა ძალიან დიდ კომპლექტს, რომელიც აღწერს წუთ-წუთში ელექტროსადგურის პროცესის შესრულებას. ანალიზის მიზანი იყო ქარხნის ეფექტურობის გაუმჯობესება და ემისიების შემცირება (ელექტრო ენერგიის კვლევის ინსტიტუტი, 2009 წ.).

მნიშვნელოვანია, რომ, მიუხედავად იმისა, რომ მონაცემთა ნაკრები შეიძლება იყოს ძალიან დიდი, მათში შემავალი ინფორმაცია გაცილებით მცირე ზომისაა.

მაგალითად, სანამ მონაცემები გროვდება ყოველ წამში ან ყოველ წუთში, ბევრი პარამეტრი (გაზის და ღუმელის ტემპერატურა, ნაკადები, დემპერის პოზიციები და ა.შ.) რჩება სტაბილური ხანგრძლივი დროის ინტერვალებით. სხვა სიტყვებით რომ ვთქვათ, ყოველ წამში ჩაწერილი მონაცემები ძირითადად ერთი და იგივე ინფორმაციის გამეორებაა.

ამრიგად, აუცილებელია მონაცემთა "ჭკვიანი" აგრეგაცია, მოდელირებისა და ოპტიმიზაციის მონაცემების მოპოვება, რომელიც შეიცავს მხოლოდ აუცილებელ ინფორმაციას დინამიური ცვლილებების შესახებ, რომლებიც გავლენას ახდენენ ელექტროსადგურის ეფექტურობაზე და ემისიების რაოდენობაზე.

ტექსტის კლასიფიკაცია და მონაცემთა წინასწარი დამუშავება. მოდით, კიდევ ერთხელ ავღნიშნოთ, თუ როგორ შეიძლება დიდი მონაცემთა ნაკრები შეიცავდეს ბევრად ნაკლებ სასარგებლო ინფორმაციას.

მაგალითად, StatSoft ჩართული იყო ტვიტების ტექსტის მოპოვებასთან დაკავშირებულ პროექტებში, რომლებიც ასახავს რამდენად კმაყოფილი არიან მგზავრები ავიაკომპანიებით და მათი მომსახურებით.

მიუხედავად იმისა, რომ დიდი რაოდენობით შესაბამისი ტვიტები იღებებოდა საათობრივად და ყოველდღიურად, გამოხატული სენტიმენტები საკმაოდ მარტივი და ერთფეროვანი იყო. შეტყობინებების უმეტესობა არის საჩივრები და მოკლე ერთი წინადადება „ცუდი გამოცდილების“ შესახებ. უფრო მეტიც, ამ სენტიმენტების რაოდენობა და „სიძლიერე“ შედარებით სტაბილურია დროთა განმავლობაში და კონკრეტულ საკითხებში (მაგ. დაკარგული ბარგი, ცუდი საკვები, ფრენის გაუქმება).

ამგვარად, რეალური ტვიტების დაქვეითება მალე (ქულის) სენტიმენტამდე ტექსტის მოპოვების ტექნიკის გამოყენებით (როგორიცაა STATISTICA ტექსტის მაინერი) იწვევს მონაცემთა გაცილებით მცირე რაოდენობას, რომელიც შემდეგ შეიძლება ადვილად დაემთხვეს არსებულ სტრუქტურირებულ მონაცემებს (ბილეთების გაყიდვები ან ხშირი ფრენების ინფორმაცია). ანალიზი საშუალებას გაძლევთ დაყოთ მომხმარებლები ჯგუფებად და შეისწავლოთ მათი ტიპიური საჩივრები.

არსებობს მრავალი ინსტრუმენტი ამ მონაცემთა აგრეგაციის შესასრულებლად (როგორიცაა განწყობის ქულები) განაწილებულ ფაილურ სისტემაზე, რაც ამ ანალიტიკური პროცესის განხორციელებას მარტივს ხდის.

შენობის მოდელები

ხშირად გამოწვევაა განაწილებულ ფაილურ სისტემაში შენახული მონაცემების ზუსტი მოდელების სწრაფად შექმნა.

არსებობს რუქის შემცირების დანერგვა მონაცემთა მოპოვების/პროგნოზირებადი ანალიტიკის სხვადასხვა ალგორითმებისთვის, რომლებიც შესაფერისია მონაცემთა ფართომასშტაბიანი პარალელური დამუშავებისთვის განაწილებულ ფაილურ სისტემაზე (რომლის მხარდაჭერა შესაძლებელია პლატფორმის გამოყენებით სტატისტიკა StatSoft).

თუმცა, ზუსტად იმის გამო, რომ თქვენ დაამუშავეთ ასეთი დიდი რაოდენობით მონაცემები, დარწმუნებული ხართ, რომ მიღებული მოდელი ნამდვილად უფრო ზუსტია?

სინამდვილეში, სავარაუდოდ უფრო მოსახერხებელია მონაცემთა მცირე სეგმენტებისთვის მოდელების შექმნა განაწილებულ ფაილურ სისტემაზე.

როგორც Forrester-ის ბოლო მოხსენებაში ნათქვამია, „ორ პლუს ორი უდრის 3.9-ს, როგორც წესი, საკმაოდ კარგია“ (Hopkins & Evelson, 2011).

სტატისტიკური და მათემატიკური სიზუსტე მდგომარეობს იმაში, რომ მოდელი ხაზოვანი რეგრესია, მათ შორის, მაგალითად, 10 პროგნოზირს, რომელიც დაფუძნებულია სწორად შედგენილზე ალბათობის შერჩევა 100 000 დაკვირვებიდან ისეთივე ზუსტი იქნება, როგორც 100 მილიონ დაკვირვებაზე აგებული მოდელი.

ერთ დროს გავიგე ტერმინი "დიდი მონაცემები" გერმანული გრეფისგან (სბერბანკის ხელმძღვანელი). ისინი ამბობენ, რომ ახლა აქტიურად მუშაობენ განხორციელებაზე, რადგან ეს მათ დაეხმარება თითოეულ კლიენტთან მუშაობის დროის შემცირებაში.

მეორედ შემხვდა ეს კონცეფცია კლიენტის ონლაინ მაღაზიაში, რომელზედაც ჩვენ ვმუშაობდით და ასორტიმენტს რამდენიმე ათასიდან რამდენიმე ათეულ ათას პროდუქტამდე ვზრდიდით.

მესამედ დავინახე, რომ Yandex მოითხოვდა დიდი მონაცემების ანალიტიკოსს. შემდეგ გადავწყვიტე ჩავუღრმავდე ამ თემას და ამავდროულად დავწერო სტატია, რომელიც მოგვითხრობს, თუ როგორი ტერმინი აღელვებს TOP მენეჯერებს და ინტერნეტ სივრცეს.

რა არის

მე ჩვეულებრივ ვიწყებ ჩემს ნებისმიერ სტატიას განმარტებით, თუ რა არის ეს ტერმინი. ეს სტატია არ იქნება გამონაკლისი.

თუმცა, ეს გამოწვეულია, პირველ რიგში, არა იმით, რომ ვაჩვენო, რამდენად ჭკვიანი ვარ, არამედ ის, რომ თემა მართლაც რთულია და მოითხოვს ფრთხილად ახსნას.

მაგალითად, შეგიძლიათ წაიკითხოთ რა არის დიდი მონაცემები ვიკიპედიაზე, ვერაფერი გაიგოთ და შემდეგ დაუბრუნდეთ ამ სტატიას, რომ მაინც გაიგოთ განმარტება და გამოყენებადობა ბიზნესისთვის. ასე რომ, დავიწყოთ აღწერით, შემდეგ კი ბიზნესის მაგალითებით.

დიდი მონაცემები დიდი მონაცემებია. საოცარია, არა? სინამდვილეში, ეს ინგლისურიდან ითარგმნება როგორც "დიდი მონაცემები". მაგრამ ეს განმარტება, შეიძლება ითქვას, არის დუმებისთვის.

დიდი მონაცემთა ტექნოლოგია– არის დამუშავების მიდგომა/მეთოდი მეტიმონაცემები ახალი ინფორმაციის მისაღებად, რომლის დამუშავება რთულია ჩვეულებრივი გზებით.

მონაცემები შეიძლება იყოს დამუშავებული (სტრუქტურირებული) ან გაფანტული (ანუ არასტრუქტურირებული).

თავად ტერმინი შედარებით ცოტა ხნის წინ გამოჩნდა. 2008 წელს, სამეცნიერო ჟურნალმა იწინასწარმეტყველა, რომ ეს მიდგომა აუცილებელი იყო ინფორმაციის დიდი მოცულობისთვის, რომელიც ექსპონენტურად იზრდება.

მაგალითად, ყოველწლიურად ინტერნეტში არსებული ინფორმაცია, რომელიც შესანახად და, რა თქმა უნდა, დამუშავებას საჭიროებს, 40%-ით იზრდება. კიდევ ერთხელ: +40% ახალი ინფორმაცია ყოველწლიურად ჩნდება ინტერნეტში.

თუ დაბეჭდილი დოკუმენტები ნათელია და მათი დამუშავების მეთოდებიც გასაგებია (გადაცემა ელექტრონული ხედი, ჩაკერეთ ერთ საქაღალდეში, ნომერში), შემდეგ რა უნდა გააკეთოს იმ ინფორმაციას, რომელიც წარმოდგენილია სრულიად განსხვავებულ „მედიაში“ და სხვა ტომებში:

ინტერნეტ დოკუმენტები;
ბლოგები და სოციალური ქსელები;
აუდიო/ვიდეო წყაროები;
საზომი მოწყობილობები.

არსებობს მახასიათებლები, რომლებიც საშუალებას იძლევა ინფორმაციისა და მონაცემების კლასიფიცირება, როგორც დიდი მონაცემები. ანუ, ყველა მონაცემი შეიძლება არ იყოს შესაფერისი ანალიტიკისთვის. ეს მახასიათებლები ზუსტად შეიცავს დიდი მონაცემების ძირითად კონცეფციას. ისინი ყველა ჯდება სამ Vs.

მოცულობა(ინგლისური ტომიდან). მონაცემები იზომება გასაანალიზებელი „დოკუმენტის“ ფიზიკური მოცულობის მიხედვით;
სიჩქარე(ინგლისური სიჩქარედან). მონაცემები არ დგას მის განვითარებაში, მაგრამ მუდმივად იზრდება, რის გამოც შედეგების მისაღებად საჭიროა მისი სწრაფი დამუშავება;
მრავალმხრივი(ინგლისური ჯიშიდან). მონაცემები შეიძლება არ იყოს იგივე ფორმატის. ანუ, ისინი შეიძლება იყოს გაფანტული, სტრუქტურირებული ან ნაწილობრივ სტრუქტურირებული.

თუმცა, დროდადრო VVV-ს ემატება მეოთხე V (სინამდვილე) და მეხუთე V (ზოგიერთ შემთხვევაში ეს სიცოცხლისუნარიანობაა, ზოგ შემთხვევაში კი ღირებულება).

სადღაც ვნახე 7V, რომელიც ახასიათებს დიდ მონაცემებთან დაკავშირებულ მონაცემებს. მაგრამ ჩემი აზრით, ეს არის სერიიდან (სადაც პერიოდულად ემატება P-ები, თუმცა საწყისი 4 საკმარისია გასაგებად).

ჩვენ უკვე 29000-ზე მეტი ვართ.
ჩართეთ

ვისაც სჭირდება

ჩნდება ლოგიკური კითხვა: როგორ შეგიძლიათ გამოიყენოთ ინფორმაცია (თუ რამეა, დიდი მონაცემები ასობით და ათასობით ტერაბაიტია)?

ეს კი არა. აქ არის ინფორმაცია. მაშინ რატომ გამოიგონეს დიდი პაემანი? რა არის დიდი მონაცემების გამოყენება მარკეტინგისა და ბიზნესში?

ჩვეულებრივი მონაცემთა ბაზები ვერ ინახავს და ამუშავებს (ახლა ანალიტიკაზე კი არ ვსაუბრობ, არამედ უბრალოდ შენახვას და დამუშავებას) უზარმაზარი ინფორმაციის.
დიდი მონაცემები წყვეტს ამ მთავარ პრობლემას. წარმატებით ინახავს და მართავს დიდი მოცულობის ინფორმაციას;
აყალიბებს ინფორმაციას სხვადასხვა წყაროდან (ვიდეო, სურათები, აუდიო და ტექსტური დოკუმენტები), ერთ, გასაგებ და მოსანელებელ ფორმად;
ანალიტიკის გენერირება და ზუსტი პროგნოზების შექმნა სტრუქტურირებული და დამუშავებული ინფორმაციის საფუძველზე.

რთულია. მარტივად რომ ვთქვათ, ნებისმიერ მარკეტერს, რომელსაც ესმის, რომ თუ შეისწავლით დიდი რაოდენობით ინფორმაციას (თქვენს შესახებ, თქვენი კომპანიის, თქვენი კონკურენტების, თქვენი ინდუსტრიის შესახებ), შეგიძლიათ მიიღოთ ძალიან ღირსეული შედეგები:

თქვენი კომპანიისა და თქვენი ბიზნესის სრული გაგება რიცხვების მხრიდან;
შეისწავლეთ თქვენი კონკურენტები. და ეს, თავის მხრივ, შესაძლებელს გახდის მათზე გაბატონებით წინსვლას;
შეიტყვეთ ახალი ინფორმაცია თქვენი კლიენტების შესახებ.

და ზუსტად იმის გამო, რომ დიდი მონაცემთა ტექნოლოგია იძლევა შემდეგ შედეგებს, ყველა ჩქარობს მას. ისინი ცდილობენ ამ ბიზნესის ჩართვას თავიანთ კომპანიაში, რათა გაიზარდონ გაყიდვები და შეამცირონ ხარჯები. და თუ კონკრეტულად, მაშინ:

ჯვარედინი გაყიდვებისა და დამატებითი გაყიდვების გაზრდა მომხმარებელთა პრეფერენციების უკეთესი ცოდნის გამო;
მოძებნეთ პოპულარული პროდუქტები და მიზეზები, რის გამოც ადამიანები ყიდულობენ მათ (და პირიქით);
პროდუქტის ან მომსახურების გაუმჯობესება;
მომსახურების დონის ამაღლება;
ლოიალობისა და მომხმარებელთა ფოკუსირების გაზრდა;
თაღლითობის პრევენცია (უფრო აქტუალურია საბანკო სექტორისთვის);
არასაჭირო ხარჯების შემცირება.

ყველაზე გავრცელებული მაგალითი, რომელიც მოცემულია ყველა წყაროში, არის, რა თქმა უნდა, Apple კომპანია, რომელიც აგროვებს მონაცემებს თავისი მომხმარებლების შესახებ (ტელეფონი, საათი, კომპიუტერი).

ეს არის ეკოსისტემის არსებობის გამო, რომ კორპორაციამ იცის ამდენი თავისი მომხმარებლების შესახებ და შემდგომში იყენებს ამას მოგების მისაღებად.

ამ და გამოყენების სხვა მაგალითები შეგიძლიათ წაიკითხოთ ნებისმიერ სხვა სტატიაში, გარდა ამ სტატიისა.

თანამედროვე მაგალითი

სხვა პროექტზე მოგიყვებით. უფრო სწორად, ადამიანის შესახებ, რომელიც აშენებს მომავალს დიდი მონაცემთა გადაწყვეტილებების გამოყენებით.

ეს არის ელონ მასკი და მისი კომპანია Tesla. მისი მთავარი ოცნებაა მანქანების ავტონომია გახადოს, ანუ ჩაჯდე საჭესთან, ჩართო ავტოპილოტი მოსკოვიდან ვლადივოსტოკამდე და... დაიძინო, რადგან მანქანის ტარება საერთოდ არ გჭირდება, რადგან ასე იქნება. ყველაფერი თავისთავად.

ფანტასტიკური ჩანდა? მაგრამ არა! უბრალოდ, ილონი ბევრად უფრო ბრძნულად მოიქცა, ვიდრე Google, რომელიც აკონტროლებს მანქანებს ათობით თანამგზავრის გამოყენებით. და ის სხვა გზით წავიდა:

ყველა გაყიდული მანქანა აღჭურვილია კომპიუტერით, რომელიც აგროვებს ყველა ინფორმაციას.
ყველა - ეს ნიშნავს ყველაფერს. მძღოლის შესახებ, მისი მართვის სტილი, მის ირგვლივ გზები, სხვა მანქანების მოძრაობა. ასეთი მონაცემების მოცულობა საათში 20-30 გბ-ს აღწევს;
ეს ინფორმაცია შემდეგ გადაეცემა სატელიტური კომუნიკაციის საშუალებით ცენტრალური კომპიუტერივინ ამუშავებს ამ მონაცემებს;
დამუშავებული დიდი მონაცემების საფუძველზე ამ კომპიუტერს, შენდება უპილოტო მანქანის მოდელი.

სხვათა შორის, თუ Google საკმაოდ ცუდად მუშაობს და მათი მანქანები გამუდმებით ხვდებიან ავარიაში, მაშინ მასკი, იმის გამო, რომ ის დიდ მონაცემებთან მუშაობს, ბევრად უკეთესად მუშაობს, რადგან სატესტო მოდელები ძალიან კარგ შედეგებს აჩვენებს.

მაგრამ... ეს ყველაფერი ეკონომიკაშია. ჩვენ რა მოგება გვაქვს, მაგრამ მოგებაზე? ბევრი რამ, რისი გადაწყვეტაც დიდმა თარიღმა შეიძლება, სრულიად არ არის დაკავშირებული მოგებასთან და ფულთან.

გუგლის სტატისტიკა, დიდ მონაცემებზე დაყრდნობით, საინტერესო რამეს აჩვენებს.

სანამ ექიმები გამოაცხადებენ დაავადების ეპიდემიის დაწყებას კონკრეტულ რეგიონში, ამ რეგიონში მოსახლეობის რაოდენობა მნიშვნელოვნად იზრდება. საძიებო მოთხოვნებიამ დაავადების მკურნალობის შესახებ.

ამრიგად, მონაცემთა სწორად შესწავლას და მათ ანალიზს შეუძლია შექმნას პროგნოზები და იწინასწარმეტყველოს ეპიდემიის დაწყება (და, შესაბამისად, მისი პრევენცია) ბევრად უფრო სწრაფად, ვიდრე ოფიციალური ორგანოების დასკვნა და მათი ქმედებები.

განაცხადი რუსეთში

თუმცა, რუსეთი, როგორც ყოველთვის, ოდნავ ანელებს. ამრიგად, რუსეთში დიდი მონაცემების განმარტება გამოჩნდა არაუმეტეს 5 წლის წინ (მე ახლა ვსაუბრობ ჩვეულებრივ კომპანიებზე).

და ეს იმისდა მიუხედავად, რომ ეს არის ერთ-ერთი ყველაზე სწრაფად მზარდი ბაზარი მსოფლიოში (ნარკოტიკები და იარაღი ნერვიულად ეწევა გვერდით), რადგან ყოველწლიურად დიდი მონაცემების შეგროვებისა და ანალიზისთვის პროგრამული უზრუნველყოფის ბაზარი იზრდება 32% -ით.

რუსეთში დიდი მონაცემების ბაზრის დასახასიათებლად, მახსოვს ერთი ძველი ხუმრობა. დიდი პაემანი 18 წლის გახდეთ სექსს ჰგავს. ყველა საუბრობს ამაზე, ირგვლივ ბევრი აჟიოტაჟია და მცირე რეალური ქმედება და ყველას რცხვენია აღიაროს, რომ თვითონ არ აკეთებს ამას. მართლაც, ბევრი აჟიოტაჟია ამის ირგვლივ, მაგრამ ცოტა რეალური ქმედება.

მიუხედავად იმისა, რომ ცნობილმა კვლევითმა კომპანიამ Gartner-მა უკვე 2015 წელს გამოაცხადა, რომ დიდი მონაცემები აღარ არის მზარდი ტენდენცია (როგორც, სხვათა შორის, ხელოვნური ინტელექტი), არამედ სრულიად დამოუკიდებელი ინსტრუმენტები მოწინავე ტექნოლოგიების ანალიზისა და განვითარებისთვის.

ყველაზე აქტიური ნიშები, სადაც დიდი მონაცემები გამოიყენება რუსეთში, არის ბანკები/დაზღვევა (ტყუილად არ დავიწყე სტატია Sberbank-ის ხელმძღვანელთან ერთად), ტელეკომუნიკაციების სექტორი, საცალო ვაჭრობა, უძრავი ქონება და... საჯარო სექტორი.

მაგალითად, მე უფრო დეტალურად გეტყვით რამდენიმე ეკონომიკური სექტორის შესახებ, რომლებიც იყენებენ დიდი მონაცემების ალგორითმებს.

1. ბანკები

დავიწყოთ ბანკებით და მათ მიერ შეგროვებული ინფორმაციით ჩვენზე და ჩვენს ქმედებებზე. მაგალითად, მე ავიღე ტოპ 5 რუსული ბანკი, რომლებიც აქტიურად ახორციელებენ ინვესტიციებს დიდ მონაცემებში:

სბერბანკი;
გაზპრომბანკი;
ვითიბი 24;
ალფა ბანკი;
ტინკოფ ბანკი.

განსაკუთრებით სასიამოვნოა ალფა ბანკის ხილვა რუს ლიდერებს შორის. მინიმუმ, სასიამოვნოა იცოდე, რომ ბანკს, რომლის ოფიციალური პარტნიორიც ხარ, ესმის, რომ საჭიროა ახალი მარკეტინგული ინსტრუმენტების დანერგვა თავის კომპანიაში.

მაგრამ მე მინდა ვაჩვენო მაგალითები დიდი მონაცემების გამოყენებისა და წარმატებული განხორციელების ბანკზე, რომელიც მომწონს მისი დამფუძნებლის არატრადიციული ხედვისა და ქმედებების გამო.

მე ვსაუბრობ Tinkoff Bank-ზე. მათი მთავარი გამოწვევა იყო დიდი მონაცემების რეალურ დროში ანალიზის სისტემის შემუშავება მათი მზარდი მომხმარებელთა ბაზის გამო.

შედეგები: შიდა პროცესების დრო შემცირდა მინიმუმ 10-ჯერ, ზოგისთვის კი - 100-ჯერ მეტით.

ისე, ცოტა ყურადღების გაფანტვა. იცით, რატომ დავიწყე საუბარი ოლეგ თინკოვის არატრადიციულ სისულელეებზე და ქმედებებზე? უბრალოდ, ჩემი აზრით, სწორედ ისინი დაეხმარნენ მას უღიმღამო ბიზნესმენიდან, რომელიც რუსეთში ათასობითა, ერთ-ერთ ყველაზე ცნობილ და ცნობად მეწარმედ გადაქცეულიყო. ამის დასადასტურებლად ნახეთ ეს უჩვეულო და საინტერესო ვიდეო:

2. უძრავი ქონება

უძრავ ქონებაში ყველაფერი ბევრად უფრო რთულია. და ეს არის ზუსტად მაგალითი, რომელიც მინდა მოგაწოდოთ, რომ გაიგოთ დიდი თარიღები ჩვეულებრივ ბიზნესში. საწყისი მონაცემები:

ტექსტური დოკუმენტაციის დიდი მოცულობა;
ღია წყაროები (კერძო თანამგზავრები, რომლებიც გადასცემენ მონაცემებს დედამიწის ცვლილებებზე);
უკონტროლო ინფორმაციის უზარმაზარი რაოდენობა ინტერნეტში;
მუდმივი ცვლილებები წყაროებსა და მონაცემებში.

და ამის საფუძველზე აუცილებელია მიწის ნაკვეთის ღირებულების მომზადება და შეფასება, მაგალითად, ურალის სოფლის მახლობლად. ამის გაკეთებას პროფესიონალს ერთი კვირა დასჭირდება.

რუსეთის შემფასებელთა საზოგადოებას და ROSEKO-ს, რომელმაც რეალურად განახორციელა დიდი მონაცემების ანალიზი პროგრამული უზრუნველყოფის გამოყენებით, დასჭირდება არაუმეტეს 30 წუთის დასასვენებლად მუშაობას. შეადარე, კვირა და 30 წუთი. უზარმაზარი განსხვავება.

შექმნის ინსტრუმენტები

რა თქმა უნდა, უზარმაზარი ინფორმაციის შენახვა და დამუშავება მარტივი მყარ დისკებზე შეუძლებელია.

ა პროგრამული უზრუნველყოფა, რომელიც აყალიბებს და აანალიზებს მონაცემებს - ეს არის ზოგადად ინტელექტუალური საკუთრება და ყოველ ჯერზე ავტორის განვითარება. თუმცა, არსებობს ინსტრუმენტები, რომელთა საფუძველზეც იქმნება მთელი ეს სილამაზე:

Hadoop & MapReduce;
NoSQL მონაცემთა ბაზები;
მონაცემთა აღმოჩენის კლასის ინსტრუმენტები.

მართალი გითხრათ, ნათლად ვერ აგიხსნით, რით განსხვავდებიან ისინი ერთმანეთისგან, რადგან ამ საგნების გაცნობა და მუშაობა ფიზიკა-მათემატიკის ინსტიტუტებში ისწავლება.

რატომ ვილაპარაკე ამის შესახებ, თუ ამის ახსნა არ შემეძლო? გახსოვთ, ყველა ფილმში მძარცველები შედიან ნებისმიერ ბანკში და ხედავენ მავთულხლართებთან დაკავშირებულ ყველა სახის ტექნიკის უზარმაზარ რაოდენობას? ასეა დიდ პაემანშიც. მაგალითად, აქ არის მოდელი, რომელიც ამჟამად ბაზარზე ერთ-ერთი ლიდერია.

დიდი თარიღის ინსტრუმენტი

მაქსიმალური კონფიგურაციის ღირებულება თაროზე 27 მილიონ რუბლს აღწევს. ეს, რა თქმა უნდა, ფუფუნების ვერსიაა. მინდა, წინასწარ სცადოთ დიდი მონაცემების შექმნა თქვენს ბიზნესში.

მოკლედ მთავარის შესახებ

შეიძლება იკითხოთ, რატომ გჭირდებათ თქვენ, მცირე და საშუალო ბიზნესს დიდი მონაცემებით მუშაობა?

ამაზე მე გიპასუხებთ ერთი ადამიანის ციტატით: „უახლოეს მომავალში კლიენტები მოთხოვნილნი იქნებიან კომპანიებზე, რომლებიც უკეთ ესმით მათ ქცევას და ჩვევებს და საუკეთესოდ მოერგებიან მათ“.

მაგრამ მოდი, ვაღიაროთ. მცირე ბიზნესში დიდი მონაცემების განსახორციელებლად, თქვენ უნდა გქონდეთ არა მხოლოდ დიდი ბიუჯეტი პროგრამული უზრუნველყოფის შემუშავებისა და დანერგვისთვის, არამედ სპეციალისტების შესანარჩუნებლად, ყოველ შემთხვევაში, როგორიცაა დიდი მონაცემთა ანალიტიკოსი და სისტემის ადმინისტრატორი.

ახლა კი ვჩუმდები, რომ ასეთი მონაცემები უნდა გქონდეს დასამუშავებლად.

OK. თემა თითქმის არ ვრცელდება მცირე ბიზნესისთვის. მაგრამ ეს არ ნიშნავს იმას, რომ თქვენ უნდა დაივიწყოთ ყველაფერი, რაც ზემოთ წაიკითხეთ. უბრალოდ შეისწავლეთ არა თქვენი მონაცემები, არამედ ცნობილი უცხოური და რუსული კომპანიების მონაცემთა ანალიზის შედეგები.

მაგალითად, საცალო ქსელი Target-მა დიდი მონაცემების ანალიტიკის გამოყენებით დაადგინა, რომ ორსული ქალები ორსულობის მეორე ტრიმესტრამდე (ორსულობის 1-ლიდან მე-12 კვირამდე) აქტიურად ყიდულობენ არასურნელოვან პროდუქტებს.

ამ მონაცემების გამოყენებით, ისინი უგზავნიან მათ კუპონებს შეზღუდული დროით ფასდაკლებით უსუნო პროდუქტებზე.

რა მოხდება, თუ თქვენ, მაგალითად, ძალიან პატარა კაფე ხართ? დიახ, ძალიან მარტივი. გამოიყენეთ ლოიალობის აპი. და გარკვეული დროის შემდეგ და დაგროვილი ინფორმაციის წყალობით, თქვენ შეძლებთ არა მხოლოდ შესთავაზოთ მომხმარებელს კერძები, რომლებიც შეესაბამება მათ საჭიროებებს, არამედ იხილოთ ყველაზე გაუყიდველი და ყველაზე მაღალი მარჟის კერძები მაუსის რამდენიმე დაწკაპუნებით.

აქედან დასკვნა. ნაკლებად სავარაუდოა, რომ მცირე ბიზნესმა უნდა განახორციელოს დიდი მონაცემები, მაგრამ აუცილებელია გამოიყენოს სხვა კომპანიების შედეგები და განვითარება.

მხოლოდ ზარმაცები არ საუბრობენ დიდ მონაცემებზე, მაგრამ მათ არ ესმით რა არის და როგორ მუშაობს. დავიწყოთ უმარტივესი რამით - ტერმინოლოგიით. რუსულად საუბრისას, Big data არის სხვადასხვა ინსტრუმენტები, მიდგომები და მეთოდები, როგორც სტრუქტურირებული, ისე არასტრუქტურირებული მონაცემების დასამუშავებლად, რათა გამოიყენონ ისინი კონკრეტული ამოცანებისა და მიზნებისთვის.

არასტრუქტურირებული მონაცემები არის ინფორმაცია, რომელსაც არ აქვს წინასწარ განსაზღვრული სტრუქტურა ან არ არის ორგანიზებული კონკრეტული თანმიმდევრობით.

ტერმინი „დიდი მონაცემები“ შემოიღო ჟურნალ Nature-ის რედაქტორმა კლიფორდ ლინჩმა ჯერ კიდევ 2008 წელს სპეციალურ ნომერში, რომელიც ეძღვნებოდა მსოფლიო ინფორმაციის მოცულობის ფეთქებად ზრდას. თუმცა, რა თქმა უნდა, თავად დიდი მონაცემები ადრე არსებობდა. ექსპერტების აზრით, დიდი მონაცემების კატეგორიაში შედის მონაცემთა ნაკადების უმეტესობა დღეში 100 გბ-ზე მეტი.

ასევე წაიკითხეთ:

დღეს ეს მარტივი ტერმინი მალავს მხოლოდ ორ სიტყვას - მონაცემთა შენახვას და დამუშავებას.

დიდი მონაცემები - მარტივი სიტყვებით

თანამედროვე სამყაროში დიდი მონაცემები არის სოციალურ-ეკონომიკური ფენომენი, რომელიც დაკავშირებულია იმ ფაქტთან, რომ გაჩნდა ახალი ტექნოლოგიური შესაძლებლობები უზარმაზარი რაოდენობის მონაცემების გასაანალიზებლად.

ასევე წაიკითხეთ:

გასაგებად რომ გაგიადვილდეთ, წარმოიდგინეთ სუპერმარკეტი, რომელშიც ყველა საქონელი არ არის იმ თანმიმდევრობით, რომელსაც შეჩვეული ხართ. პური ხილის გვერდით, ტომატის პასტა გაყინული პიცის გვერდით, უფრო მსუბუქი სითხე ტამპონის თაროს წინ, რომელიც შეიცავს, სხვა საკითხებთან ერთად, ავოკადოს, ტოფუს ან შიიტაკეს სოკოს. დიდი მონაცემები ყველაფერს თავის ადგილზე აყენებს და გეხმარებათ იპოვოთ თხილის რძე, გაარკვიოთ ღირებულება და ვარგისიანობის ვადა და ასევე ვინ ყიდულობს თქვენს გარდა ამ რძეს და რატომ ჯობია ძროხის რძეს.

კენეტ კუკიერი: დიდი მონაცემები უკეთესი მონაცემებია

დიდი მონაცემთა ტექნოლოგია

უზარმაზარი მოცულობის მონაცემები მუშავდება, რათა ადამიანმა მიიღოს კონკრეტული და აუცილებელი შედეგები მათი შემდგომი ეფექტური გამოყენებისთვის.

ასევე წაიკითხეთ:

სინამდვილეში, დიდი მონაცემები არის პრობლემების გადაწყვეტა და მონაცემთა მართვის ტრადიციული სისტემების ალტერნატივა.

დიდი მონაცემებისთვის გამოყენებული ანალიზის ტექნიკა და მეთოდები მაკკინსის მიხედვით:

მონაცემთა მოპოვება;
Crowdsourcing;
მონაცემთა შერევა და ინტეგრაცია;
მანქანათმცოდნეობა;
ხელოვნური ნერვული ქსელები;
შაბლონის ამოცნობა;
პროგნოზირებადი ანალიტიკა;
სიმულაციური მოდელირება;
სივრცითი ანალიზი;
სტატისტიკური ანალიზი;
ანალიტიკური მონაცემების ვიზუალიზაცია.

ჰორიზონტალური მასშტაბირება, რომელიც მონაცემთა დამუშავების საშუალებას იძლევა, დიდი მონაცემთა დამუშავების ძირითადი პრინციპია. მონაცემები ნაწილდება გამოთვლით კვანძებში და დამუშავება ხდება შესრულების დეგრადაციის გარეშე. McKinsey ასევე მოიცავდა ურთიერთდამოკიდებულების მართვის სისტემებს და ბიზნეს დაზვერვას გამოყენების კონტექსტში.

ტექნოლოგიები:

NoSQL;
MapReduce;
Hadoop;
ტექნიკის გადაწყვეტილებები.

ასევე წაიკითხეთ:

დიდი მონაცემებისთვის, არსებობს ტრადიციული განმსაზღვრელი მახასიათებლები, რომლებიც შეიქმნა Meta Group-ის მიერ ჯერ კიდევ 2001 წელს, რომლებსაც ე.წ. სამი V»:

მოცულობა- ფიზიკური მოცულობის ოდენობა.
სიჩქარე- ზრდის ტემპი და მონაცემთა სწრაფი დამუშავების საჭიროება შედეგების მისაღებად.
მრავალფეროვნება- სხვადასხვა ტიპის მონაცემების ერთდროულად დამუშავების შესაძლებლობა.

დიდი მონაცემები: აპლიკაციები და შესაძლებლობები

შეუძლებელია ჰეტეროგენული და სწრაფად შემოსული ციფრული ინფორმაციის მოცულობის დამუშავება ტრადიციული ინსტრუმენტებით. მონაცემთა ანალიზი თავისთავად საშუალებას გაძლევთ ნახოთ გარკვეული და შეუმჩნეველი ნიმუშები, რომლებსაც ადამიანები ვერ ხედავენ. ეს საშუალებას გვაძლევს ოპტიმიზაცია მოვახდინოთ ჩვენი ცხოვრების ყველა სფეროს - დან საჯარო მმართველობაწარმოებასა და ტელეკომუნიკაციებს.

მაგალითად, ზოგიერთი კომპანია რამდენიმე წლის წინ იცავდა თავის კლიენტებს თაღლითობისგან და კლიენტის ფულზე ზრუნვა ნიშნავს საკუთარ ფულზე ზრუნვას.

სუზან ეტლიგერი: რაც შეეხება დიდ მონაცემებს?

გადაწყვეტილებები, რომლებიც დაფუძნებულია დიდ მონაცემებზე: Sberbank, Beeline და სხვა კომპანიები

ბილაინს აქვს უზარმაზარი მონაცემები აბონენტების შესახებ, რომლებსაც ისინი იყენებენ არა მხოლოდ მათთან მუშაობისთვის, არამედ ანალიტიკური პროდუქტების შესაქმნელად, როგორიცაა გარე კონსულტაცია ან IPTV ანალიტიკა. ბილაინმა მოახდინა მონაცემთა ბაზა სეგმენტირებული და იცავდა კლიენტებს ფინანსური თაღლითობისა და ვირუსებისგან, გამოიყენა HDFS და Apache Spark შესანახად, ხოლო Rapidminer და Python მონაცემთა დამუშავებისთვის.

ასევე წაიკითხეთ:

ან გავიხსენოთ სბერბანკი მათი ძველი საქმით, სახელწოდებით AS SAFI. ეს არის სისტემა, რომელიც აანალიზებს ფოტოებს ბანკის მომხმარებლების იდენტიფიცირებისთვის და თაღლითობის თავიდან ასაცილებლად. სისტემა დაინერგა ჯერ კიდევ 2014 წელს, სისტემა ეფუძნება მონაცემთა ბაზიდან მიღებული ფოტოების შედარებას, რომლებიც იქ ხვდება სტენდებზე განთავსებული ვებ კამერებიდან კომპიუტერული ხედვის წყალობით. სისტემის საფუძველია ბიომეტრიული პლატფორმა. ამის წყალობით თაღლითობის შემთხვევები 10-ჯერ შემცირდა.

დიდი მონაცემები მსოფლიოში

2020 წლისთვის, პროგნოზების მიხედვით, კაცობრიობა გამოიმუშავებს 40-44 ზეტაბაიტ ინფორმაციას. 2025 წლისთვის კი ის 10-ჯერ გაიზრდება, ნათქვამია მოხსენებაში The Data Age 2025, რომელიც მომზადდა IDC-ის ანალიტიკოსების მიერ. ანგარიშში აღნიშნულია, რომ მონაცემების უმეტესობას თავად ბიზნესები გამოიმუშავებენ და არა ჩვეულებრივი მომხმარებლები.

კვლევის ანალიტიკოსები თვლიან, რომ მონაცემები გახდება სასიცოცხლო აქტივი, ხოლო უსაფრთხოება ცხოვრების კრიტიკული საფუძველი. ნაშრომის ავტორები ასევე დარწმუნებულნი არიან, რომ ტექნოლოგია შეცვლის ეკონომიკურ ლანდშაფტს და საშუალო მომხმარებელი დაუკავშირდება დაკავშირებულ მოწყობილობებს დღეში დაახლოებით 4800-ჯერ.

დიდი მონაცემთა ბაზარი რუსეთში

2017 წელს დიდი მონაცემების ბაზარზე გლობალური შემოსავალი 150,8 მილიარდ დოლარს უნდა მიაღწიოს, რაც 12,4%-ით მეტია გასულ წელთან შედარებით. გლობალურად რუსული ბაზარიდიდი მონაცემთა სერვისები და ტექნოლოგიები ჯერ კიდევ ძალიან მცირეა. 2014 წელს ამერიკულმა კომპანია IDC-მ შეაფასა ის 340 მილიონ დოლარად. რუსეთში ტექნოლოგია გამოიყენება საბანკო საქმეებში, ენერგეტიკაში, ლოჯისტიკაში, საჯარო სექტორში, ტელეკომუნიკაციაში და ინდუსტრიაში.

ასევე წაიკითხეთ:

რაც შეეხება მონაცემთა ბაზარს, ის ახლახან ჩნდება რუსეთში. RTB ეკოსისტემაში მონაცემთა პროვაიდერები არიან პროგრამული მონაცემთა მართვის პლატფორმების (DMP) და მონაცემთა გაცვლის მფლობელები. სატელეკომუნიკაციო ოპერატორები საპილოტე რეჟიმში უზიარებენ მომხმარებელთა ინფორმაციას პოტენციური მსესხებლების შესახებ ბანკებს.

დიდი მონაცემები, როგორც წესი, მოდის სამი წყაროდან:

ინტერნეტი (სოციალური ქსელები, ფორუმები, ბლოგები, მედია და სხვა საიტები);
კორპორატიული დოკუმენტების არქივები;
წაკითხვები სენსორებიდან, ინსტრუმენტებიდან და სხვა მოწყობილობებიდან.

დიდი მონაცემები ბანკებში

ზემოთ აღწერილი სისტემის გარდა, სბერბანკის სტრატეგია 2014-2018 წლებში მოიცავს: საუბრობს სუპერ მონაცემების ანალიზის მნიშვნელობაზე მომხმარებელთა ხარისხიანი მომსახურების, რისკების მართვისა და ხარჯების ოპტიმიზაციისთვის. ახლა ბანკი იყენებს Big Data-ს რისკების სამართავად, თაღლითობის წინააღმდეგ საბრძოლველად, კლიენტების კრედიტუნარიანობის სეგმენტაციისა და შეფასების, პერსონალის მენეჯმენტის, ფილიალებში რიგების პროგნოზირებისთვის, თანამშრომლებისთვის პრემიების გამოსათვლელად და სხვა ამოცანებისთვის.

VTB24 იყენებს დიდ მონაცემებს მომხმარებლის გადინების, ფორმის სეგმენტაციისა და მართვისთვის ფინანსური ანგარიშგება, მიმოხილვების ანალიზი სოციალურ ქსელებსა და ფორუმებზე. ამისათვის ის იყენებს Teradata-ს, SAS Visual Analytics-ისა და SAS Marketing Optimizer-ის გადაწყვეტილებებს.

დიდი მონაცემები არის ფართო ტერმინი არატრადიციული სტრატეგიებისა და ტექნოლოგიებისთვის, რომლებიც საჭიროა მონაცემთა დიდი ნაკრებიდან ინფორმაციის შეგროვების, ორგანიზებისა და დამუშავებისთვის. მიუხედავად იმისა, რომ მონაცემებთან მუშაობის გამოწვევა, რომელიც აღემატება ერთი კომპიუტერის დამუშავების ან შენახვის შესაძლებლობებს, ახალი არ არის, ამ ტიპის გამოთვლის ფარგლები და ღირებულება მნიშვნელოვნად გაფართოვდა ბოლო წლებში.

ეს სტატია გაგაცნობთ ძირითად ცნებებს, რომლებიც შეიძლება შეგხვდეთ დიდი მონაცემების შესწავლისას. იგი ასევე განიხილავს ზოგიერთ პროცესსა და ტექნოლოგიას, რომლებიც ამჟამად გამოიყენება ამ სფეროში.

რა არის დიდი მონაცემები?

„დიდი მონაცემების“ ზუსტი განმარტება ძნელია ჩამოყალიბებული, რადგან პროექტები, მოვაჭრეები, პრაქტიკოსები და ბიზნეს პროფესიონალები იყენებენ მას ძალიან განსხვავებულად. ამის გათვალისწინებით, დიდი მონაცემები შეიძლება განისაზღვროს, როგორც:

მონაცემთა დიდი ნაკრები.
გამოთვლითი სტრატეგიებისა და ტექნოლოგიების კატეგორია, რომლებიც გამოიყენება მონაცემთა დიდი ნაკრების დასამუშავებლად.

ამ კონტექსტში, "დიდი მონაცემთა ნაკრები" ნიშნავს მონაცემთა ერთობლიობას, რომელიც ძალიან დიდია დამუშავებისთვის ან შესანახად ტრადიციული ხელსაწყოების გამოყენებით ან ერთ კომპიუტერზე. ეს ნიშნავს, რომ მონაცემთა დიდი ნაკრების საერთო მასშტაბი მუდმივად იცვლება და შეიძლება მნიშვნელოვნად განსხვავდებოდეს შემთხვევიდან შემთხვევაში.

დიდი მონაცემთა სისტემები

დიდ მონაცემებთან მუშაობის ძირითადი მოთხოვნები იგივეა, რაც ნებისმიერი სხვა მონაცემთა ნაკრებისთვის. თუმცა, მასიური მასშტაბი, დამუშავების სიჩქარე და მონაცემთა მახასიათებლები, რომლებიც გვხვდება პროცესის ყოველ საფეხურზე, წარმოადგენს მნიშვნელოვან ახალ გამოწვევებს ხელსაწყოების შემუშავებისთვის. დიდი მონაცემთა სისტემების უმრავლესობის მიზანია დიდი მოცულობის ჰეტეროგენული მონაცემების გაგება და კომუნიკაცია, რაც შეუძლებელი იქნება ჩვეულებრივი მეთოდების გამოყენებით.

2001 წელს Gartner's Doug Laney-მ წარმოადგინა "დიდი მონაცემების სამი V", რათა აღეწერა ზოგიერთი მახასიათებელი, რომელიც განასხვავებს დიდი მონაცემთა დამუშავებას მონაცემთა დამუშავების სხვა ტიპებისგან:

მოცულობა (მონაცემთა მოცულობა).
სიჩქარე (მონაცემთა დაგროვებისა და დამუშავების სიჩქარე).
მრავალფეროვნება (დამუშავებული მონაცემთა ტიპების მრავალფეროვნება).

მონაცემთა მოცულობა

დამუშავებული ინფორმაციის დიდი მასშტაბი გვეხმარება დიდი მონაცემთა სისტემების განსაზღვრაში. ეს მონაცემთა ნაკრები შეიძლება იყოს უფრო დიდი ზომის, ვიდრე ტრადიციული მონაცემთა ნაკრები, რაც მოითხოვს დიდ ყურადღებას დამუშავებისა და შენახვის ყველა ეტაპზე.

იმის გამო, რომ მოთხოვნები აღემატება ერთი კომპიუტერის შესაძლებლობებს, ხშირად ჩნდება კომპიუტერების ჯგუფებიდან რესურსების გაერთიანების, განაწილებისა და კოორდინაციის პრობლემა. კლასტერების მენეჯმენტი და ალგორითმები, რომლებსაც შეუძლიათ ამოცანების მცირე ნაწილებად დაყოფა, სულ უფრო მნიშვნელოვანი ხდება ამ სფეროში.

დაგროვების და დამუშავების სიჩქარე

მეორე მახასიათებელი, რომელიც მნიშვნელოვნად განასხვავებს დიდ მონაცემებს სხვა მონაცემთა სისტემებისგან, არის სიჩქარე, რომლითაც ინფორმაცია მოძრაობს სისტემაში. მონაცემები ხშირად შედის სისტემაში მრავალი წყაროდან და უნდა დამუშავდეს რეალურ დროში, რათა განახლდეს სისტემის მიმდინარე მდგომარეობა.

ეს აქცენტი მყისიერად უკუკავშირიაიძულა ბევრი პრაქტიკოსი დაეტოვებინა პაკეტზე ორიენტირებული მიდგომა და უპირატესობა მიანიჭა რეალურ დროში ნაკადის სისტემას. მონაცემები მუდმივად ემატება, მუშავდება და ანალიზდება ახალი ინფორმაციის ნაკადის შესანარჩუნებლად და ღირებული ინფორმაციის მიწოდების ადრეულ ეტაპზე, როდესაც ის ყველაზე აქტუალურია. ეს მოითხოვს მძლავრ სისტემებს მაღალ ხელმისაწვდომ კომპონენტებთან ერთად მონაცემთა მილსადენის გასწვრივ წარუმატებლობისგან დასაცავად.

დამუშავებული მონაცემთა ტიპების მრავალფეროვნება

დიდი მონაცემების მრავალი უნიკალური გამოწვევაა დამუშავებული წყაროების ფართო სპექტრისა და მათი შედარებითი ხარისხის გამო.

მონაცემები შეიძლება მოდიოდეს შიდა სისტემებიდან, როგორიცაა აპლიკაციებისა და სერვერების ჟურნალები, სოციალური მედიის არხებიდან და სხვა გარე API-ებიდან, ფიზიკური მოწყობილობის სენსორებიდან და სხვა წყაროებიდან. დიდი მონაცემთა სისტემების მიზანია პოტენციურად სასარგებლო მონაცემების დამუშავება, წარმოშობის მიუხედავად, ყველა ინფორმაციის ერთ სისტემაში გაერთიანებით.

მედიის ფორმატები და ტიპები ასევე შეიძლება მნიშვნელოვნად განსხვავდებოდეს. მედია ფაილები (სურათები, ვიდეო და აუდიო) კომბინირებულია ტექსტურ ფაილებთან, სტრუქტურირებულ ჟურნალებთან და ა.შ. მონაცემთა დამუშავების უფრო ტრადიციული სისტემები ელოდებათ, რომ მონაცემები შევა მილსადენში უკვე ეტიკეტირებული, ფორმატირებული და ორგანიზებული, მაგრამ დიდი მონაცემთა სისტემები, როგორც წესი, ითვისებენ და ინახავენ მონაცემებს, ცდილობენ შეინახონ. მათ საწყისი მდგომარეობა. იდეალურ შემთხვევაში, ნებისმიერი ტრანსფორმაცია ან ცვლილება ნედლეულ მონაცემებში მოხდება მეხსიერებაში დამუშავების დროს.

სხვა მახასიათებლები

დროთა განმავლობაში, პრაქტიკოსებმა და ორგანიზაციებმა შემოგვთავაზეს ორიგინალური „სამი წინააღმდეგ“ გაფართოება, თუმცა ეს ინოვაციები უფრო მეტად აღწერს პრობლემებს და არა დიდი მონაცემების მახასიათებლებს.

სიზუსტე: წყაროების მრავალფეროვნებამ და დამუშავების სირთულემ შეიძლება გამოიწვიოს პრობლემები მონაცემთა ხარისხის (და შესაბამისად მიღებული ანალიზის ხარისხის) შეფასებისას.
ცვალებადობა: მონაცემების ცვლილებები იწვევს ხარისხის ფართო ცვალებადობას. შეიძლება საჭირო გახდეს დამატებითი რესურსები დაბალი ხარისხის მონაცემების იდენტიფიცირებისთვის, დამუშავებისთვის ან გაფილტვრისთვის, მონაცემთა ხარისხის გასაუმჯობესებლად.
ღირებულება: დიდი მონაცემების საბოლოო მიზანი არის ღირებულება. ზოგჯერ სისტემები და პროცესები ძალიან რთულია, რაც ართულებს მონაცემთა გამოყენებას და რეალური მნიშვნელობების ამოღებას.

დიდი მონაცემთა სასიცოცხლო ციკლი

მაშ, როგორ ხდება დიდი მონაცემების რეალურად დამუშავება? განხორციელების რამდენიმე განსხვავებული მიდგომა არსებობს, მაგრამ არსებობს საერთო სტრატეგიებსა და პროგრამულ უზრუნველყოფაში.

მონაცემთა სისტემაში შეყვანა
მონაცემთა შენახვა შესანახად
მონაცემთა გამოთვლა და ანალიზი
შედეგების ვიზუალიზაცია

სანამ დეტალურად განვიხილავთ სამუშაო ნაკადების ამ ოთხ კატეგორიას, მოდით ვისაუბროთ კლასტერულ გამოთვლებზე, მნიშვნელოვან სტრატეგიაზე, რომელსაც იყენებს მრავალი დიდი მონაცემთა ინსტრუმენტი. გამოთვლითი კლასტერის დაყენება არის ძირითადი ტექნოლოგია, რომელიც გამოიყენება სიცოცხლის ციკლის თითოეულ ეტაპზე.

კლასტერული გამოთვლა

დიდი მონაცემების ხარისხის გამო, ინდივიდუალური კომპიუტერები არ არის შესაფერისი მონაცემთა დასამუშავებლად. კლასტერები უფრო შესაფერისია ამისთვის, რადგან მათ შეუძლიათ გაუმკლავდნენ დიდი მონაცემების შენახვისა და გამოთვლის საჭიროებებს.

დიდი მონაცემთა კლასტერიზაციის პროგრამული უზრუნველყოფა აერთიანებს მრავალი მცირე აპარატის რესურსებს, რომლებიც მიზნად ისახავს მრავალი უპირატესობის უზრუნველყოფას:

რესურსების გაერთიანება: მონაცემთა დიდი ნაკრების დამუშავება მოითხოვს დიდი რაოდენობით CPU და მეხსიერების რესურსებს, ისევე როგორც ბევრი ხელმისაწვდომი შენახვის სივრცეს.
მაღალი ხელმისაწვდომობა: კლასტერებს შეუძლიათ უზრუნველყონ შეცდომების ტოლერანტობისა და ხელმისაწვდომობის სხვადასხვა დონეები ისე, რომ ტექნიკის ან პროგრამული უზრუნველყოფის გაუმართაობა გავლენას არ მოახდენს მონაცემთა წვდომასა და დამუშავებაზე. ეს განსაკუთრებით მნიშვნელოვანია რეალურ დროში ანალიტიკისთვის.
მასშტაბურობა: კლასტერები მხარს უჭერენ სწრაფ ჰორიზონტალურ სკალირებას (კლასტერში ახალი მანქანების დამატება).

კლასტერში მუშაობისთვის საჭიროა კლასტერში წევრობის მართვის, რესურსების განაწილების კოორდინაციისა და ცალკეულ კვანძებთან მუშაობის დაგეგმვის ინსტრუმენტები. კლასტერში გაწევრიანება და რესურსების განაწილება შეიძლება განხორციელდეს ისეთი პროგრამების გამოყენებით, როგორიცაა Hadoop YARN (კიდევ ერთი რესურსის მომლაპარაკებელი) ან Apache Mesos.

ასაწყობი გამოთვლითი კლასტერი ხშირად მოქმედებს როგორც ხერხემალი, რომელთანაც სხვა პროგრამული უზრუნველყოფა ურთიერთქმედებს მონაცემთა დასამუშავებლად. კომპიუტერულ კლასტერში მონაწილე მანქანები ასევე, როგორც წესი, დაკავშირებულია განაწილებული შენახვის სისტემის მართვასთან.

მონაცემების მიღება

მონაცემთა გადაღება არის სისტემაში ნედლეული მონაცემების დამატების პროცესი. ამ ოპერაციის სირთულე დიდწილად დამოკიდებულია მონაცემთა წყაროების ფორმატსა და ხარისხზე და რამდენად აკმაყოფილებს მონაცემები დამუშავების მოთხოვნებს.

თქვენ შეგიძლიათ დაამატოთ დიდი მონაცემები სისტემაში სპეციალური ხელსაწყოების გამოყენებით. ტექნოლოგიებს, როგორიცაა Apache Sqoop, შეუძლიათ მიიღონ არსებული მონაცემები რელაციური მონაცემთა ბაზებიდან და დაამატონ ისინი დიდ მონაცემთა სისტემაში. თქვენ ასევე შეგიძლიათ გამოიყენოთ Apache Flume და Apache Chukwa - პროექტები, რომლებიც შექმნილია აპლიკაციებისა და სერვერის ჟურნალების შეგროვებისა და იმპორტისთვის. შეტყობინებების ბროკერები, როგორიცაა Apache Kafka, შეიძლება გამოყენებულ იქნას როგორც ინტერფეისი სხვადასხვა მონაცემთა გენერატორებსა და დიდი მონაცემთა სისტემას შორის. Gobblin-ის მსგავს ჩარჩოებს შეუძლიათ გააერთიანონ და გააუმჯობესონ ყველა ხელსაწყოს გამომუშავება მილსადენის ბოლოს.

მონაცემთა გადაყლაპვის დროს, ჩვეულებრივ, ტარდება ანალიზი, დახარისხება და მარკირება. ამ პროცესს ზოგჯერ უწოდებენ ETL (ამონაწერი, ტრანსფორმაცია, დატვირთვა), რაც ნიშნავს ამონაწერს, ტრანსფორმაციას და დატვირთვას. მიუხედავად იმისა, რომ ტერმინი ჩვეულებრივ ეხება მონაცემთა შენახვის პროცესებს, ის ზოგჯერ გამოიყენება დიდი მონაცემთა სისტემებზე. ტიპიური ოპერაციები მოიცავს შემომავალი მონაცემების შეცვლას ფორმატირებისთვის, კატეგორიზაციისა და მარკირებისთვის, ფილტრაციისთვის ან მონაცემების შესაბამისობის შესამოწმებლად.

იდეალურ შემთხვევაში, მიღებული მონაცემები გადის მინიმალურ ფორმატირებას.

მონაცემთა შენახვა

მიღების შემდეგ, მონაცემები გადადის კომპონენტებზე, რომლებიც მართავენ შენახვას.

როგორც წესი, განაწილებული ფაილური სისტემები გამოიყენება ნედლეული მონაცემების შესანახად. გადაწყვეტილებები, როგორიცაა HDFS Apache Hadoop-ისგან, საშუალებას იძლევა დიდი რაოდენობით მონაცემები ჩაიწეროს კლასტერში რამდენიმე კვანძში. ეს სისტემა უზრუნველყოფს გამოთვლითი რესურსების ხელმისაწვდომობას მონაცემებზე, შეუძლია მონაცემების ჩატვირთვა კლასტერულ RAM-ში მეხსიერების ოპერაციებისთვის და გაუმკლავდეს კომპონენტების უკმარისობას. სხვა განაწილებული ფაილური სისტემები შეიძლება გამოყენებულ იქნას HDFS-ის ნაცვლად, მათ შორის Ceph და GlusterFS.

მონაცემთა იმპორტი ასევე შეიძლება სხვა განაწილებულ სისტემებში უფრო სტრუქტურირებული წვდომისთვის. განაწილებული მონაცემთა ბაზები, განსაკუთრებით NoSQL მონაცემთა ბაზები, კარგად შეეფერება ამ როლს, რადგან მათ შეუძლიათ ჰეტეროგენული მონაცემების მართვა. ბევრია სხვადასხვა სახისგანაწილებული მონაცემთა ბაზები, არჩევანი დამოკიდებულია იმაზე, თუ როგორ გსურთ მონაცემების ორგანიზება და პრეზენტაცია.

მონაცემთა გამოთვლა და ანალიზი

როდესაც მონაცემები ხელმისაწვდომი იქნება, სისტემას შეუძლია დამუშავების დაწყება. გამოთვლითი ფენა, ალბათ, სისტემის ყველაზე თავისუფალი ნაწილია, რადგან აქ მოთხოვნები და მიდგომები შეიძლება მნიშვნელოვნად განსხვავდებოდეს ინფორმაციის ტიპის მიხედვით. მონაცემები ხშირად განმეორებით მუშავდება, ან ერთი ხელსაწყოს გამოყენებით, ან რამდენიმე ხელსაწყოს გამოყენებით სხვადასხვა ტიპის მონაცემების დასამუშავებლად.

სერიული დამუშავება არის მონაცემთა დიდ ნაკრებებზე გამოთვლის ერთ-ერთი მეთოდი. ეს პროცესი მოიცავს მონაცემების მცირე ნაწილებად დაყოფას, თითოეული ნაწილის ცალკეულ მანქანაზე დამუშავების დაგეგმვას, შუალედურ შედეგებზე დაფუძნებული მონაცემების გადაკეთებას და შემდეგ საბოლოო შედეგის გამოთვლას და შეგროვებას. Apache Hadoop's MapReduce იყენებს ამ სტრატეგიას. ჯგუფური დამუშავება ყველაზე სასარგებლოა მონაცემთა ძალიან დიდ ნაკრებებთან მუშაობისას, რომლებიც საკმაოდ დიდ გამოთვლას მოითხოვს.

სხვა დატვირთვები საჭიროებს რეალურ დროში დამუშავებას. თუმცა, ინფორმაცია დაუყოვნებლივ უნდა დამუშავდეს და მომზადდეს და სისტემამ დროულად უნდა მოახდინოს რეაგირება ახალი ინფორმაციის მიღებისთანავე. რეალურ დროში დამუშავების განხორციელების ერთ-ერთი გზაა ცალკეული ელემენტებისაგან შემდგარი მონაცემების უწყვეტი ნაკადის დამუშავება. რეალურ დროში პროცესორების კიდევ ერთი საერთო მახასიათებელია ის, რომ ისინი ითვლიან მონაცემებს კლასტერულ მეხსიერებაში, თავიდან აიცილებენ დისკზე ჩაწერის აუცილებლობას.

Apache Storm, Apache Flink და Apache Spark გთავაზობთ სხვადასხვა გზებს რეალურ დროში დამუშავების განსახორციელებლად. ეს მოქნილი ტექნოლოგიები საშუალებას გაძლევთ აირჩიოთ საუკეთესო მიდგომა თითოეული ინდივიდუალური პრობლემისთვის. ზოგადად, რეალურ დროში დამუშავება საუკეთესოდ შეეფერება მონაცემთა მცირე ნაწილის ანალიზს, რომელიც იცვლება ან სწრაფად ემატება სისტემას.

ყველა ეს პროგრამა არის ჩარჩო. თუმცა, დიდი მონაცემთა სისტემაში მონაცემების გამოთვლის ან ანალიზის მრავალი სხვა გზა არსებობს. ეს ხელსაწყოები ხშირად უკავშირდებიან ზემოაღნიშნულ ჩარჩოებს და უზრუნველყოფენ დამატებით ინტერფეისებს ქვედა ფენებთან ურთიერთობისთვის. მაგალითად, Apache Hive უზრუნველყოფს მონაცემთა საწყობის ინტერფეისს Hadoop-ისთვის, Apache Pig უზრუნველყოფს შეკითხვის ინტერფეისს და ურთიერთქმედებს SQL მონაცემებიმოწოდებულია Apache Drill, Apache Impala, Apache Spark SQL და Presto გამოყენებით. მანქანური სწავლება იყენებს Apache SystemML, Apache Mahout და MLlib Apache Spark-ისგან. პირდაპირი ანალიტიკური პროგრამირებისთვის, რომელიც ფართოდ არის მხარდაჭერილი მონაცემთა ეკოსისტემით, გამოიყენება R და Python.

შედეგების ვიზუალიზაცია

ხშირად ტენდენციების ან მონაცემების ცვლილებების ამოცნობა დროთა განმავლობაში უფრო მნიშვნელოვანია, ვიდრე მიღებული მნიშვნელობები. მონაცემთა ვიზუალიზაცია ტენდენციების იდენტიფიცირებისა და ორგანიზების ერთ-ერთი ყველაზე სასარგებლო გზაა დიდი რაოდენობითმონაცემთა წერტილები.

რეალურ დროში დამუშავება გამოიყენება აპლიკაციისა და სერვერის მეტრიკის ვიზუალიზაციისთვის. მონაცემები ხშირად იცვლება და მეტრიკის დიდი ცვალებადობა, როგორც წესი, მიუთითებს მნიშვნელოვან გავლენას სისტემებისა თუ ორგანიზაციების ჯანმრთელობაზე. პრომეთეს მსგავსი პროექტები შეიძლება გამოყენებულ იქნას მონაცემთა ნაკადების და დროის სერიების დასამუშავებლად და ამ ინფორმაციის ვიზუალიზაციისთვის.

მონაცემთა ვიზუალიზაციის ერთ-ერთი პოპულარული გზაა Elastic stack, ადრე ცნობილი როგორც ELK stack. Logstash გამოიყენება მონაცემთა შეგროვებისთვის, Elasticsearch მონაცემთა ინდექსირებისთვის და Kibana ვიზუალიზაციისთვის. Elastic stack-ს შეუძლია იმუშაოს დიდ მონაცემებთან, გამოთვლების შედეგების ვიზუალიზაცია ან ნედლეული მეტრიკის ურთიერთქმედება. მსგავსი სტეკის მიღება შესაძლებელია Apache Solr-ის შერწყმით ინდექსაციისთვის Kibana-ს ჩანგალთან, სახელად Banana ვიზუალიზაციისთვის. ამ დასტას ჰქვია Silk.

ვიზუალიზაციის კიდევ ერთი ტექნოლოგია მონაცემებთან ურთიერთობისთვის არის დოკუმენტები. ასეთი პროექტები საშუალებას იძლევა მონაცემთა ინტერაქტიული შესწავლა და ვიზუალიზაცია ფორმატში, რომელიც მარტივია მონაცემთა გაზიარებისა და წარმოდგენისთვის. ამ ტიპის ინტერფეისის პოპულარული მაგალითებია Jupyter Notebook და Apache Zeppelin.

დიდი მონაცემების ლექსიკონი

დიდი მონაცემები არის ფართო ტერმინი მონაცემთა ნაკრებისთვის, რომელიც არ შეიძლება სათანადოდ დამუშავდეს ჩვეულებრივი კომპიუტერებით ან ხელსაწყოებით მათი მოცულობის, სიჩქარისა და მრავალფეროვნების გამო. ეს ტერმინი ასევე ჩვეულებრივ გამოიყენება ტექნოლოგიებისა და სტრატეგიების მიმართ ასეთ მონაცემებთან მუშაობისთვის.
ჯგუფური დამუშავება არის გამოთვლითი სტრატეგია, რომელიც მოიცავს მონაცემთა დამუშავებას დიდ კომპლექტებში. როგორც წესი, ეს მეთოდი იდეალურია არასასწრაფო მონაცემებთან მუშაობისთვის.
კლასტერული გამოთვლა არის მრავალი აპარატის რესურსების გაერთიანების პრაქტიკა და მათი საერთო შესაძლებლობების მართვა ამოცანების შესასრულებლად. ამ შემთხვევაში, საჭიროა კლასტერის მართვის ფენა, რომელიც ამუშავებს კომუნიკაციას ცალკეულ კვანძებს შორის.
მონაცემთა ტბა არის შეგროვებული მონაცემების დიდი საცავი შედარებით ნედლეულ მდგომარეობაში. ტერმინი ხშირად გამოიყენება არასტრუქტურირებული და ხშირად ცვალებადი დიდი მონაცემების აღსანიშნავად.
მონაცემთა მოპოვება არის ფართო ტერმინი მონაცემთა დიდ ნაკრებებში შაბლონების პოვნის სხვადასხვა პრაქტიკისთვის. ეს არის მონაცემთა მასის ორგანიზების მცდელობა უფრო გასაგები და თანმიმდევრული ინფორმაციის ერთობლიობაში.
მონაცემთა საწყობი არის დიდი, ორგანიზებული საცავი ანალიზისა და მოხსენებისთვის. მონაცემთა ტბისგან განსხვავებით, საწყობი შედგება ფორმატირებული და კარგად ორგანიზებული მონაცემებისგან, რომლებიც ინტეგრირებულია სხვა წყაროებთან. მონაცემთა საწყობები ხშირად მოიხსენიება დიდ მონაცემებთან მიმართებაში, მაგრამ ისინი ხშირად მონაცემთა დამუშავების ჩვეულებრივი სისტემების კომპონენტებია.
ETL (ამოღება, ტრანსფორმაცია და ჩატვირთვა) – მონაცემების ამოღება, ტრანსფორმაცია და ჩატვირთვა. ეს არის ნედლეული მონაცემების მოპოვებისა და გამოსაყენებლად მომზადების პროცესი. იგი ასოცირდება მონაცემთა საწყობებთან, მაგრამ ამ პროცესის მახასიათებლები ასევე გვხვდება დიდი მონაცემთა სისტემების მილსადენებში.
Hadoop არის ღია კოდის Apache პროექტი წყარო კოდიდიდი მონაცემებისთვის. იგი შედგება განაწილებული ფაილური სისტემისგან, რომელსაც ეწოდება HDFS და კლასტერსა და რესურსების განრიგს, სახელად YARN. შესაძლებლობები პარტიული დამუშავებამოწოდებულია MapReduce გამოთვლითი ძრავით. თანამედროვე Hadoop-ის განლაგებას შეუძლია MapReduce-თან ერთად სხვა გამოთვლითი და ანალიტიკური სისტემების გაშვება.
მეხსიერებაში გამოთვლა არის სტრატეგია, რომელიც მოიცავს მთელი სამუშაო მონაცემთა ნაკრების კლასტერულ მეხსიერებაში გადატანას. შუალედური გამოთვლები არ იწერება დისკზე, ისინი ინახება მეხსიერებაში. ეს აძლევს სისტემებს უზარმაზარ სიჩქარის უპირატესობას I/O-Bound სისტემებთან შედარებით.
მანქანური სწავლება არის სისტემების დიზაინის შესწავლა და პრაქტიკა, რომლებსაც შეუძლიათ ისწავლონ, დაარეგულირონ და გააუმჯობესონ მათზე მიწოდებული მონაცემების საფუძველზე. ეს ჩვეულებრივ ნიშნავს პროგნოზირებადი და სტატისტიკური ალგორითმების განხორციელებას.
Map Reduce (არ უნდა აგვერიოს MapReduce-თან Hadoop-თან) არის გამოთვლითი კლასტერული დაგეგმვის ალგორითმი. პროცესი მოიცავს ამოცანის გაყოფას კვანძებს შორის და შუალედური შედეგების მიღებას, გადარევას და შემდეგ თითოეული ნაკრებისთვის ერთი მნიშვნელობის გამოტანას.
NoSQL არის ფართო ტერმინი, რომელიც ეხება მონაცემთა ბაზებს, რომლებიც შექმნილია ტრადიციულის მიღმა ურთიერთობითი მოდელი. NoSQL მონაცემთა ბაზები კარგად შეეფერება დიდ მონაცემებს მათი მოქნილობისა და განაწილებული არქიტექტურის გამო.
ნაკადის დამუშავება არის ცალკეული მონაცემების გამოთვლის პრაქტიკა, როდესაც ისინი მოძრაობენ სისტემაში. ეს საშუალებას იძლევა რეალურ დროში მონაცემთა ანალიზი და შესაფერისია დროზე მგრძნობიარე ტრანზაქციების დასამუშავებლად მაღალი სიჩქარის მეტრიკის გამოყენებით.

ტეგები: ,

დაკავშირებული სტატიები