Výukový program pre veľké dáta: Všetko, čo potrebujete vedieť o veľkých dátach!



Tento blog o výučbe veľkých dát vám poskytne kompletný prehľad o veľkých dátach, ich vlastnostiach, aplikáciách a výzvach s veľkými dátami.

Výukový program pre veľké dáta

Veľké dáta, nepočuli ste tento výraz už predtým? Som si istý, že máš. Za posledných 4 až 5 rokov všetci hovoria o veľkých dátach. Ale naozaj viete, čo to vlastne Big Data je, ako ovplyvňuje náš život a prečo organizácie lovia profesionálov s ? V tomto výučbe veľkých dát vám poskytnem úplný prehľad o veľkých dátach.

Ďalej uvádzam témy, ktorým sa budem venovať v tomto výučbe veľkých dát:





  • Príbeh veľkých dát
  • Faktory riadenia veľkých dát
  • Čo sú to veľké dáta?
  • Charakteristiky veľkých dát
  • Typy veľkých dát
  • Príklady veľkých dát
  • Aplikácie veľkých dát
  • Výzvy spojené s veľkými dátami

Výukový program pre veľké dáta - Edureka

Dovoľte mi začať tento Big Data Tutorial krátkym príbehom.



Príbeh veľkých dát

V dávnych dobách ľudia cestovali z jednej dediny do druhej dediny na voze poháňanom koňom, ale ako čas plynul, z dedín sa stali mestá a ľudia sa rozprestierali. Taktiež sa zvýšila vzdialenosť na cestu z jedného mesta do druhého. Cestou medzi mestami a batožinou sa stal problém. Z ničoho nič jeden inteligentný chlapec navrhol, aby sme tento problém vyriešili, mali by sme koňa viac ošetrovať a kŕmiť. Keď sa pozriem na toto riešenie, nie je to také zlé, ale myslíte si, že z koňa sa môže stať slon? Ja si nemyslím. Iný šikovný chlapík povedal, že namiesto jedného koňa, ktorý ťahá vozík, máme 4 kone, ktoré ťahajú ten istý vozík. Čo si myslíte vy, chlapci, o tomto riešení? Myslím si, že je to fantastické riešenie. Ľudia teraz môžu cestovať na veľké vzdialenosti za kratší čas a dokonca mať pri sebe viac batožiny.

Rovnaký koncept platí aj pre veľké dáta. Spoločnosť Big Data hovorí, že až do dnešného dňa sme boli v poriadku s ukladaním údajov na naše servery, pretože objem údajov bol dosť obmedzený a čas na spracovanie týchto údajov bol tiež v poriadku. Ale teraz v tomto súčasnom technologickom svete dáta rastú príliš rýchlo a ľudia sa na ne často spoliehajú. Rovnako ako rýchlosť, s akou dáta rastú, je nemožné ich uložiť na akýkoľvek server.

Prostredníctvom tohto blogu o výučbe veľkých dát preskúmajme zdroje veľkých dát, ktoré tradičné systémy nedokážu uložiť a spracovať.



Faktory riadenia veľkých dát

Množstvo údajov o planéte Zem exponenciálne rastie z mnohých dôvodov. Rôzne zdroje a naše každodenné činnosti generujú veľa údajov. S vynálezom webu prešiel celý svet online a všetko, čo robíme, zanecháva digitálnu stopu. S online pripojením inteligentných objektov sa rýchlosť rastu dát rapídne zvýšila. Hlavnými zdrojmi veľkých dát sú stránky sociálnych médií, siete senzorov, digitálne obrázky / videá, mobilné telefóny, záznamy transakčných nákupov, webové protokoly, lekárske záznamy, archívy, vojenský dohľad, elektronický obchod, komplexný vedecký výskum atď. Všetky tieto informácie dosahujú okolo niekoľkých biliónov bajtov údajov. Do roku 2020 bude objem dát okolo 40 Zettabytov, čo sa rovná pridaniu každého zrnka piesku na planéte vynásobenému sedemdesiatimi piatimi.

Čo sú to veľké dáta?

Big Data je termín používaný pre kolekciu množín dát, ktoré sú veľké a zložité a ktoré je ťažké uložiť a spracovať pomocou dostupných nástrojov na správu databáz alebo tradičných aplikácií na spracovanie údajov. Výzva zahŕňa zachytávanie, liečenie, ukladanie, vyhľadávanie, zdieľanie, prenos, analýzu a vizualizáciu týchto údajov.

Charakteristiky veľkých dát

Päť charakteristík, ktoré definujú veľké dáta, sú: objem, rýchlosť, rozmanitosť, pravdivosť a hodnota.

  1. OBJEM

    Objem označuje „množstvo dát“, ktoré rastie každým dňom veľmi rýchlym tempom. Veľkosť dát generovaných ľuďmi, strojmi a ich interakciami na samotných sociálnych sieťach je obrovská. Vedci predpovedali, že do roku 2020 sa vygeneruje 40 Zettabytov (40 000 Exabajtov), ​​čo je oproti roku 2005 nárast 300-krát.

  2. VELOCITA

    Rýchlosť je definovaná ako tempo, ktorým rôzne zdroje generujú údaje každý deň. Tento tok údajov je obrovský a nepretržitý. V súčasnosti je v mobilných zariadeniach 1,03 miliardy denných aktívnych používateľov (Facebook DAU), čo je medziročný nárast o 22%. To ukazuje, ako rýchlo rastie počet používateľov na sociálnych sieťach a ako rýchlo sa denne generujú údaje. Ak dokážete rýchlosť zvládnuť, budete schopní generovať prehľady a prijímať rozhodnutia na základe údajov v reálnom čase.

  3. ODRODY

    Pretože existuje veľa zdrojov, ktoré prispievajú k veľkým údajom, typ údajov, ktoré generujú, je odlišný. Môže byť štruktúrovaný, pološtruktúrovaný alebo neštruktúrovaný. Existuje teda množstvo údajov, ktoré sa generujú každý deň. Predtým sme údaje získavali z programu Excel a databáz, teraz údaje prichádzajú vo forme obrázkov, zvukových správ, videí, údajov zo senzorov atď., Ako je znázornené na obrázku nižšie. Preto táto rozmanitosť neštruktúrovaných údajov spôsobuje problémy so zachytávaním, ukladaním, ťažbou a analýzou údajov.

  4. VERACITA

    Pravdivosť sa týka údajov, ktoré majú pochybnosti alebo neistotu o údajoch, ktoré sú k dispozícii kvôli nekonzistentnosti a neúplnosti údajov. Na obrázku nižšie vidíte, že v tabuľke chýba niekoľko hodnôt. Tiež je ťažké prijať niekoľko hodnôt - napríklad 15 000 minimálnych hodnôt v 3. rade, to nie je možné. Táto nekonzistentnosť a neúplnosť je Pravdivosť.
    Dostupné údaje môžu byť niekedy chaotické a možno im bude ťažké uveriť. Pri mnohých formách veľkých dát sa kvalita a presnosť ťažko kontrolujú, napríklad príspevky na Twitteri s hashtagmi, skratkami, preklepmi a hovorovou rečou. Objem je často príčinou nedostatočnej kvality a presnosti údajov.

    • Z dôvodu neistoty údajov neverí každý tretí vedúci podniku informáciám, ktoré používajú pri rozhodovaní.
    • Prieskumom sa zistilo, že 27% respondentov si nebolo istých, koľko ich údajov je nepresných.
    • Nízka kvalita dát stojí americkú ekonomiku ročne okolo 3,1 bilióna dolárov.
  5. HODNOTA

    Po diskusii o objemoch, rýchlostiach, rozmanitosti a pravdivosti existuje ešte ďalšie V, ktoré by sa malo brať do úvahy pri pohľade na veľké dáta, t. J. Hodnota. Je dobré a dobré mať prístup k veľkýmúdajealepokiaľ to nedokážeme zmeniť na hodnotu, je to zbytočné. Jeho premenou na hodnotu myslím, že zvyšuje prínos pre organizácie, ktoré analyzujú veľké dáta? Pracuje organizácia na veľkých dátach s vysokou návratnosťou investícií (návratnosť investícií)? Pokiaľ to nezvyšuje ich zisky prácou na Big Data, je to zbytočné.

Prejdite si naše video Big Data nižšie a dozviete sa viac o Big Data:

Výukový program pre veľké dáta pre začiatočníkov Čo sú to veľké dáta | Edureka

Ako sme uviedli vo Variety, existujú rôzne typy údajov, ktoré sa generujú každý deň. Poďme teda teraz pochopiť typy údajov:

hash mapa vs hash tabuľka

Typy veľkých dát

Veľké dáta môžu byť troch typov:

  • Štruktúrované
  • Pološtruktúrované
  • Neštruktúrované

  1. Štruktúrované

    Údaje, ktoré je možné uložiť a spracovať v pevnom formáte, sa nazývajú štruktúrované údaje. Údaje uložené v systéme správy relačných databáz (RDBMS) sú jedným príkladom „štruktúrovaných“ údajov. Je ľahké spracovať štruktúrované údaje, pretože má pevnú schému. Na správu tohto druhu údajov sa často používa jazyk štruktúrovaných dotazov (SQL).

  2. Pološtruktúrované

    Semi-Structured Data je typ údajov, ktorý nemá formálnu štruktúru dátového modelu, tj. Definíciu tabuľky v relačnom DBMS, ale napriek tomu má niektoré organizačné vlastnosti, ako sú značky a ďalšie značky na oddelenie sémantických prvkov, ktoré to uľahčujú. Analyzovať. Súbory XML alebo dokumenty JSON sú príkladom pološtruktúrovaných údajov.

  3. Neštruktúrované

    Dáta, ktoré majú neznámu formu a nemôžu byť uložené v RDBMS a nemôžu byť analyzované, pokiaľ nie sú transformované do štruktúrovaného formátu, sa nazývajú neštruktúrované údaje. Textové súbory a multimediálny obsah, ako sú obrázky, zvukové súbory, videá, sú príkladom neštruktúrovaných údajov. Neštruktúrované dáta rastú rýchlejšie ako iné, odborníci tvrdia, že 80 percent dát v organizácii je neštruktúrovaných.

Doteraz som sa práve venoval zavedeniu Big Data. Ďalej tento tutoriál o Big Data hovorí o príkladoch, aplikáciách a výzvach v Big Data.

Príklady veľkých dát

Denne nahrávame milióny bajtov údajov. 90% svetových údajov bolo vytvorených za posledné dva roky.

  • Walmart zvláda viac ako 1 milión transakcie so zákazníkmi každú hodinu.
  • Facebook ukladá, pristupuje a analyzuje 30 a viac petabajtov údajov generovaných používateľom.
  • Viac ako 230 miliónov tweetov sa vytvára každý deň.
  • Viac ako 5 miliárd ľudia volajú, posielajú textové správy, tweetujú a prezerajú si mobilné telefóny po celom svete.
  • Používatelia služby YouTube nahrávajú 48 hodín každú minútu dňa nové video.
  • Rúčky Amazon 15 miliónov zákaznícke klikanie na dáta používateľov za deň, aby sa mohli odporúčať výrobky
  • 294 miliárd e-maily sa odosielajú každý deň. Služby analyzujú tieto údaje, aby našli spam.
  • Moderné autá majú blízko k 100 senzorov ktorý monitoruje hladinu paliva, tlak v pneumatikách atď., každé vozidlo generuje množstvo údajov zo senzorov.

Aplikácie veľkých dát

Nemôžeme hovoriť o dátach bez toho, aby sme hovorili o ľuďoch, o ľuďoch, ktorí majú z výhod Big Data aplikácií úžitok. Takmer všetky priemyselné odvetvia v súčasnosti využívajú aplikácie Big Data jedným alebo druhým spôsobom.

  • Chytrejšia zdravotná starostlivosť : S využitím petabajtov údajov o pacientovi môže organizácia extrahovať zmysluplné informácie a potom vytvoriť aplikácie, ktoré vopred dokážu predpovedať zhoršujúci sa stav pacienta.
  • Telecom : Telekomunikačné odvetvia zhromažďujú informácie, analyzujú ich a poskytujú riešenia rôznych problémov. Televíznym spoločnostiam sa pomocou aplikácií Big Data podarilo výrazne znížiť stratu dátových paketov, ku ktorej dochádza pri preťažení sietí, a zabezpečiť tak svojim zákazníkom bezproblémové pripojenie.
  • Maloobchodné : Maloobchod má niektoré z najtesnejších marží a je jedným z najväčších príjemcov veľkých dát. Krása použitia veľkých dát v maloobchode spočíva v porozumení spotrebiteľského správania. Nástroj odporúčaní spoločnosti Amazon poskytuje návrhy založené na histórii prehliadania spotrebiteľa.
  • Riadenie premávky : Dopravné zápchy sú hlavnou výzvou pre mnoho miest na celom svete. Efektívne využitie údajov a senzorov bude kľúčom k lepšiemu riadeniu dopravy, pretože mestá budú čoraz hustejšie osídlené.
  • Výroba : Analýza veľkých dát vo výrobnom priemysle môže znížiť chyby komponentov, zlepšiť kvalitu výrobkov, zvýšiť efektivitu a ušetriť čas a peniaze.
  • Kvalita vyhľadávania : Zakaždým, keď extrahujeme informácie z google, súčasne pre ne generujeme údaje. Google tieto údaje ukladá a používa ich na zlepšenie kvality vyhľadávania.

Niekto oprávnene povedal: 'Nie všetko na záhrade je Rosy!' . Až doteraz v tomto výučbe o veľkých dátach som vám práve ukázal ružový obraz veľkých dát. Ak by však bolo také ľahké využiť veľké dáta, nemyslíte si, že by do toho investovali všetky organizácie? Poviem vám vopred, nie je to tak. Pri práci s dátami Big Data vás čaká niekoľko výziev.

Teraz, keď už poznáte Big Data a jeho rôzne funkcie, ďalšia časť tohto blogu o Big Data Tutoriáli objasní niektoré z hlavných výziev, ktorým Big Data čelia.

Výzvy spojené s veľkými dátami

Poviem vám niekoľko výziev, ktoré prichádzajú s Big Data:

  1. Kvalita údajov - Tu je problém 4thV, tj. Pravdivosť. Údaje sú tu veľmi chaotické, nekonzistentné a neúplné. Špinavé údaje stoja spoločnosti v USA každý rok 600 miliárd dolárov.
  1. Objav - Hľadanie poznatkov o veľkých dátach je ako hľadanie ihly v kope sena. Analýza petabajtov dát pomocou extrémne výkonných algoritmov na nájdenie vzorcov a štatistík je veľmi zložitá.
  1. Skladovanie - Čím viac údajov má organizácia, tým zložitejšie môžu byť jej problémy s riadením. Tu vyvstáva otázka „Kde to uložiť?“. Potrebujeme úložný systém, ktorý sa dá na požiadanie ľahko zväčšiť alebo zmenšiť.
  1. Analytika - V prípade veľkých dát si väčšinou neuvedomujeme druh údajov, s ktorými narábame, takže analýza týchto údajov je ešte zložitejšia.
  1. Bezpečnosť - Pretože majú dáta obrovskú veľkosť, je ďalšou výzvou ich zabezpečenie. Zahŕňa autentifikáciu používateľa, obmedzenie prístupu na základe používateľa, zaznamenávanie histórie prístupu k údajom, správne používanie šifrovania údajov atď.
  1. Nedostatok talentu - Existuje veľké množstvo veľkých dátových projektov vo veľkých organizáciách, ale zložitý tím vývojárov, dátových vedcov a analytikov, ktorí majú tiež dostatočné množstvo doménových znalostí, je stále výzvou.

Hadoop na záchranu

Máme záchrancu, ktorý sa vyrovná s výzvami veľkých dát - ich Hadoop . Hadoop je otvorený programovací rámec založený na prostredí Java, ktorý podporuje ukladanie a spracovanie extrémne veľkých súborov údajov v prostredí distribuovanej výpočtovej techniky. Je súčasťou projektu Apache sponzorovaného nadáciou Apache Software Foundation.

Hadoop so svojim distribuovaným spracovaním narába s veľkými objemami štruktúrovaných a neštruktúrovaných údajov efektívnejšie ako s tradičným podnikovým dátovým skladom. Hadoop umožňuje spúšťať aplikácie na systémoch s tisíckami komoditných hardvérových uzlov a spracovávať tisíce terabajtov dát. Organizácie prijímajú program Hadoop, pretože ide o softvér s otvoreným zdrojovým kódom a môže bežať na komoditnom hardvéri (váš osobný počítač).Počiatočné úspory nákladov sú dramatické, pretože komoditný hardvér je veľmi lacný. S pribúdajúcimi organizačnými údajmi je potrebné za chodu pridať ďalší a ďalší komoditný hardvér, a preto sa Hadoop ukazuje ako ekonomický.Okrem toho má Hadoop za sebou robustnú komunitu Apache, ktorá naďalej prispieva k jeho pokroku.

Ako som sľúbil už skôr, prostredníctvom tohto blogu o výučbe veľkých dát som vám poskytol maximálny prehľad o veľkých dátach. Týmto sa končí Big Data Tutorial. Ďalším krokom vpred je spoznať a naučiť sa Hadoop. Máme séria výučby Hadoop blogy, ktoré poskytnú podrobné informácie o úplnom ekosystéme Hadoop.

Všetko dobré, šťastný Hadooping!

Teraz, keď ste pochopili, čo sú veľké dáta, pozrite sa na autor: Edureka, dôveryhodná online vzdelávacia spoločnosť so sieťou viac ako 250 000 spokojných študentov rozmiestnených po celom svete. Kurz certifikácie Edadoka Big Data Hadoop Certification Training pomáha študentom stať sa odborníkmi v oblasti HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocou prípadov použitia v reálnom čase v oblasti maloobchodu, sociálnych médií, letectva, cestovného ruchu, financií.

Máte na nás otázku? Uveďte to prosím v sekcii komentárov a my sa vám ozveme.

Súvisiace príspevky:

ako to urobiť s mocou v