Veľké dáta v AWS - inteligentné riešenie pre veľké dáta



Tento článok vám pomôže pochopiť, ako AWS inteligentne narába s Big Data. Ukazuje tiež, ako môže AWS ľahko vyriešiť výzvy spojené s dátami Big Data.

Myšlienka Big Data jednoducho nie je nová, je všade. Účinok veľkých dát je všade, od podnikania po vedu, od vlády po umenie a pod. Nie je lepší spoločník ako na spracovanie a analýzu veľkých dát. V tomto článku ukážem, ako AWS čelí výzvam Big Data, a ukazovatele, ktorým sa budem venovať, sú nasledovné:

Čo sú to veľké dáta?

charakteristiky veľkých dát





Veľké dáta môžete považovať za veľkoobjemové, vysokorýchlostné a / alebo rozmanité informačné aktíva, ktoré si vyžadujú nákladovo efektívne a inovatívne formy spracovania informácií, ktoré umožňujú lepší prehľad, rozhodovanie a automatizáciu procesov.

Veľké dáta pozostávajú z 5 dôležitých V, ktoré definujú charakteristiky veľkých dát. Pred prechodom na AWS o nich diskutujme.



Čo je AWS?

pozostáva z mnohých rôznych produktov a služieb cloud computingu. Vysoko zisková divízia Amazon poskytuje servery, úložiská, siete, vzdialené výpočty, e-mail, mobilný vývoj spolu so zabezpečením. Ďalej. AWS sa skladá z dvoch hlavných produktov: EC2, služba virtuálnych strojov spoločnosti Amazon, a S3, úložný systém od spoločnosti Amazon. Je taká veľká a vo výpočtovom svete je prítomná, že je teraz najmenej desaťkrát väčšia ako jej najbližší konkurent a hostí populárne weby ako Netflix a Instagram.

.

AWS je rozdelená do 12 globálnych oblastí po celom svete, z ktorých každá má niekoľko zón dostupnosti, v ktorých sú umiestnené jej servery.Tieto obsluhované oblasti sú rozdelené s cieľom umožniť používateľom nastaviť geografické limity ich služieb, ale tiež zabezpečiť bezpečnosť diverzifikáciou fyzických umiestnení, v ktorých sa údaje uchovávajú.



Prečo veľké dáta v AWS?

Vedci, vývojári a ďalší technologickí nadšenci z mnohých rôznych domén využívajú AWS na vykonávanie analýzy veľkých dát a na riešenie kritických výziev rastúcich Vs digitálnych informácií. AWS vám ponúka portfólio cloudových výpočtových služieb, ktoré vám pomôžu spravovať veľké dáta výrazným znížením nákladov, škálovaním tak, aby vyhovovalo dopytu, a zvyšovaním rýchlosti inovácií.

Amazon Web Services poskytuje a plne integrované portfólio služieb cloud computingu. Ďalej vám pomáha pri vytváraní, zabezpečení a nasadení vašich aplikácií pre veľké dáta. S AWS tiež nepotrebujete hardvér na obstaranie a infraštruktúru na údržbu a rozširovanie. Z tohto dôvodu môžete svoje zdroje zamerať na odhaľovanie nových poznatkov.Pretože neustále pribúdajú nové funkcie, budete vždy môcť využívať najnovšie technológie bez toho, aby ste museli prijímať dlhodobé investičné záväzky.

Ako môže AWS vyriešiť výzvy týkajúce sa veľkých dát?

Riešenia AWS pre veľké dáta

AWS má množstvo riešení pre všetky účely vývoja a nasadenia. Rovnako v oblasti Data Science a Big Data prišla AWS s najnovším vývojom v rôznych aspektoch manipulácie s Big Data. Pred prechodom na nástroje si uvedomme rôzne aspekty veľkých dát, pre ktoré môže AWS poskytnúť riešenia.

  1. Príjem dát
    Zhromažďovanie nespracovaných údajov - transakcie, protokoly, mobilné zariadenia a ďalšie - je prvou výzvou, ktorej čelia mnohé organizácie pri narábaní s veľkými dátami. Dobrá platforma pre veľké dáta tento krok uľahčuje, pretože umožňuje vývojárom prijímať širokú škálu údajov - od štruktúrovaných po neštruktúrované - akoukoľvek rýchlosťou - od reálneho času po dávky.

  2. Uchovávanie údajov
    Akákoľvek platforma pre veľké dáta potrebuje bezpečné, škálovateľné a odolné úložisko na ukladanie údajov pred alebo dokonca po spracovaní úloh. V závislosti od vašich konkrétnych požiadaviek môžete potrebovať aj dočasné úložiská na prenos dát.

  3. Spracovanie dát
    Toto je krok, v ktorom sa transformácia údajov deje zo surového stavu do spotrebného formátu - zvyčajne prostredníctvom triedenia, agregácie, spájania a dokonca aj vykonávania pokročilejších funkcií a algoritmov. Výsledné súbory údajov prechádzajú úložiskom na ďalšie spracovanie alebo sú sprístupnené na spotrebu prostredníctvom nástrojov business intelligence a vizualizácie údajov.

  4. Vizualizácia

    Veľké dáta spočívajú v získavaní vysoko hodnotných a použiteľných štatistík z vašich dátových aktív. V ideálnom prípade sú údaje k dispozícii zainteresovaným stranám prostredníctvom samoobslužných obchodných informácií a agilných nástrojov na vizualizáciu údajov, ktoré umožňujú rýchle a ľahké preskúmanie súborov údajov.

    čo je inštancia triedy v jave

Nástroje AWS pre veľké dáta

V predchádzajúcich častiach sme sa pozreli na polia v oblasti Big Data, v ktorých môže AWS poskytovať riešenia. Okrem toho má AWS vo svojom arzenáli viacero nástrojov a služieb, ktoré zákazníkom umožňujú využívať Big Data.

Pozrime sa na rôzne riešenia, ktoré poskytuje AWS na zvládnutie rôznych stupňov spracovania veľkých dát

Požitie

  1. Kinesis

    Amazon Kinesis Firehose je plne spravovaná služba na doručovanie údajov v reálnom čase priamo do služby Amazon S3. Kinesis Firehose automaticky prispôsobuje objem a priepustnosť streamovaných údajov a nevyžaduje žiadnu nepretržitú správu. Môžete nakonfigurovať Kinesis Firehose tak, aby transformoval streamované dáta skôr, ako ich uložíte do služby Amazon S3.

  2. Snehová guľa
    Môžeš použiť AWS Snehová guľa na bezpečnú a efektívnu migráciu hromadných údajov z lokálnych úložných platforiem a klastrov Hadoop do segmentov S3. Po vytvorení úlohy v AWS Management Console automaticky získate zariadenie Snowball. Po príchode snehovej gule ju pripojte k miestnej sieti, nainštalujte klienta Snowball na lokálny zdroj údajov a potom pomocou klienta Snowball vyberte a preneste adresáre súborov do zariadenia Snowball.

Skladovanie

  1. Amazon S3

Amazon S3 je bezpečné, vysoko škálovateľné a odolné úložisko objektov s milisekundovou latenciou pre prístup k údajom. S3 môže ukladať ľubovoľný typ údajov odkiaľkoľvek - webové stránky a mobilné aplikácie, podnikové aplikácie a údaje zo senzorov alebo zariadení IoT. Môže tiež ukladať a načítať ľubovoľné množstvo dát s bezkonkurenčnou dostupnosťou a od základu poskytovať 99,999999999% (11 deväť) životnosti.

2. AWS lepidlo

Glue je plne spravovaná služba, ktorá poskytuje katalóg údajov, vďaka ktorému sú údaje v dátovom jazere viditeľné. Ďalej má schopnosť vykonávať extrakciu, transformáciu a načítanie (ETL) na prípravu údajov na analýzu. Vstavaný katalóg údajov je tiež ako trvalé úložisko metadát pre všetky údajové aktíva, vďaka čomu je možné všetky údaje vyhľadávať a vyhľadávať v jednom zobrazení.

Spracovanie

  1. EMR
    Pre spracovanie veľkých dát pomocou Spark a Hadoop, Amazon EMR poskytuje riadenú službu, ktorá umožňuje ľahké, rýchle a nákladovo efektívne spracovať obrovské množstvo dát. Okrem toho EMR podporuje 19 rôznych open-source projektov vrátane Hadoop , Iskra a Dodáva sa tiež so spravovanými notebookmi EMR pre dátové inžinierstvo, vývoj dátových vied a spoluprácu.

  2. Červený posun
    Pre dátové sklady Amazon Redshift poskytuje schopnosť spúšťať zložité, analytické dotazy proti petabajtom štruktúrovaných dát. Zahŕňa tiež Spektrum červeného posunu ktorý spúšťa dotazy SQL priamo proti Exabajtom štruktúrovaných alebo neštruktúrovaných údajov v S3 bez potreby zbytočného pohybu údajov.

Vizualizácie

  1. Amazon QuickSight

    V prípade dashboardov a vizualizácií vám Amazon Quicksight poskytuje rýchle cloudové analytické služby pre firmy. Uľahčuje vytváranie ohromujúcich vizualizácií a bohatých informačných panelov. Ďalej k nim máte prístup z ľubovoľného prehliadača alebo mobilného zariadenia.

Demo - analýza údajov o ohrozených druhoch rastlín a zvierat v Austrálii.

V tejto ukážke použijeme vzorové údaje o ohrozených rastlinných a živočíšnych druhoch zo štátov a území Austrálie. Tu vytvoríme klaster EMR a nakonfigurujeme ho na vykonávanie viacstupňových úloh Apache Hive. V klastri EMR bude nainštalovaný server Apache Hive. Tento klaster bude ako súborový systém používať EMRFS, aby sa jeho vstupné a výstupné údaje namapovali na segment S3. Klaster bude tiež používať rovnaký segment S3 na ukladanie súborov denníka.

Teraz v klastri vytvoríme niekoľko krokov EMR na spracovanie vzorovej sady údajov. Tu bude v každom z týchto krokov spustený skript Hive a konečný výstup bude uložený do vedra S3. Tieto kroky vygenerujú protokoly MapReduce, a to preto, že príkazy Hive sú preložené do úloh MapReduce za behu. Súbory denníka pre každý krok sú agregované z kontajnerov, ktoré obsahuje.

Vzorové údaje

Vzorový súbor údajov pre tento prípad použitia je verejne dostupný na serveri Otvorený web austrálskej vlády s údajmi . Tento súbor údajov sa týka ohrozených živočíšnych a rastlinných druhov z rôznych štátov a území v Austrálii. Popis polí tejto množiny údajov a súboru CSV je k dispozícii a je možné ich stiahnuť tu .

Kroky spracovania

Prvý krok úlohy EMR tu zahŕňa vytvorenie tabuľky Hive ako schémy pre podkladový zdrojový súbor v S3. V druhom kroku úlohy teraz spustíme úspešný dopyt proti údajom. Podobne potom spustíme tretí a štvrtý dotaz.

Tieto štyri kroky zopakujeme niekoľkokrát za hodinu a simulujeme následné behy viacstupňovej dávkovej úlohy. V scenári z reálneho života však môže byť časový rozdiel medzi každou sériovou prevádzkou normálne oveľa väčší. Malý časový odstup medzi po sebe nasledujúcimi jazdami má urýchliť naše testovanie.

Vedro a priečinky S3

Pred vytvorením nášho klastra EMR sme tu museli vytvoriť segment S3, ktorý bude hostiť jeho súbory. V našom príklade pomenujeme tento segment „arvind1-bucket“. Priečinky v tomto segmente sú zobrazené nižšie v AWS Console pre S3:

periodická tabuľka nástrojov devops

  • Vstupný priečinok obsahuje vzorové údaje

  • Priečinok skripty obsahuje súbory skriptov Hive pre kroky úlohy EMR

  • Výstupný priečinok bude zjavne obsahovať výstup programu Hive

  • Klaster EMR používa priečinok s protokolmi na ukladanie súborov protokolu.

Skripty úľa pre pracovné kroky EMR

1. V tomto kroku úlohy sa spustí skript úľavytvoriť externú tabuľku Hive. Táto tabuľka popisuje tabuľkovú schému podkladového dátového súboru CSV. Skript je tento:

VYTVORIŤ EXTERNÚ TABUĽKU `threatened_species` (reťazec` vedeckého názvu`, reťazec `bežného názvu`, reťazec` súčasného vedeckého názvu`, reťazec `ohrozeného stavu`, reťazec` act`, reťazec `nsw`, reťazec` nt`, `qld` reťazec, reťazec `sa`, reťazec` tas`, reťazec `vic`, reťazec` wa`, reťazec `aci`, reťazec` cki`, reťazec `ci`, reťazec` csi`, reťazec `jbt`,` nfi` reťazec, reťazec `hmi`, reťazec` aat`, reťazec `cma`,` uvedený šprota taxonid` bigint, `súčasný šprota taxonid` bigint, reťazec` ríše`, reťazec `triedy`,` profil` reťazec, `dátum extrahovania` reťazec, reťazec `nsl name`, reťazec` rodiny`, reťazec `rodu ', reťazec` druhu`, reťazec `špecifického poradia`, reťazec` infraspecies`, reťazec `druh autora`, reťazec` autorský druh infraspecies) ROW FORMAT DELIMITED FIELDS UKONČENÝ ',' ULOŽENÉ AKO INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket

2. V tomto pracovnom kroku sa spustí dopyt na výpočet piatich najlepších ohrozených druhov v štáte Nový Južný Wales (NSW). Názov súboru dotazu úľa je endangeredSpeciesNSW.q a je to zobrazené nižšie:

reťazec java rozdeliť regulárny výraz viac oddeľovačov
VYBERTE druh, POČET (nsw) AKO počet_z_nebezpečných_druhov OD Z ohrozených_druhov KDE (nsw = 'Áno' ALEBO nsw = 'Ohrozených') A 'ohrozený stav' = 'Ohrozený' SKUPINA PODĽA druhov HAVING COUNT (nsw)> 1 OBJEDNÁVKA PODĽA počtu_z_nebezpečných_druhov POPIS LIMIT 5

3.V tomto pracovnom kroku sa spustí dopyt na výpočet celkového počtu ohrozených druhov rastlín pre každú rodinu rastlín v Austrálii. Názov súboru dotazu úľa jeendangeredPlantSpecies.qa je uvedený nižšie

VYBERTE čeľaď, COUNT (druh) AS počet_od_ohrozených_druhov OD Z ohrozeného_odruhu2 KDE kráľovstvo = 'Plantae' A 'ohrozený stav' = 'Ohrozený' SKUPINA PODĽA čeľade

4. V tomto kroku sú uvedené vedecké názvy vyhynutých druhov zvierat v austrálskom štáte Queensland. Volá sa súbor skriptu extinctAnimalsQLD.q a je zobrazené nižšie:

VYBERTE 'bežný názov', 'vedecký názov' FROM threatened_species WHERE Kingdom = 'Animalia' AND (qld = 'Yes' OR qld = 'Zaniknutý') A 'ohrozený stav' = 'Zaniknutý'

Agregácia denníka

Tu sme tiež nahrali súbor JSON s názvom logAggregation.json do priečinka skriptov vedra S3. Tento súbor používame na agregáciu protokolových súborov YARN. Agregácia protokolov sa konfiguruje v konfiguračnom súbore yarn-site.xml pri spustení klastra. Obsah súboru logAggregation.json je nasledovný:

[{„Klasifikácia“: „yarn-site“, „Properties“: {„yarn.log-aggregation-enable“: „true“, „yarn.log-aggregation.retain-seconds“: „-1“, „yarn .nodemanager.remote-app-log-dir ”:“ s3: // arvind1-bucket / logs ”}}]

Po vytvorení segmentu S3 a skopírovaní dátových súborov a súborov skriptov do príslušných priečinkov je teraz čas na nastavenie klastra EMR. Nasledujúce snímky popisujú proces vytvárania klastra s väčšinou predvolenými nastaveniami.

Nastavenie klastra EMR

Na prvom obrázku sme si kvôli konfigurácii klastra v konzole AWS ponechali všetky aplikácie odporúčané EMR, vrátane Hive. Na ukladanie metadát Hive nepotrebujeme používať AWS Glue, ani v tejto chvíli nepridávame žiadny krok úlohy. Musíme však pridať softvérové ​​nastavenie pre Hive. Tu musíte pozorne sledovať, ako v tomto poli určujeme cestu k súboru JSON agregácie protokolov.

V ďalšom kroku sme ponechali všetky predvolené nastavenia. Kvôli nášmu testu bude mať klaster jeden hlavný uzol a dva základné uzly. Každý uzol je inštanciou m3.xlarge a má 10 GB koreňový zväzok. V ďalšom kroku pomenujeme klaster arvind1-cluster a určíme vlastné umiestnenie s3 pre jeho súbory protokolu.

Nakoniec sme určili pár kľúčov EC2 na účely prístupu k hlavnému uzlu klastra. Predvolené roly IAM pre možnosti EMR, profil inštancie EC2 a možnosti automatického mierenia sa nezmenia. Hlavný a hlavný uzol tiež predvolene používajú dostupné skupiny zabezpečenia. Spravidla ide o predvolené nastavenie pre klaster EMR. Keď je všetko pripravené, klaster je v stave „čakania“, ako je uvedené nižšie:

Odoslať kroky úlohy Hive

Potom musíme povoliť prístup SSH.

  1. Otvorte konzolu Amazon EMR na adrese https://console.aws.amazon.com/elasticmapreduce/ .
  2. Vyberte si Klastre .
  3. Vyber názov klastra.
  4. Pod Bezpečnosť a prístup vyber Skupiny zabezpečenia pre pána odkaz.
  5. Vyberte si ElasticMapReduce-master zo zoznamu.
  6. Vyberte si Prichádzajúce , Upraviť .
  7. Nájdite pravidlo s nasledujúcimi nastaveniami a vyberte ikonu X ikona na jej odstránenie:
    • Typ SSH
    • Prístav 22
    • Zdroj Vlastné 0.0.0.0/0
  8. Prejdite do dolnej časti zoznamu pravidiel a vyberte možnosť Pridajte pravidlo .
  9. Pre Typ , vyberte SSH .Toto sa automaticky zadá TCP pre Protokol a 22 pre Rozsah portov .
  10. Ako zdroj vyberte Moje IP Týmto sa automaticky pridá IP adresa vášho klientskeho počítača ako zdrojová adresa. Prípadne môžete pridať celý rad Vlastné adresy dôveryhodných klientov a zvoľte pridaj pravidlo vytvoriť ďalšie pravidlá pre ďalších klientov. V mnohých sieťových prostrediach prideľujete adresy IP dynamicky, takže budete pravdepodobne musieť pravidelne upravovať pravidlá skupiny zabezpečenia, aby ste aktualizovali adresu IP dôveryhodných klientov.
  11. Vyberte si Uložiť .
  12. Voliteľne vyberte ElasticMapReduce-slave zo zoznamu a opakujte vyššie uvedené kroky, aby ste umožnili klientovi SSH prístup k základným uzlom a uzlom úloh z dôveryhodných klientov.

Odkedy je EMR klaster funkčný, pridali sme štyri pracovné kroky. Toto sú kroky, ktoré by EMR bežali jeden za druhým. Nasledujúci obrázok zobrazuje kroky z konzoly AWS EMR:

Po pridaní štyroch krokov môžeme skontrolovať stav týchto krokov ako dokončený. Aj keď dôjde k problémom s vykonaním týchto krokov, potom ich možno v takom prípade vyriešiť pomocou protokolových súborov týchto krokov.

Takže toto je z mojej strany v tomto článku o veľkých dátach v AWS. Dúfam, že ste pochopili všetko, čo som tu vysvetlil.

Ak sa vám tieto veľké dáta zdajú byť v AWS relevantné, môžete sa pozrieť na živý kurz Edureky a na kurz vedený inštruktorom , spoluvytvorené odborníkmi v odbore.

Máte na nás otázku? Uveďte to prosím v sekcii komentárov v tomto Ako nasadiť webovú aplikáciu Java do AWS a my sa vám ozveme.