Apache Spark s Hadoop - prečo je to dôležité?



Implementácia Apache Spark s Hadoop vo veľkom meradle špičkovými spoločnosťami naznačuje jeho úspech a jeho potenciál, pokiaľ ide o spracovanie v reálnom čase.

Hadoop, rámec pre spracovanie údajov, ktorý sa stal platformou pre seba, sa stáva ešte lepšou, keď sú k nej pripojené dobré komponenty. Niektoré nedostatky Hadoopu, ako napríklad komponent MapReduce v Hadoope, majú pre analýzu údajov v reálnom čase dobrú povesť.





Vstúpte do Apache Spark, stroja na spracovanie údajov založeného na Hadoope, ktorý je určený pre dávkové aj streamovacie pracovné zaťaženie, teraz vo svojej verzii 1.0 a vybavený funkciami, ktoré ilustrujú, aké druhy práce má Hadoop obsahovať. Spark beží nad existujúcimi klastrami Hadoop a poskytuje vylepšené a ďalšie funkcie.

Pozrime sa na kľúčové vlastnosti iskry a na to, ako to funguje spolu s Hadoop a .



Kľúčové výhody Apache Spark:

img2-R

Úžasné vlastnosti Spark:

  • Integrácia Hadoop - Spark dokáže pracovať so súbormi uloženými v HDFS.
  • Interaktívna schránka spoločnosti Spark - Spark je napísaný v jazyku Scala a má vlastnú verziu tlmočníka Scala.
  • Spark’s Analytic Suite - Spark je dodávaný s nástrojmi na interaktívnu analýzu dotazov, rozsiahle spracovanie a analýzu grafov a analýzu v reálnom čase.
  • Odolné distribuované množiny údajov (RDD) - RDD sú distribuované objekty, ktoré je možné ukladať do medzipamäte v klastri výpočtových uzlov. Sú to primárne dátové objekty používané v Sparku.
  • Distribuovaní operátori - Okrem MapReduce existuje veľa ďalších operátorov, ktoré je možné na RDD použiť.

Výhody použitia Apache Spark s Hadoop:

postgraduálny diplom vs magister
  • Apache Spark zapadá do open-source komunity Hadoop, nad Hadoop Distributed File System (HDFS). Spark však nie je viazaný na dvojstupňovú paradigmu MapReduce a pri určitých aplikáciách sľubuje výkon až stokrát rýchlejší ako Hadoop MapReduce.



  • Je vhodný pre algoritmy strojového učenia - Spark poskytuje primitívne funkcie pre výpočty klastrov v pamäti, ktoré umožňujú užívateľským programom načítať údaje do pamäte klastra a opakovane ich vyhľadávať.

  • Bežte stokrát rýchlejšie - Analyzačný softvér Spark môže tiež urýchliť úlohy, ktoré bežia na platforme na spracovanie údajov Hadoop. Apache Spark, nazvaný „Nôž švajčiarskej armády Hadoop“, poskytuje schopnosť vytvárať úlohy analýzy dát, ktoré môžu bežať stokrát rýchlejšie ako úlohy bežiace na štandardnom Apache Hadoop MapReduce. MapReduce bol všeobecne kritizovaný ako úzke miesto v klastroch Hadoop, pretože vykonáva úlohy v dávkovom režime, čo znamená, že analýza údajov v reálnom čase nie je možná.

  • Alternatíva k MapReduce - Spark poskytuje alternatívu k MapReduce. Vykonáva úlohy v krátkych dávkach mikro-dávok, ktoré sú od seba vzdialené päť sekúnd. Poskytuje tiež väčšiu stabilitu ako v reálnom čase streamované rámce Hadoop, ako napríklad Twitter Storm. Softvér je možné použiť na rôzne úlohy, napríklad na priebežnú analýzu živých údajov a vďaka softvérovej knižnici aj na výpočtové hĺbkové úlohy, ktoré zahŕňajú strojové učenie a spracovanie grafov.

  • Podpora viacerých jazykov - Pomocou programu Spark môžu vývojári písať úlohy analýzy dát v prostredí Java, Scala alebo Python pomocou skupiny viac ako 80 operátorov na vysokej úrovni.

  • Podpora knižnice - Knižnice spoločnosti Spark sú navrhnuté tak, aby doplnili typy spracovávaných úloh, ktoré sú agresívnejšie preskúmané, s najnovšími komerčne podporovanými nasadeniami Hadoop. MLlib implementuje množstvo bežných algoritmov strojového učenia, ako je napríklad naivná Bayesiánska klasifikácia alebo klastrovanie. Spark Streaming umožňuje vysokorýchlostné spracovanie údajov prijatých z viacerých zdrojov a GraphX ​​umožňuje výpočty grafických údajov.

  • Stabilné API - S verziou 1.0 ponúka Apache Spark stabilné API (aplikačné programové rozhranie), ktoré môžu vývojári použiť na interakciu so Sparkom prostredníctvom svojich vlastných aplikácií. To pomáha pri ľahšom používaní Stormu v nasadení založenom na Hadoop.

    ako nainštalovať zatmenie ide -
  • Komponent SPARK SQL - Komponent Spark SQL na prístup k štruktúrovaným údajom umožňuje pri analytických prácach zisťovanie údajov popri neštruktúrovaných údajoch. Spark SQL, ktorý je momentálne iba v alfa verzii, umožňuje spúšťať dotazy podobné SQL s údajmi uloženými v Apache Hive. Extrakcia dát z Hadoopu pomocou dotazov SQL je ďalším variantom funkcie dotazovania v reálnom čase, ktorá sa objavuje okolo Hadoopu.

  • Kompatibilita Apache Spark s Hadoop [HDFS, HBASE a YARN] - Apache Spark je plne kompatibilný s distribuovaným súborovým systémom (HDFS) spoločnosti Hadoop, ako aj s ďalšími komponentmi Hadoop, ako sú YARN (Yet Another Resource Negotiator) a distribuovaná databáza HBase.

Priemyselní adoptéri:

Spoločnosti IT ako Cloudera, Pivotal, IBM, Intel a MapR zložili Spark do svojich zásobníkov Hadoop. Databricks, spoločnosť založená niektorými vývojármi spoločnosti Spark, ponúka komerčnú podporu pre tento softvér. Softvér Yahoo a NASA okrem iného používajú na každodenné dátové operácie.

Záver:

To, čo ponúka Spark, bude určite veľkým lákadlom pre používateľov aj komerčných predajcov Hadoop. Používateľov, ktorí chcú implementovať Hadoop a ktorí už majú okolo Hadoopu vybudované mnohé svoje analytické systémy, láka predstava, že môžu Hadoop používať ako systém na spracovanie v reálnom čase.

Spark 1.0 im poskytuje ďalšiu paletu funkcií na podporu alebo vytváranie vlastných predmetov. Jeden z troch veľkých dodávateľov Hadoopu, spoločnosť Cloudera, už v skutočnosti poskytuje komerčnú podporu spoločnosti Spark prostredníctvom ponuky služby Cloudera Enterprise. Spoločnosť Hortonworks tiež ponúka Spark ako súčasť svojej distribúcie Hadoop. Implementácia programu Spark vo veľkom meradle špičkovými spoločnosťami naznačuje jeho úspech a potenciál, pokiaľ ide o spracovanie v reálnom čase.

Máte na nás otázku? Uveďte ich v sekcii komentárov a my sa vám ozveme.

Súvisiace príspevky:

použitie balíkov v Jave