4 spôsoby spoločného použitia R a Hadoop



R a Hadoop sa navzájom celkom dobre dopĺňajú, čo sa týka vizualizácie a analýzy veľkých dát. Tento príspevok v blogu hovorí o 4 spôsoboch ich spoločného použitia.

Hadoop je rušivý programovací rámec založený na prostredí Java, ktorý podporuje spracovanie veľkých množín údajov v prostredí distribuovaných výpočtov, zatiaľ čo R je programovacie prostredie a softvér pre štatistické výpočty a grafiku. Jazyk R je medzi štatistikmi a ťažiarmi údajov veľmi často používaný pri vývoji štatistického softvéru a vykonávaní analýzy údajov. V oblasti interaktívnej analýzy údajov, všeobecných štatistík a prediktívneho modelovania si R získal obrovskú popularitu vďaka svojej schopnosti klasifikácie, zoskupovania a hodnotenia.

KM





Hadoop a R sa navzájom celkom dobre dopĺňajú, čo sa týka vizualizácie a analýzy veľkých dát.

Pomocou R a Hadoop

Existujú štyri rôzne spôsoby spoločného použitia Hadoop a R:



čo je hashmap a hashtable v jave

1. RHadoop

RHadoop je kolekcia troch R balíkov: rmr, rhdfs a rhbase. Balík rmr poskytuje funkčnosť Hadoop MapReduce v R, rhdfs poskytuje správu súborov HDFS v R a rhbase poskytuje správu databázy HBase z vnútra R. Každý z týchto primárnych balíkov je možné použiť na lepšiu analýzu a správu údajov rámca Hadoop.

2. ORCH



ORCH znamená Oracle R Connector pre Hadoop. Je to kolekcia balíkov R, ktoré poskytujú príslušné rozhrania pre prácu s tabuľkami Hive, výpočtovou infraštruktúrou Apache Hadoop, miestnym prostredím R a databázovými tabuľkami Oracle. ORCH navyše poskytuje prediktívne analytické techniky, ktoré je možné použiť na údaje v súboroch HDFS.

3. RHIPE

RHIPE je balík R, ktorý poskytuje API na používanie Hadoopu. RHIPE je skratka pre R a Hadoop Integrované programovacie prostredie a je v podstate RHadoop s iným API.

Štyri. Streamovanie pomocou Hadoop

Hadoop Streaming je nástroj, ktorý umožňuje používateľom vytvárať a spúšťať úlohy s ľubovoľnými spustiteľnými súbormi, ako sú mapovač a / alebo reduktor. Pomocou streamovacieho systému je možné vyvinúť pracovné úlohy Hadoop s dostatočnými znalosťami jazyka Java na napísanie dvoch shell skriptov, ktoré pracujú v tandeme.

Kombinácia R a Hadoop sa ukazuje ako nevyhnutná sada nástrojov pre ľudí pracujúcich so štatistikami a veľkými súbormi údajov. Niektorí nadšenci Hadoopu však vzniesli červenú vlajku pri zaobchádzaní s extrémne veľkými fragmentmi veľkých dát. Tvrdia, že výhodou R nie je jeho syntax, ale vyčerpávajúca knižnica primitívov pre vizualizáciu a štatistiku. Tieto knižnice sú v zásade nedistribuované, takže vyhľadávanie údajov je časovo náročná záležitosť. Toto je inherentná chyba R, a ak sa ho rozhodnete prehliadnuť, R a Hadoop v tandeme dokážu stále zázraky.

ako inicializovať objekt v pythone -

Pozrime sa teraz na ukážku:

Máte na nás otázku? Uveďte ich prosím v sekcii komentárov a my sa vám ozveme.

Súvisiace príspevky:

čo je to menný priestor v c ++