Hadoop 2.0 - často kladené otázky



Za posledných pár rokov sa záujem o Hadoop mnohonásobne zvýšil. Tento príspevok odpovedá na vaše otázky a zbavuje vás mnohých pochybností o Hadoop 2.0 a jeho použití.

Toto je príspevok v nadväznosti s odpoveďou na často kladené otázky počas verejného webinára spoločnosti edureka! na .

Často kladené otázky o Hadoope

Deepak:





Čo je Hadoop?
Apache Hadoop je softvérový rámec Open Source pre ukladanie a rozsiahle spracovanie súborov údajov na klastroch komoditného hardvéru. Jedná sa o softvérový rámec Open Source Data Management so škálovateľným úložiskom a distribuovaným spracovaním. Vytvára ju a používa globálna komunita prispievateľov a používateľov.

Prečítajte si viac v našom blogovom príspevku Hadoop a .



Vyhľadávanie:

Aké sú prípady použitia veľkých dát v cestovnom, dopravnom a leteckom priemysle?

Slnečno:



šírka prvého vyhľadávacieho algoritmu pseudokód

Môžete nás upozorniť na nejakú skutočnú vzorku implementácie Hadoop, ktorú môžeme študovať?
Sme živízv ére rastúceho preťaženia v špičkách. Prevádzkovatelia dopravy sa neustále snažia nájsť nákladovo efektívne spôsoby poskytovania svojich služieb pri zachovaní dobrého dopravného parku. Využitie analýzy veľkých dát v tejto doméne môže pomôcť organizácii s:

  • Optimalizácia trasy
  • Geopriestorová analýza
  • Dopravné vzorce a preťaženie
  • Údržba majetku
  • Správa výnosov (t. J. Letecká spoločnosť)
  • Riadenie zásob
  • Úspora paliva
  • Cielený marketing
  • Vernosť zákazníkov
  • Predpovedanie kapacity
  • Výkon a optimalizácia siete

Niekoľko prípadov použitia v reálnom svete je:
do) Stanovenie letových nákladov
b) Predikčné modelovanie pre logistiku zásob
c) Orbitz Worldwide - vzory pre nákup zákazníkov
d) Šesť superrozmerných nasadení Hadoop
je) Hadoop - viac ako pridáva
f) Hadoop v Enterprise

Viac informácií o implementáciách Hadoop Real-world nájdete na:

Hirdesh:

Je Hadoop všetko o narábaní s údajmi a ich spracovaní? Ako postupujeme v oblasti prehľadov a vizuálnej analýzy. Dá sa Qlikview, Tableau použiť na Hadoop?
Základné komponenty Hadoop, HDFS a MapReduce, sa týkajú ukladania a spracovania dát. HDFS pre úložisko a MapReduce pre spracovanie. Ale na analýzu sa používajú základné komponenty Hadoop, ako sú Pig a Hive. V prípade Tabuľky vizuálnych správ je možné QlikView pripojiť k aplikácii Hadoop pre vizuálne správy.

Amit:

Hadoop vs. mongoDB
MongoDB sa používa ako „prevádzkové“ úložisko údajov v reálnom čase, zatiaľ čo Hadoop sa používa na offline dávkové spracovanie a analýzu dát.
mongoDB je dokumentovo orientované, bez schémové úložisko dát, ktoré môžete použiť vo webovej aplikácii ako backend namiesto RDBMS ako MySQL, zatiaľ čo Hadoop sa používa hlavne ako škálovateľné úložisko a distribuované spracovanie pre veľké množstvo dát.

Prečítajte si viac na našej stránke blogový príspevok mongoDB a Hadoop .

Tu:

Je Apache Spark súčasťou Hadoopu ?
Apache Spark je rýchly a všeobecný nástroj na spracovanie údajov vo veľkom meradle. Spark je rýchlejší a podporuje spracovanie v pamäti. Spark execution engine rozširuje typ výpočtovej záťaže, ktorú Hadoop dokáže spracovať a môže bežať na klastri Hadoop 2.0 YARN. Jedná sa o systém rámca spracovania, ktorý umožňuje ukladanie objektov v pamäti (RDD) spolu so schopnosťou spracovávať tieto objekty pomocou uzáverov Scala. Podporuje Graph, Data Warehouse, Machine Learning a Stream processing.

Ak máte klaster Hadoop 2, môžete Spark spustiť bez potreby akejkoľvek inštalácie. V opačnom prípade je Spark ľahko spustiteľný samostatne alebo na EC2 alebo Mesos. Môže čítať z HDFS, HBase, Cassandra a z ľubovoľného zdroja údajov Hadoop.

Prečítajte si viac o Sparku tu .

Prasad:

Čo je Apache Flume?
Apache Flume je distribuovaný, spoľahlivý a dostupný systém na efektívne zhromažďovanie, agregáciu a presun veľkého množstva údajov z denníka z mnohých rôznych zdrojov do centralizovaného zdroja údajov.

Amit:

Databázy SQL vs NO-SQL
Databázy NoSQL sú databázami novej generácie a väčšinou sa zameriavajú na niektoré body

  • nerelačný
  • distribuované
  • open-source
  • horizontálne škálovateľné

Často sa uplatňuje viac charakteristík, ako je napríklad schéma, jednoduchá podpora replikácie, jednoduché API, prípadne konzistentné / BASE (nie ACID), obrovské množstvo údajov a ďalšie. Napríklad niektoré z diferenciátorov sú:

  • NoSQL databázy sa zväčšujú horizontálne a pridávajú sa ďalšie servery, ktoré zvládnu väčšie zaťaženie. Na druhej strane, databázy SQL sa zväčšujú vertikálne a pri zvyšovaní prenosu pridávajú na jeden server čoraz viac zdrojov.
  • Databázy SQL vyžadujú, aby ste definovali svoje schémy pred pridaním akýchkoľvek informácií a údajov, ale databázy NoSQL sú bez schémy, nevyžadujú definíciu schémy vopred.
  • Databázy SQL sú tabuľky založené na riadkoch a stĺpcoch podľa zásad RDBMS, zatiaľ čo databázy NoSQL sú obchody dokumentov, párov kľúč - hodnota, grafov alebo obchodov so širokými stĺpcami.
  • Databázy SQL používajú na definovanie a manipuláciu s údajmi SQL (štruktúrovaný dotazovací jazyk). V databáze NoSQL sa dotazy líšia od jednej databázy k druhej.

Populárne databázy SQL: MySQL, Oracle, Postgres a MS-SQL
Populárne NoSQL databázy: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j a CouchDB

Skontrolujte naše blogy na Hadoop a NoSQL databázy a výhody jednej z týchto databáz:

Koteswararao:

Má Hadoop zabudovanú technológiu klastrov?
Klaster Hadoop používa architektúru Master-Slave. Skladá sa z jedného hlavného servera (NameNode) a klastra otrokov (DataNodes) na ukladanie a spracovanie údajov. Hadoop je navrhnutý tak, aby fungoval na veľkom počte počítačov, ktoré nezdieľajú žiadnu pamäť ani disky. Tieto dátové uzly sú nakonfigurované ako klaster pomocou . Hadoop používa koncept replikácie na zabezpečenie toho, aby bola v klastri neustále k dispozícii najmenej jedna kópia údajov. Pretože existuje viac kópií údajov, údaje uložené na serveri, ktorý sa prepne do režimu offline alebo zomrie, je možné automaticky replikovať zo známej dobrej kópie.

Dinesh:

Čo je práca v spoločnosti Hadoop? Čo všetko sa dá dosiahnuť prostredníctvom zamestnania?
V programe Hadoop je Job program MapReduce na spracovanie / analýzu údajov. Pojem MapReduce v skutočnosti označuje dve samostatné a odlišné úlohy, ktoré programy Hadoop vykonávajú. Prvou je úloha Mapa, ktorá zoberie množinu údajov a prevedie ju na inú množinu sprostredkujúcich údajov, kde sú jednotlivé prvky rozdelené do párov kľúč - hodnota. Druhá časť úlohy MapReduce, úloha Reduce, berie výstup z mapy ako vstup a kombinuje páry kľúč - hodnota do menšej sady agregovaného páru kľúč - hodnota. Ako vyplýva zo sekvencie názvu MapReduce, úloha Reduce sa vykoná vždy po dokončení úloh Map. Prečítajte si viac na MapReduce Job .

Sukruth:

Čo je špeciálne na NameNode ?
NameNode je srdcom súborového systému HDFS. Zachováva metadáta, ako napríklad adresárový strom všetkých súborov v systéme súborov, a sleduje, kde sa v klastri uchovávajú údaje o súboroch. Skutočné údaje sa ukladajú na DataNodes ako bloky HDFS.
Klientske aplikácie hovoria s NameNode kedykoľvek chcú nájsť súbor alebo kedykoľvek chcú pridať / kopírovať / presunúť / vymazať súbor. NameNode reaguje na úspešné požiadavky vrátením zoznamu relevantných serverov DataNodes, kde údaje žijú. Prečítajte si viac o architektúre HDFS .

Dinesh:

Kedy bol Hadoop 2.0 uvedený na trh?
Nadácia Apache Software Foundation (ASF), skupina s otvoreným zdrojovým kódom, ktorá riadi vývoj Hadoop Development, oznámila vo svojom blogu 15. októbra 2013, že Hadoop 2.0 je teraz všeobecne dostupný (GA). Toto oznámenie znamená, že po dlhom čakaní sú Apache Hadoop 2.0 a YARN teraz pripravené na produkčné nasadenie. Viac na Blog.

Dinesh:

Čo je pár príkladov aplikácie Big Data bez aplikácie MapReduce?
MapReduce je vynikajúci pre mnoho aplikácií na riešenie problémov s veľkými dátami, ale nie pre všetko, čo ostatné programovacie modely lepšie vyhovujú požiadavkám, ako je spracovanie grafov (napr. Google Pregel / Apache Giraph) a iteratívne modelovanie pomocou rozhrania Message Passing Interface (MPI).

Marish:

Ako sú dáta usporiadané a indexované v HDFS?
Dáta sú rozdelené do blokov s veľkosťou 64 MB (konfigurovateľných parametrom) a sú uložené v HDFS. NameNode ukladá informácie o úložisku týchto blokov ako ID bloku do svojej RAM (NameNode Metadata). Úlohy MapReduce majú prístup k týmto blokom pomocou metadát uložených v pamäti NameNode RAM.

Shashwat:

Môžeme použiť MapReduce (MRv1) aj MRv2 (s YARN) na rovnakom klastri?
Hadoop 2.0 predstavil nový framework YARN na písanie a vykonávanie rôznych aplikácií na Hadoop. Takže YARN a MapReduce sú dva odlišné koncepty v Hadoop 2.0 a nemali by sa kombinovať a používať zameniteľne. Správna otázka je 'Je možné spustiť MRv1 aj MRv2 na klastri Hadoop 2.0 s povolenou YARN?' Odpoveď na túto otázku je a „Nie“ ako aj napriek tomu, že klaster Hadoop je možné nakonfigurovať na spustenie MRv1 aj MRv2, ale v ľubovoľnom okamihu môže spustiť iba jednu sadu démonov. Oba tieto rámce nakoniec používajú rovnaké konfiguračné súbory ( priadza-site.xml a mapred-site.xml ) na spustenie démonov, preto je možné na klastri Hadoop povoliť iba jednu z dvoch konfigurácií.

Bábika:

Aký je rozdiel medzi MapReduce novej generácie (MRv2) a YARN?
YARN a Next Generation MapReduce (MRv2) sú dva odlišné koncepty a technológie v Hadoop 2.0. YARN je softvérový rámec, ktorý možno použiť na spustenie nielen MRv2, ale aj iných aplikácií. MRv2 je aplikačný rámec napísaný pomocou YARN API a beží v rámci YARN.

Bharat:

Poskytuje Hadoop 2.0 spätnú kompatibilitu pre aplikácie Hadoop 1.x?
Neha:

Vyžaduje migrácia Hadoop 1.0 na 2.0 ťažký aplikačný kód migrácia?
Nie, väčšina aplikácií vyvinutých pomocou rozhraní API „org.apache.hadoop.mapred“ môže bežať na YARN bez akejkoľvek kompilácie. YARN je binárne kompatibilný s aplikáciami MRv1 a na odosielanie týchto aplikácií do YARN je možné použiť „bin / hadoop“. Prečítajte si o tom viac tu .

Sherin:

Čo sa stane, ak uzol Správcu zdrojov zlyhá v Hadoop 2.0?
Od verzie Hadoop verzie 2.4.0 je k dispozícii aj podpora vysokej dostupnosti pre správcu zdrojov. ResourceManager používa server Apache ZooKeeper na zlyhanie. Keď zlyhá uzol správcu zdrojov, sekundárny uzol sa môže rýchlo zotaviť prostredníctvom stavu klastra uloženého v ZooKeeper. Pri zlyhaní ResourceManager reštartuje všetky spustené aplikácie v poradí.

Sabbirali:

Funguje rámec Apache’s Hadoop na Cloudera Hadoop?
Apache Hadoop bol predstavený v roku 2005 so základným procesorom MapReduce na podporu distribuovaného spracovania rozsiahlych dátových úloh uložených v HDFS. Je to projekt s otvoreným zdrojom a má viac distribúcií (podobne ako Linux). Cloudera Hadoop (CDH) je jednou z takýchto distribúcií od spoločnosti Cloudera. Ďalšie podobné distribúcie sú HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights atď.

Arulvadivel:

Existuje jednoduchý spôsob, ako nainštalovať Hadoop na môj laptop a vyskúšať migráciu databázy Oracle na Hadoop?
Môžeš začať s Sandbox HortonWorks alebo Cloudera Quick VM na vašom notebooku (s minimálne 4 GB RAM a procesorom i3 alebo novším). Ako je vysvetlené, použite SQOOP na presun údajov z Oracle do Hadoop tu .

Bhabani:

Aké sú najlepšie knihy na naučenie sa Hadoopu?
Začnite s Hadoop: Definitívny sprievodca autor: Tom White a Prevádzka Hadoop Eric Sammer.

čo je abstrakcia v c ++

Mahendra:

Je pre Hadoop 2.0 k dispozícii nejaké čítanie, rovnako ako definitívny sprievodca Hadoop?
Skontrolujte posledný príchod na poličkách od niekoľkých tvorcov Hadoop 2.0.

Zostaňte naladení na ďalšie otázky v tejto sérii.