V dnešnom svete údaje sú hlavnou zložkou internetových aplikácií a zvyčajne zahŕňa:
- Návštevy stránok a kliknutia
- Aktivity používateľov
- Udalosti zodpovedajúce prihláseniu
- Činnosti v sociálnych sieťach, ako sú lajky, zdieľania a komentáre
- Metriky špecifické pre aplikáciu (napr. Denníky, čas načítania stránky, výkon atď.)
Toto údaje je možné použiť na spustenie analýzy v reálnom čase slúžiace na rôzne účely, z ktorých niektoré sú:
- Doručovanie reklám
- Sledovanie abnormálneho správania používateľov
- Zobrazenie vyhľadávania na základe relevancie
- Zobrazenie odporúčaní na základe predchádzajúcich aktivít
Problém: Zhromažďovanie všetkých údajov nie je ľahké, pretože údaje sa generujú z rôznych zdrojov v rôznych formátoch
Riešenie: Jedným zo spôsobov riešenia tohto problému je použitie systému správ. Systémy správ poskytujú bezproblémovú integráciu medzi distribuovanými aplikáciami pomocou správ.
Apache Kafka:
Apache Kafka je distribuovaný systém zasielania správ s prihlásením na odber, ktorý bol pôvodne vyvinutý v spoločnosti LinkedIn a neskôr sa stal súčasťou projektu Apache. Kafka je rýchla, svižná, škálovateľná a distribuovaná podľa dizajnu.
Kafkova architektúra a terminológia:
Téma: Prúd správ patriacich do konkrétnej kategórie sa nazýva téma
Výrobca: Producentom môže byť akákoľvek aplikácia, ktorá dokáže publikovať správy k téme
Spotrebiteľ : Spotrebiteľom môže byť akákoľvek aplikácia, ktorá sa prihlási na odber tém a konzumuje správy
Sprostredkovateľ: Kafkový klaster je skupina serverov, z ktorých každý sa nazýva sprostredkovateľ
Kafka je škálovateľná a umožňuje vytváranie viacerých typov klastrov.
návod na otvorené štúdio talend pdf
- Klaster jedného uzla s jedným maklérom
- Klaster viacerých uzlov makléra s jedným uzlom
- Viacero uzlov Viacero maklérskych klastrov
Single Node Single Broker
Aká je úloha ZooKeeper?
Každý sprostredkovateľ Kafka sa pomocou ZooKeeper koordinuje s ostatnými sprostredkovateľmi Kafka. Výrobcovia a spotrebitelia sú službou ZooKeeper informovaní o prítomnosti nových sprostredkovateľov alebo o zlyhaní sprostredkovateľa v systéme Kafka.
Jeden uzol, viac sprostredkovateľov
Viac uzlov Viac maklérov
Kafka @ LinkedIn
LinkedIn Newsfeed používa technológiu Kafka
Odporúčania pre LinkedIn sú založené na Kafkovi
Upozornenia na LinkedIn používajú technológiu Kafka
Poznámka: Okrem toho LinkedIn používa Kafku na mnoho ďalších úloh, ako je napríklad sledovanie logov, metriky výkonu, vylepšenie vyhľadávania.
Kto iný používa Kafku?
DataSift: DataSift využíva Kafku ako zberač monitorovacích udalostí a na sledovanie spotreby dátových tokov používateľmi v reálnom čase
Wooga: Wooga používa Kafku na agregáciu a spracovanie údajov o sledovaní zo všetkých ich hier na Facebooku (hostených u rôznych poskytovateľov) na centrálnom mieste
Spongecell: Spongecell používa Kafku na spustenie celého svojho analytického a monitorovacieho potrubia poháňajúceho aplikácie v reálnom čase aj ETL
Loggly: Loggly je najpopulárnejšia cloudová správa protokolov na svete. Na zber guľatiny používa Kafku.
Porovnávacia štúdia: Kafka vs. ActiveMQ vs. RabbitMQ
Kafka má efektívnejší formát úložiska. Každá správa má v priemere réžiu 9 bajtov v Kafke, oproti 144 bajtov v ActiveMQ.
V programoch ActiveMQ aj RabbitMQ makléri udržiavajú stav doručenia každej správy zápisom na disk, ale v prípade Kafky nedochádza k zápisu na disk, a preto je rýchlejšia.
Vďaka širokému prijatiu spoločnosti Kafka vo výrobe sa javí ako sľubné riešenie riešenia problémov v skutočnom svete. Školenie Apache Kafka vám môže pomôcť predbehnúť vašich kolegov v analytickej kariére v reálnom čase. Začnite výukovým programom Apache Kafka tu .
Máte na nás otázku? Uveďte to prosím v sekcii komentárov a my sa vám ozveme.
Súvisiace príspevky: