Gegevens in de opkomende wereld van de stream processing

Deze gast bericht is afkomstig van Neha Narkhede, mede-oprichter en CTO bij Confluent, een startup gericht op Apache Kafka en is opgericht door de makers.

Datasystemen in de moderne wereld zijn geen eilanden die op zichzelf staan, gegevensstromen vaak tussen de databases, offline data stores en zoeksystemen, evenals stream processing systemen. Maar voor een lange tijd, data technologie in de bedrijven was redelijk homogeen, data meestal woonachtig in twee populaire locaties: operationele data stores en het datawarehouse. En een substantieel deel van het verzamelen en verwerken van gegevens die bedrijven leverde liep zo groot batch jobs – CSV-bestanden gedumpt uit databases, logbestanden verzameld aan het eind van de dag, enz.

Maar bedrijven opereren in real time en de software die ze lopen aan het inlopen is. In plaats van het verwerken van gegevens pas aan het eind van de dag, waarom niet continu reageren als de gegevens aankomen? Dit idee ligt ten grondslag aan de opkomende wereld van de stream processing.

Getting real (tijd); De meest voor de hand liggende voordeel van de stream processing is de mogelijkheid om een ​​groot aantal analytische en rapportageprocessen verplaatsen in real time. Stroom verwerking van de aanvragen te behandelen gegevens niet als statische tabellen of bestanden, maar als een nooit eindigende oneindige stroom die gaat van wat er is gebeurd in het verleden in wat er zal gebeuren in de toekomst. In termen databank, in plaats van het uitvoeren van een zoekopdracht op gegevens in het verleden stroomverwerking gaat draaien gegevens als het aankomt met een query zodat de resultaten stapsgewijs worden gegenereerd als een continue werking.

Social Enterprise; LinkedIn onthult haar nieuwe blogging platform; Big Data Analytics, Is dit de leeftijd van Big OLAP;? Big Data Analytics; DataRobot gericht op low-opknoping fruit van de gegevens wetenschap te automatiseren; Big Data Analytics; MapR oprichter John Schroeder treden naar beneden, COO te vervangen

De opwinding rond stream processing gaat veel verder dan alleen een snellere analyses of rapportage. Wat stream processing werkelijk maakt is de mogelijkheid om een ​​onderneming bedrijfslogica en toepassingen over gegevens die eerder alleen beschikbaar was in batch vorm van de data warehouse bouwen, en dat in een continue wijze in plaats van eenmaal per dag. Bijvoorbeeld, kan een retailer te analyseren en te rapporteren over hun verkoop in real time, en bouwen ook kernapplicaties die re-producten bestellen, en pas de prijzen per regio, in reactie op de inkomende verkoopgegevens.

Heeft het streamen;? Maar stream processing is pas mogelijk als de fundamentele data capture wordt gedaan in een streaming mode, immers, je kunt niet verwerken dagelijks een partij van CSV dumpt als een beek. Deze verschuiving naar stream processing is de populariteit van Apache Kafka gereden. De goedkeuring van de Kafka is opmerkelijk. Vanaf het Silicon Valley tech menigte – de Ubers, AirBnBs, Netflixes, Ebay en Yahoos van de wereld – om retail, financiën, gezondheidszorg en telecom. Voor duizenden bedrijven over de hele wereld, is Kafka uitgegroeid tot een bedrijfskritische hoeksteen van hun data-architectuur.

Mijn eigen ervaring op dit gebied tot stand is gekomen tijdens het werken op LinkedIn tijdens de eerste dagen. Terug in 2009, mijn collega’s en ik heb gemaakt Apache Kafka te helpen LinkedIn verzamelen alle gegevens en beschikbaar te maken voor de verschillende producten en systemen gebouwd om het te verwerken. Het idee was om de gebruiker met een real-time ervaring – immers, werd de website gebruikt 24 uur per dag, dus er was geen reden voor het verwerken en analyseren van gegevens slechts eenmaal per dag. In de jaren die volgden, hebben we Kafka in productie op LinkedIn, draait op steeds grotere schaal, en bouwde de rest van LinkedIn stroom data platform. We gegoten in het een stroom van gegevens voor alles wat er in het bedrijf – elke klik, zoeken, e-mail, profiel update, en ga zo maar door. Deze dagen, Kafka op LinkedIn verwerkt meer dan een biljoen updates per dag.

Het drinken het allemaal in; Deze transformatie in de richting van stroom en verwerking van gegevens op LinkedIn voor elke organisatie in elke branche relevant is, streams zijn overal – of ze nu stromen van ticker gegevens voor financieringsmaatschappijen, nooit eindigende orders en zendingen voor de detailhandel bedrijven, of de gebruiker klikken voor Web bedrijven. Het maken van alle gegevens van de organisatie centraal beschikbaar, als vrij stromende beekjes, stelt business logica te worden voorgesteld als stream processing operaties. Dit heeft een grote invloed op wat is nu mogelijk met alle gegevens die eerder werd opgesloten in silo’s.

Dezelfde gegevens die ging in uw offline data warehouse is nu beschikbaar voor stream processing. Alle eenmaal verzamelde gegevens is beschikbaar voor opslag of toegang in de verschillende databases, zoekindexen, en andere systemen in het bedrijf. Gegevens om belangrijke zakelijke beslissingen te rijden is beschikbaar in continue wijze versus een keer per dag om middernacht. Anomaly en detectie van bedreigingen, analytics, en de reactie op fouten kan worden gedaan in real-time versus wanneer het te laat is. En dit alles is mogelijk door de inzet van een enkel platform in het hart van uw datacenter, sterk vereenvoudiging van uw operationele voetafdruk.

Bij Confluent, we zijn ervan overtuigd dat deze nieuwe vorm van data-architectuur, gecentreerd rond real-time streams en stream processing, zal alomtegenwoordig in de komende jaren te worden.

LinkedIn onthult haar nieuwe blogging platform

Is dit de leeftijd van Big OLAP?

DataRobot streeft naar laaghangend fruit van data science automatiseren

MapR oprichter John Schroeder treden naar beneden, COO te vervangen