Apache Arrow versnelt analyse van big data
De Apache Software Foundation heeft er een nieuwe telg bij. Deze week lanceerde de organisatie namelijk Apache Arrow als een toplevelproject. De Apache-software is gebaseerd op code van Apache Drill, een opensourceprogramma waarmee analyses op grote datasets uitgevoerd kunnen worden, en voert meer dan honderd keer snellere analyses uit.
Arrow behaalt zijn hoge snelheden doordat het toelaat om data te delen over systemen. Ook kan de data verwerkt worden zonder dat serialisatie, deserialisatie en geheugenkopieën nodig zijn. Bij veel processen neemt de serialisatie en deserialisatie van de data maar liefst 70 tot 80 procent van de CPU-cycli in beslag.
Verder ondersteunt de nieuwe software complexe data met dynamische schema’s. Arrow kan hierdoor onder andere JSON-data verwerken, wat vaak gebruikt wordt bij het Internet of Things en moderne applicaties. Ook kan de software geïmplementeerd worden met verschillende programmeertalen.