ISSN: 0974-276X
Abhishek Narain Singh*
Hintergrund: Die Notwendigkeit der Big-Data-Analyse erfordert die Fähigkeit, große Datenmengen zu verarbeiten, die für die Verwendung durch Unternehmen optimiert gehalten werden. Erst seit kurzem ist der Bedarf an Big Data für Low-Budget-Unternehmensgruppen und Hochschulen aufgefallen, die normalerweise weder Geld noch Ressourcen haben, um teure Lizenzen für Big-Data-Analyseplattformen wie SAS zu kaufen. Die Unternehmen arbeiten weiterhin im SAS-Datenformat, hauptsächlich aufgrund der systemischen Organisationsgeschichte und der Tatsache, dass die vorherigen Codes darauf basieren. Die Datenanbieter stellen daher weiterhin Daten in SAS-Formaten bereit. Aufgrund dieser Lücke, da Daten im SAS-Format vorliegen und die Programmierer weder über SAS-Expertise noch über einen SAS-Schulungshintergrund verfügen, ist ein akuter plötzlicher Bedarf entstanden, da die wirtschaftlichen und Trägheitskräfte, die diese beiden Personengruppen geprägt haben, unterschiedlich waren.
Methoden: Wir analysieren die Unterschiede und damit den Bedarf an SasCsvToolkit, das dabei hilft, eine CSV-Datei für Daten im SAS-Format zu generieren, sodass der Datenwissenschaftler seine Fähigkeiten dann in anderen Tools anwenden kann, die CSVs verarbeiten können, wie R, SPSS oder sogar Microsoft Excel. Gleichzeitig ermöglicht es auch die Konvertierung von CSV-Dateien in das SAS-Format. Abgesehen davon hat ein SAS-Datenbankprogrammierer immer Schwierigkeiten, die richtige Methode für eine Datenbanksuche, exakte Übereinstimmung, Teilzeichenfolgenübereinstimmung, Ausnahmebedingung, Filter, eindeutige Werte, Tabellenverknüpfungen und Data Mining zu finden, für die die Toolbox auch Vorlagenskripts bereitstellt, die geändert und über die Befehlszeile verwendet werden können.
Ergebnisse: Das Toolkit wurde auf der SLURM-Scheduler-Plattform als „Bag-of-Tasks“-Algorithmus für parallele und verteilte Arbeitsabläufe implementiert, obwohl auch eine serielle Version integriert wurde.
Fazit: Im Zeitalter von Big Data, in dem es viel zu viele Dateiformate gibt und Software- und Analyseumgebungen jeweils ihre eigene Semantik zum Umgang mit bestimmten Dateitypen haben, werden die Funktionen von SasCsvToolkit für einen Dateningenieur äußerst praktisch sein.