CSV Diluter and Extractor

Ein kleines aber sehr nützliches Tool. Es erzeugt aus einer CSV Datei zwei unterschiedliche, eine mit eindeutigen Einträgen und in die andere werden die Dubletten geschrieben. Zusätzlich generiert es eine „Extract“ Datei aus den Dubletten über einen Template.

Grün hinterlegt sind die eindeutigen Daten, orange die Dubletten.

Die Daten beinhalten zwei unterschiedliche IDs.
In diesem Fall befinden sich die Unterschiede für die Identifizierung der Dubletten in der Spalte 1.

Ausgeführt wird das Programm über die Commandozeile (Windows, Mac oder Linux). Java 8 ist erforderlich.

Syntax:
syntax: inputFile diluterColumns[commaseparated integers] uniqueFile duplicateFile templateFile extractFile

Beispiel Ausführung:
java -jar CsvDiluterAndExtractor.jar test-inputfile.csv 1 testdata-unique.csv testdata-duplicate.csv templateFile.txt extractFile.sql

Der Inhalt der Template Datei markiert aus welchen Spalten die Daten aus dem CSV ersetzt werden sollen:
INSERT INTO USERID (IDENT1,IDENT2,USER_FK) VALUES ('#1#','#2#', (SELECT ID FROM USER WHERE USERNAME = '#3#'));

Das Resultat sieht dann so aus:

Zwei CSVs, eine mit den eindeutigen Zeilen, eine mit den Dubletten und ein Extrakt, was in diesem Fall ein SQL Script ist für die Nachbefüllung der Datenbank mit zusätzlichen Idents.

uniqueFile.csv
duplicateFile.csv
extractFile.sql

Die JAR kann man hier downloaden.

Schreibe einen Kommentar