Reguläre Ausdrücke

Qayokm · 11. Oktober 2013

Da Excel leider csv-Dateien so verschlüsselt, dass sie nur fehlerhaft eingelesen werden (selbst wenn die Datei unverändert von Excel eingelesen wird, sowohl auf Windows als auch auf Mac), habe ich mich nun entschieden, von csv- auf xml-Dateien umzusteigen. Funktioniert auch alles ganz gut, ich kriege die einzelnen Zellen, allerdings schaffe ich es nicht, einen regulären Ausdruck zu erstellen, der mir nur den Inhalt der Zellen gibt. Aktuell sieht das Auslesen bei mir so aus:

Java

//den String nur auf die Daten reduzieren
Pattern pattern = Pattern.compile("<Table.*?>.*?</Table>");
Matcher matcher = pattern.matcher(fileString);
String tableString = "";
if(matcher.find(0)) {
     tableString = matcher.group();
}
//Jede Zeile einzeln abspeichern
pattern = Pattern.compile("<Row.*?>.*?</Row>");
matcher = pattern.matcher(tableString);
ArrayList<String> rows = new ArrayList<String>();
while (matcher.find()) {
     rows.add(matcher.group());
}
ArrayList<String[]> fileData = new ArrayList<String[]>();
//Die Zellen erhalten und wenn die Reihe die richtige Anzahl an Zellen hat, speichern
pattern = Pattern.compile("<Cell.*?>.*?<Data.*?>.*?</Data>.*?</Cell>");
for (int i = 0; i < rows.size(); i++) {
     matcher = pattern.matcher(rows.get(i));
     //Die Zeile muss exakt 4 Zellen haben
     String [] rowData = new String [4];
     boolean outOfBounds = false;
     for (int j = 0;matcher.find()&&!outOfBounds; j++) {
          rowData[j] = matcher.group();
          if(j>=rowData.length) {
               outOfBounds = true;
          }
    } 
    if (!outOfBounds) {
         fileData.add(rowData);
    }
 }

Alles anzeigen

Das Problem liegt in Zeile 17, ich habe im Internet die Funktion (?:X) gefunden, die X zum matchen, aber nicht ins Ergebnis mit reinnimmt, wenn ich den regulären Ausdruck aber in (?:<Cell.*?>.*?<Data.*?>)(.*?)(?:</Data>.*?</Cell>) abändere, kriege ich immer noch das gleiche. Ich möchte nur den rot markierten Teil erhalten.

Ich hoffe ihr könnt mir weiterhelfen!

QueFueMejor · 11. Oktober 2013

Das klingt für mich nach nem Zeichensatzproblem. Ein wenig Recherche sagt, Excel arbeitet mit ANSI bzw CP-1252. Wenn du also mit CP-1252 statt UTF-8 einliest, sollte es klappen.

Proht Meyhet · 15. Oktober 2013

Excel im Speichern unter Dialog :
Tools > Weboptionen > Reiter:Codierung > UTF-8 auswählen.

Problem erledigt 8-)

Qayokm · 16. Oktober 2013

QueFueMejor: Ah danke, ich hatte alle möglichen Zeichensätze ausprobiert, aber nicht den :D Vorteil: es wird mir genauso wie mit excel geparst. Nachteil: Excel parst äöü etc falsch :D Kann man das irgendwie schnell machen, oder muss ich da dann echt jeden einzelnen falsch geparsten buchstaben richtig ersetzen?
@Proht Meyhet: Diese Möglichkeit habe ich bei Excel 2011 für Mac nicht und nach kurzer Recherche scheint mir es da auch keine vergleichbare zu geben...

Proht Meyhet · 17. Oktober 2013

Hmm, gibt es denn die Option im Speichern unter als Unicode .txt zu speichern ? Dem Streamreader dürfte das ja ziemlich egal sein, ob das Ding auf .csv oder .txt endet.
Da die Datei in diesem Fall tabulaturgetrennt herauskommen wird, müsste du dein .split Aufruf dann so aussehen

Code

fileData.add(line.split("\t",-1));

Ansonsten, wäre OpenCalc keine Alternative ?

Qayokm · 28. Oktober 2013

Da ich das alte Problem nicht umschiffen konnte, hab ich nun einen anderen Ansatz gewählt, habe dort aber auch ein Problem. Genaues steht im Startpost.

**TimWolla** · 28. Oktober 2013

Zuersteinmal: http://stackoverflow.com/a/1732454/782822

Ansonsten: Hast du es schon mal mit einem XML-Parser probiert? ;) Reguläre Grammatiken (RegEx) sind nicht in der Lage Kontextfreie Grammatiken (XML) zu verarbeiten.

Qayokm · 28. Oktober 2013

Da meine XML-Datei immer sehr einfach bleiben wird, habe ich es nicht für notwendig gehalten, mich extra in einen XML-Parser einzuarbeiten. Theoretisch könnte ich ja auch den String vor dem Inhalt mit <Cell.*?>.*?<Data.*?> und nach dem Inhalt mit </Data>.*?</Cell> erhalten und dann mit replace einfach durch "" ersetzen, aber das finde ich nicht sonderlich sauber. Einen besseren RegEx-Ausdruck gibt es für so etwas aber nicht?

**TimWolla** · 28. Oktober 2013

Zitat von Qayokm

Da meine XML-Datei immer sehr einfach bleiben wird

Geh immer vom schlimmsten aus. Ernsthaft: Nimm einen XML-Parser, das geht einfacher, sauberer und vorallem performanter als reguläre Ausdrücke.

QueFueMejor · 29. Oktober 2013

Für XML ist vermutlich ein Parser wesentlich besser als reguläre Ausdrücke.
Da es dir ja offenbar in erster Linie ums Einlesen von Excel-Dateien geht, würde ich wohl zu Apache POI greifen, HSSF bis Excel 2003, XSSF ab Excel 2007. Damit kannst du die Excelmappen direkt bearbeiten und musst nicht den Umweg über andere Formate gehen.

Qayokm · 29. Oktober 2013

Danke an beide, dass ihr mich vom xml abgebracht habt, mit apache poi war das problem in 20min gelöst :D