Seite drucken

   
Die Geocodierung
Der Vorgang des Geocodierens (Verortung) ist eigentlich simpel. Über eine Referenzdatenbank werden Adressdatensätzen (z.B. Kundendaten) die entsprechenden Geokoordinaten zugewiesen. Danach lassen sich diese Daten geographisch (in GIS Systemen) visualisieren und analysieren.

Die Grundvoraussetzung ist eine Referenzdatenbank mit zumindest allen Adressen, die geocodiert werden sollen. Diese Referenzdatenbank enthält die Adressen mit ihren jeweiligen geographischen Koordinaten. Beim Prozess der Geocodierung werden nun die Koordinaten nach weiteren Sachdaten, wie beispielsweise Schlüssel an die zu geocodierenden Kundendaten angehängt. Wären alle Adressen in der zu geocodierenden Kundendatei exakt gleich geschrieben wie die Daten der Referenzdatenbank, wäre dieser Vorgang technisch einfach zu realisieren.
Fehlerquellen
Oft sind aber die zu geocodierenden Adressen nicht gleich geschrieben. Dies kann mehrere Gründe haben:
  • Tippfehler
  • Die Daten wurden in Call-Centern über das Telefon erhoben; dabei können Verständigungsschwierigkeiten zu falsch geschriebenen Adressen führen.
  • Adressbestände sind historisch gewachsen und immer wieder von einem EDV-System in das nächste (neuere) überführt worden. Bei diesen Vorgängen können Fehler aufgetreten sein.
  • Manche Orte, die umgangssprachlich bei der lokalen Bevölkerung als Orte gelten, sind eigentlich Ortsteile von größeren Gemeinden oder Orten (dies war eine Folge der in den 70er Jahren durchgeführten Gemeindereform).
  • Generelle Unsicherheit über die korrekte, offizielle Schreibweise vor allem bei Straßennamen (Straße, Str.).
  • Beifügungen wurden hinzugefügt oder weggelassen (In der Tränke oder Tränke, Im Apfelhain oder Apfelhain).
  • Begriffen/Namen wurden in unterschiedlicher Weise abgekürzt (John-F.-Kennedy Straße oder Kennedystr. oder J-F-Kennedy Str.).
  • Unsicherheiten bei der Vergabe der richtigen Postleitzahl (vor allem in großen Städten) oder Postfach-Postleitzahlen.
Aus diesen Gründen muß also vor dem eigentlichen Geocodiervorgang eine Adressbereinigung geschaltet werden. Diese Adressbereinigung nutzt mehrere Algorithmen, um den zu bereinigenden Datensatz trotz abweichender Schreibweise in der Referenzdatenbank eindeutig zu finden.
Die Lösung
MartAddress kombiniert nun die Adressbereinigung und den Geocodiervorgang in einem Schritt. Dabei werden unter anderem Algorithmen zur Bestimmung des Wortabstandes (nach Levenshtein), zur Erzeugung eines phonetischen Fingerabdruckes (PID, phonetic ID über SoundEx), der PIA Algorithmus (Pattern Inclusion Algorithm, Logarithmische Wertung) oder auch der POM Algorithmus (Partition Offset Match) verwendet.

Verschiedene aufwertende Tests runden diese unscharfe Suche ab. Damit ist es möglich, Adressen auch nur über den Orts- oder Ortsteilnamen ohne die Verwendung der Postleitzahl richtig zuzuordnen. MartAddress hat hierzu ein unscharfes Fuzzy-Wertungssystem (Fuzzy-Logic), welches eine Kombination aus Orts- und Straßenwertung aufbaut. Damit ist es sogar möglich, Konflikte bei der exakten Orts- oder Postleitzahlbestimmung über die Straße aufzulösen, wenn Ort und Postleitzahl nicht zueinander passen: z.B. 70794 München-Partenkirchen am Rhein.
Geschwindigkeit
Eine zweistufige Cache-Architektur sowie eine effiziente Implementierung der Algorithmen und des Gesamtablaufes sorgen bei MartAddress für eine hohe Performance. Dabei hängt die Bearbeitungsgeschwindigkeit stark von der Qualität der Datenbestände ab.
Qualität gut mittel schlecht
Geschwindigkeit
Treffer/s*
230 160 80
Laufzeit bei
100.000
Datensätzen*
7 Minuten 10 Minuten 20 Minuten
Diese Zeitangaben hängen natürlich vom verwendeten Computer ab und wurden von uns auf einem AMD Athlon 1,8 GHz mit SCSI-Subsystem durchgeführt. Für eine schnelle Geocodierung sind vor allem ein schneller Prozessor und ein schnelles Festplatten-Subsystem (Raid-System) verantwortlich.

*Alle Zeitangaben beziehen sich auf die Desktopversion von MartAddress.
  Sitemap  |  Rechtliche Hinweise / Impressum