rules table — Die Tabelle "rules" enthält die Regeln, nach denen die Token der Eingabesequenz der Adresse in eine standardisierte Ausgabesequenz abgebildet werden. Eine Regel besteht aus einem Satz Eingabetoken, gefolgt von -1 (Terminator), gefolgt von einem Satz Ausgabetoken, gefolgt von -1, gefolgt von einer Zahl zur Kennzeichnung des Regeltyps, gefolgt von der Rangordnung der Regel.
Eine "rules" Tabelle muss mindestens die folgenden Spalten aufweisen, es können aber zusätzliche Spalten für den Eigenbedarf hinzugefügt werden.
id
Der Primärschlüssel der Tabelle
rule
Ein Textfeld, das die Regel festlegt. Details unter PAGC Address Standardizer Rule records.
Eine Regel besteht aus positiven ganzen Zahlen, den Eingabetoken, die durch ein -1 abgeschlossen werden, gefolgt von der gleichen Anzahl an positiven ganzen Zahlen, den Postattributen, die ebenfalls mit -1 abgeschlossen werden, gefolgt von einer ganzen Zahl, die den Regeltyp kennzeichnet, gefolgt von einer ganzen Zahl, welche die Rangordnung der Regel festlegt. Die Regeln werden von 0 (niedrigster Rang) bis 17 (höchster) gereiht.
So wird zum Beispiel durch die Regel 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6
die Abfolge von Ausgabetoken TYPE NUMBER TYPE DIRECT QUALIF auf die Ausgabesequenz STREET STREET SUFTYP SUFDIR QUALIF abgebildet. Dies ist eine ARC_C Regel vom Rang 6.
Die Nummern der entsprechenden Ausgabe-Token sind unter stdaddr aufgeführt.
Jede Regel beginnt mit einer Menge an Eingabetoken, gefolgt bei der Abschlussanweisung -1
. Im Folgenden ein Auszug von gültigen Eingabetoken aus PAGC Input Tokens:
Formbasierte Eingabezeichen
AMPERS
(13). Das kaufmännische Und (&) wid häufig zur Abkürzung des Wortes "und" verwendet.
DASH
(9). Ein Satzzeichen.
DOUBLE
(21). Eine Sequenz mit zwei Buchstaben. Wird oft als Identifikator verwendet.
FRACT
(25). Brüche kommen manchmal bei Hausnummern oder Blocknummern vor.
MIXED
(23). Eine alphanumerische Zeichenkette, die aus Buchstaben und Ziffern besteht. Wird als Identifikator verwendet.
NUMBER
(0). Eine Folge von Ziffern.
ORD
(15). Bezeichnungen wie "First" oder 1st. Wird häufig bei Straßennamen benutzt.
ORD
(18). Ein einzelner Buchstabe.
WORD
(1). Ein Wort ist eine Zeichenfolge beliebiger Länge. Ein einzelnes Zeichen kann sowohl ein SINGLE als auch ein WORD sein.
Funktionsbasierte Eingabezeichen
BOXH
(14). Ein Text zur Kennzeichnung von Postfächern. Zum Beispiel Box oder PO Box.
BUILDH
(19). Wörter zur Bezeichnung von Gebäuden und Gebäudekomplexen - üblicherweise als Präfix. Zum Beispiel: Tower in Tower 7A.
BUILDT
(24). Wörter und Abkürzungen zur Bezeichnung von Gebäuden und Gebäudekomplexen - üblicherweise als Suffix. Zum Beispiel: Shopping Centre.
DIRECT
(22). Text zur Richtungsangabe, zum BeispielNorth.
MILE
(20). Wörter zur Bezeichnung von Milepost Adressen.
ROAD
(6). Wörter und Abkürzungen für die Bezeichnung von Autobahnen und Straßen. Zum Beispiel Interstate in Interstate 5.
RR
(8). Wörter und Abkürzungen für Postwege im ländlichen Gebiet - "Rural Routes". RR.
TYPE
(2). Begriffe und Abkürzungen für Straßentypen. Zum Beispiel: ST oder AVE.
UNITH
(16). Begriffe und Abkürzungen für zusätzliche Adressangaben. Zum Beispiel APT oder UNIT.
Eingabezeichen für den Postleitzahltyp
QUINT
(28). Eine 5-stellige Nummer. Gibt den Zip Code an
QUAD
(29). Eine 4-stellige Nummer. Gibt den ZIP4 Code an.
PCH
(27). Eine 3 Zeichen lange Abfolge von Buchstabe - Zahl - Buchstabe. Kennzeichnet eine FSA, die ersten 3 Zeichen des kanadischen Postleitzahl.
PCT
(26). Eine 3 Zeichen lange Abfolge von Zahl -Buchstabe - Zahl. Kennzeichnet eine LDU, die letzten 3 Zeichen des kanadischen Postleitzahl.
Stoppwörter
Stoppwörter werden mit Wörtern kombiniert. In den Regeln wird eine Zeichenkette aus mehreren Wörtern und Stoppwörtern durch einen einzelnen WORD-Token dargestellt.
STOPWORD
(7). Ein Wort mit geringer semantischer Bedeutung, das bei der Analyse weggelassen werden kann. Zum Beispiel: THE.
Nach dem ersten -1 (Abschlussanweisung) folgen die Ausgabetoken und deren Reihenfolge, gefolgt bei einer Abschlussanweisung -1
. Die Nummern der entsprechenden Ausgabetoken sind unter stdaddr aufgeführt. Welche Token zulässig sind hängt von der Art der Regel ab. Die gültigen Ausgabetoken für die jeweiligen Regeln sind unter the section called “Regel Typen und Rang” aufgelistet.
Den Schlussteil der Regel bildet der Regeltyp. Dieser wird, gefolgt von einem Rang für die Regel, durch eines der folgenden Wörter angegeben. Die Regeln sind von 0 (niedrigster Rang) bis 17 (höchster Rang) gereiht.
MACRO_C
(Token-Nummer = "0"). Die Klassenregeln um MACRO Klauseln, wie PLACE STATE ZIP, zu parsen.
MACRO_C
output tokens (Auszug aus http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--.
CITY
(Token-Nummer "10"). Beispiel "Albanien"
STATE
(Token-Nummer "11"). Beispiel "NY"
NATION
(Token Nummer "12"). Dieses Attribut wird in den meisten Referenzdateien nicht verwendet. Beispiel "USA"
POSTAL
(Token Nummer "13"). (SADS Elemente "ZIP CODE" , "PLUS 4" ). Dieses Attribut wird für die Postleitzahlen-Codes der USA (ZIP-Code) und Kanada (Postal Code) verwendet.
MICRO_C
(Token Nummer = "1"). Die Regelklasse zum Parsen ganzer MICRO Klauseln (wie House, street, sufdir, predir, pretyp, suftype, qualif) (insbesondere ARC_C plus CIVIC_C). Diese Regeln werden bei der Aufbauphase nicht benutzt.
MICRO_C
output tokens (Auszug aus http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--.
HOUSE
ist ein Text (Token-Nummer 1
): Die Hausnummer einer Straße. Beispiel 75 in 75 State Street
.
predir
ist ein Text (Token-Nummer 2
): STREET NAME PRE-DIRECTIONAL, wie Nord, Süd, Ost, West etc.
qual
ist ein Text (Token-Nummer 3
): STREET NAME PRE-MODIFIER Beispiel OLD in 3715 OLD HIGHWAY 99
.
pretype
ist ein Text (Token-Nummer 4
): STREET PREFIX TYPE
street
ist ein Text (Token-Nummer 5
): STREET NAME
suftype
ist ein Text (Token-Nummer 6
): STREET POST TYPE z.B. St, Ave, Cir. Ein dem Straßennamen angehänter Straßentyp. Beispiel STREET in 75 State Street
.
sufdir
ist ein Text (Token-Nummer 7
): STREET POST-DIRECTIONAL Eine Richtungsangabe, die dem Straßennamen folg. Beispiel WEST in 3715 TENTH AVENUE WEST
.
ARC_C
(Token Nummer = "2"). Die Regelklasse zum Parsen von MICRO Klauseln ausgenommen dem Attribut "HOUSE". Verwendet dieselben Ausgabetoken wie MICRO_C, abzüglich dem HOUSE Token.
CIVIC_C
(Token-Nummer = "3"). Die Klassenregeln zum parsen des HOUSE Attributs.
EXTRA_C
(token number = "4"). Die Regelklasse zum Parsen von zusätzlichen Attributen - Attribute die von der Geokodierung ausgeschlossen sind. Diese Regeln werden bei der Aufbauphase nicht benutzt.
EXTRA_C
output tokens (Auszug aus http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--.
BLDNG
(Token Nummer 0
): Ungeparste Gebäudeidentifikatoren und Gebäudetypen.
BOXH
(Token-Nummer 14
): Die BOX in BOX 3B
BOXT
(Token-Nummer 15
): 3B in BOX 3B
RR
(Token-Nummer 8
): RR in RR 7
UNITH
(Token-Nummer 16
): APT in APT 3B
UNITT
(Token-Nummer 17
): 3B in APT 3B
UNKNWN
(Token-Nummer 9
): Eine nicht näher klassifizierte Ausgabe.