rules table — Regeltabellen innehåller en uppsättning regler som mappar tokens i adressens indatasekvens till en standardiserad utdatasekvens. En regel definieras som en uppsättning inmatningstokens följt av -1 (terminator) följt av en uppsättning utdatatokens följt av -1 följt av ett nummer som anger typ av regel följt av rangordning av regeln.
En regeltabell måste ha minst följande kolumner, men det är tillåtet att lägga till fler för eget bruk.
id
Primär nyckel för tabellen
rule
textfält som betecknar regeln. Mer information finns i PAGC Address Standardizer Rule records..
En regel består av en uppsättning icke-negativa heltal som representerar indatatokener, avslutade med -1, följt av ett lika stort antal icke-negativa heltal som representerar postattribut, avslutade med -1, följt av ett heltal som representerar en regeltyp, följt av ett heltal som representerar regelns rang. Reglerna är rangordnade från 0 (lägst) till 17 (högst).
Så till exempel regeln 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6
mappar till sekvensen av utdatatoken TYPE NUMBER TYPE DIRECT QUALIF till utdatasekvensen STREET STREET SUFTYP SUFDIR QUALIF. Regeln är en ARC_C-regel av rang 6.
Numren för motsvarande utdatatokens listas i stdaddr.
Varje regel börjar med en uppsättning inmatningstokens följt av en terminator -1.
Giltiga inmatningstoken hämtade från PAGC Input Tokens är följande:
Formulärbaserade inmatningstoken
AMPERS
(13). Ampersand (&) används ofta för att förkorta ordet "och".
DASH
(9). Ett skiljetecken.
DOUBLE
(21). En sekvens av två bokstäver. Används ofta som identifierare.
FRACT
(25). Bråktal används ibland i samhällstal eller enhetstal.
MIXED
(23). En alfanumerisk sträng som innehåller både bokstäver och siffror. Används för identifierare.
NUMBER
(0). En sträng av siffror.
ORD
(15). Representationer som First eller 1st. Används ofta i gatunamn.
ORD
(18). Ett enda brev.
WORD
(1). Ett ord är en sträng av bokstäver av godtycklig längd. En enda bokstav kan vara både ett SINGEL och ett ORD.
Funktionsbaserade inmatningstoken
BOXH
(14). Ord som används för att beteckna postboxar. Till exempel Box eller PO Box.
BUILDH
(19). Ord som används för att beteckna byggnader eller byggnadskomplex, vanligtvis som ett prefix. Till exempel: Torn i Torn 7A.
BUILDT
(24). Ord och förkortningar som används för att beteckna byggnader eller byggnadskomplex, vanligtvis som ett suffix. Till exempel: Köpcentrum.
DIRECT
(22). Ord som används för att ange riktningar, t.ex. North.
MILE
(20). Ord som används för att beteckna milstolpeadresser.
ROAD
(6). Ord och förkortningar som används för att beteckna motorvägar och vägar. Till exempel: Interstate i Interstate 5
RR
(8). Ord och förkortningar som används för att beteckna landsbygdsvägar. RR..
TYPE
(2). Ord och förkortningar som används för att beteckna gatutyper. Till exempel: ST eller AVE.
UNITH
(16). Ord och förkortningar som används för att beteckna interna underadresser. Till exempel APT eller UNIT.
Inmatningstoken för posttyp
QUINT
(28). Ett 5-siffrigt nummer. Identifierar ett postnummer
QUAD
(29). Ett 4-siffrigt nummer. Identifierar ZIP4.
PCH
(27). En sekvens om 3 tecken bestående av bokstav, nummer och bokstav. Identifierar en FSA, de första 3 tecknen i ett kanadensiskt postnummer.
PCT
(26). En sekvens om 3 tecken bestående av nummer, bokstav och nummer. Identifierar en LDU, de sista 3 tecknen i ett kanadensiskt postnummer.
Stoppord
STOPPORD kombineras med ORD. I regler kommer en sträng med flera ORD och STOPPORD att representeras av en enda ORD-token.
STOPWORD
(7). Ett ord med låg lexikal betydelse som kan utelämnas vid parsing. Till exempel: THE.
Efter den första -1 (terminator) följer utdatatokens och deras ordning, följt av en terminator -1.
Numren för motsvarande utdatatokens listas i stdaddr. Vad som är tillåtet beror på typ av regel. Utdatatoken som är giltiga för varje regeltyp listas i the section called “Regeltyper och rangordning”.
Den sista delen av regeln är regeltypen som betecknas med något av följande, följt av en rangordning av regeln. Reglerna är rangordnade från 0 (lägst) till 17 (högst).
MACRO_C
(token-nummer ="0"). Klassen av regler för parsning av MACRO-klausuler såsom PLACE STATE ZIP
MACRO_C
-utdatatokens (utdrag från http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--..
CITY
(tokennummer "10"). Exempel "Albany"
STATE
(tokennummer "11"). Exempel "NY"
NATION
(tokennummer "12"). Detta attribut används inte i de flesta referensfiler. Exempel "USA"
POSTAL
(tokennummer "13"). (SADS-element "ZIP CODE" , "PLUS 4" ). Detta attribut används för både amerikanska postnummer och kanadensiska postnummer.
MICRO_C
(token-nummer ="1"). Klassen av regler för analys av fullständiga MICRO-satser (t.ex. House, street, sufdir, predir, pretyp, suftype, qualif) (dvs. ARC_C plus CIVIC_C). Dessa regler används inte i byggfasen.
MICRO_C
-utdatatokens (utdrag från http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--..
HOUSE
är en text (tokennummer 1
): Detta är gatunumret på en gata. Exempel 75 i 75 State Street
.
predir
är text (tokennummer 2
): STREET NAME PRE-DIRECTIONAL såsom North, South, East, West etc.
qual
är text (tokennummer 3
): STREET NAME PRE-MODIFIER Exempel OLD i 3715 OLD HIGHWAY 99
.
pretype
är text (tokennummer 4
): GATA PREFIX TYP
street
är text (tokennummer 5
): GATANS NAMN
suftype
är text (tokennummer 6
): STREET POST TYPE t.ex. St, Ave, Cir. En gatutyp som följer på det ursprungliga gatunamnet. Exempel STREET i 75 State Street
.
sufdir
är text (tokennummer 7
): STREET POST-DIRECTIONAL En riktningsmodifierare som följer gatunamnet. Exempel WEST i 3715 TENTH AVENUE WEST
.
ARC_C
(token-nummer ="2"). Klassen av regler för parsning av MICRO-klausuler, exklusive HOUSE-attributet. Som sådan använder samma uppsättning utdatatoken som MICRO_C minus HOUSE-token.
CIVIC_C
(tokennummer ="3"). Klassen av regler för analys av HOUSE-attributet.
EXTRA_C
(token-nummer ="4"). Klassen av regler för parsning av EXTRA-attribut - attribut som är undantagna från geokodning. Dessa regler används inte i byggfasen.
EXTRA_C-utdatatoken
(utdrag från http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--..
BLDNG
(tokennummer 0
): Oparsade byggnadsidentifierare och typer.
BOXH
(tokennummer 14
): BOX i BOX 3B
BOXT
(tokennummer 15
): 3B i BOX
RR
(tokennummer 8
): RR i RR 7
UNITH
(tokennummer 16
): APT i APT 3B
UNITT
(tokennummer 17
): 3B i APT 3B
UNKNWN
(tokennummer 9
): En i övrigt oklassificerad produktion.