rules table — La tabella delle regole contiene un insieme di regole che mappano i token della sequenza di input dell'indirizzo in una sequenza di output standardizzata. Una regola è definita come un insieme di token di ingresso seguiti da -1 (terminatore) seguito da un insieme di token di uscita seguiti da -1 seguito da un numero che denota il tipo di regola seguito da una classificazione della regola.
Una tabella delle regole deve avere almeno le seguenti colonne, anche se è possibile aggiungerne altre per i propri usi.
id
Chiave primaria della tabella
rule
campo di testo che indica la regola. I dettagli si trovano in Regole di normalizzazione degli indirizzi del PAGC.
Una regola consiste in un insieme di numeri interi non negativi che rappresentano i token di input, terminati da un -1, seguiti da un numero uguale di numeri interi non negativi che rappresentano gli attributi postali, terminati da un -1, seguiti da un numero intero che rappresenta un tipo di regola, seguito da un numero intero che rappresenta il rango della regola. Le regole sono classificate da 0 (minimo) a 17 (massimo).
Così, per esempio, la regola 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6
mappa la sequenza di token di uscita TYPE NUMBER TYPE DIRECT QUALIF alla sequenza di uscita STREET STREET SUFTYP SUFDIR QUALIF. La regola è una regola ARC_C di rango 6.
I numeri dei corrispondenti token di uscita sono elencati in stdaddr.
Ogni regola inizia con una serie di token di input seguiti da un terminatore -1
. I token di input validi estratti da PAGC Input Tokens sono i seguenti:
Gettoni di ingresso basati su moduli
AMPERS
(13). L'ampersand (&) è spesso usato per abbreviare la parola "e".
DASH
(9). Un carattere di punteggiatura.
DOUBLE
(21). Una sequenza di due lettere. Spesso utilizzato come identificativo.
FRACT
(25). Le frazioni sono talvolta utilizzate nei numeri civici o nelle unità di misura.
MIXED
(23). Una stringa alfanumerica che contiene sia lettere che cifre. Si usa per gli identificatori.
NUMBER
(0). Una stringa di cifre.
ORD
(15). Rappresentazioni come First o 1st. Spesso usato nei nomi delle strade.
ORD
(18). Una sola lettera.
WORD
(1). Una parola è una stringa di lettere di lunghezza arbitraria. Una singola lettera può essere sia una SINGOLA che una PAROLA.
Gettoni di ingresso basati su funzioni
BOXH
(14). Parole usate per indicare le caselle postali. Ad esempio Box o PO Box.
BUILDH
(19). Parole utilizzate per indicare edifici o complessi di edifici, di solito come prefisso. Ad esempio: Torre in Torre 7A.
BUILDT
(24). Parole e abbreviazioni utilizzate per indicare edifici o complessi di edifici, di solito come suffisso. Ad esempio: Centro commerciale.
DIRECT
(22). Parole usate per indicare le direzioni, ad esempio Nord.
MILE
(20). Parole usate per indicare gli indirizzi delle pietre miliari.
ROAD
(6). Parole e abbreviazioni utilizzate per indicare autostrade e strade. Ad esempio: la Interstate in Interstate 5
RR
(8). Parole e abbreviazioni utilizzate per indicare i percorsi rurali. RR.
TYPE
(2). Parole e abbreviazioni utilizzate per indicare le tipologie di strada. Ad esempio: ST o AVE.
UNITH
(16). Parole e abbreviazioni usate per indicare i sottoindirizzi interni. Ad esempio, APT o UNIT.
Gettoni di ingresso di tipo postale
QUINT
(28). Un numero di 5 cifre. Identifica un codice postale
QUAD
(29). Un numero di 4 cifre. Identifica il CAP4.
PCH
(27). Una sequenza di 3 caratteri di lettera numero lettera. Identifica un FSA, i primi 3 caratteri di un codice postale canadese.
PCT
(26). Una sequenza di 3 caratteri di numero lettera numero. Identifica una LDU, gli ultimi 3 caratteri di un codice postale canadese.
Parole d'ordine
Le STOPWORDS si combinano con le WORDS. Nelle regole, una stringa di più PAROLE e STOPWORD sarà rappresentata da un singolo token PAROLA.
STOPWORD
(7). Una parola di scarso significato lessicale, che può essere omessa nel parsing. Ad esempio: IL.
Dopo il primo -1 (terminatore), seguono i token di uscita e il loro ordine, seguito da un terminatore -1
. I numeri dei corrispondenti token di uscita sono elencati in stdaddr. I numeri ammessi dipendono dal tipo di regola. I token di uscita validi per ogni tipo di regola sono elencati in the section called “Tipi di regole e rango”.
La parte finale della regola è il tipo di regola, indicato da una delle seguenti lettere, seguita da un grado della regola. Le regole sono classificate da 0 (minimo) a 17 (massimo).
MACRO_C
(numero di token = "0"). La classe di regole per il parsing di clausole MACRO come PLACE STATE ZIP
Gettoni di uscita MACRO_C
(estratto da http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--.
CITY
(numero di token "10"). Esempio "Albany"
STATE
(numero di token "11"). Esempio "NY"
NATION
(numero di token "12"). Questo attributo non viene utilizzato nella maggior parte dei file di riferimento. Esempio "USA"
POSTAL
(numero di token "13"). (elementi SADS "ZIP CODE" , "PLUS 4" ). Questo attributo è utilizzato sia per i codici postali statunitensi che per quelli canadesi.
MICRO_C
(numero di token = "1"). La classe di regole per il parsing delle clausole MICRO complete (come House, street, sufdir, predir, pretyp, suftype, qualif) (cioè ARC_C più CIVIC_C). Queste regole non vengono utilizzate nella fase di compilazione.
Gettoni di uscita MICRO_C
(estratto da http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--.
HOUSE
è un testo (numero di token 1
): È il numero civico di una strada. Esempio 75 in 75 State Street
.
predir
è un testo (numero di token 2
): NOME DELLA STRADA PRE-DIRETTIVO come Nord, Sud, Est, Ovest ecc.
qual
è un testo (numero di token 3
): NOME STRADA PRE-MODIFICATORE Esempio OLD in 3715 OLD HIGHWAY 99
.
pretype
è un testo (numero di token 4
): TIPO DI PREFISSO STRADALE
street
è un testo (numero di token 5
): NOME DELLA STRADA
suftype
è un testo (numero di token 6
): TIPO DI STRADA, ad esempio St, Ave, Cir. Un tipo di strada che segue il nome della via principale. Esempio STREET in 75 State Street
.
sufdir
è un testo (numero di token 7
): STREET POST-DIRECTIONAL Modificatore direzionale che segue il nome della strada. Esempio WEST in 3715 TENTH AVENUE WEST
.
ARC_C
(numero di token = "2"). Classe di regole per il parsing delle clausole MICRO, escluso l'attributo HOUSE. Come tale, utilizza lo stesso insieme di token di output di MICRO_C, meno il token HOUSE.
CIVIC_C
(numero di token = "3"). La classe di regole per il parsing dell'attributo HOUSE.
EXTRA_C
(numero di token = "4"). La classe di regole per il parsing degli attributi EXTRA - attributi esclusi dalla geocodifica. Queste regole non vengono utilizzate nella fase di costruzione.
Gettoni di uscita EXTRA_C
(estratto da http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--.
BLDNG
(numero di token 0
): Identificatori e tipi di edifici non analizzati.
BOXH
(Token-Nummer 14
): Die BOX in BOX 3B
BOXT
(token number 15
): The 3B in BOX 3B
RR
(token number 8
): The RR in RR 7
UNITH
(token number 16
): The APT in APT 3B
UNITT
(token number 17
): The 3B in APT 3B
UNKNWN
(token number 9
): An otherwise unclassified output.