Name

rules table — A mesa de regras contém um conjunto de regras que mapeia a sequência de tokens de entrada de endereço para a sequência de saída. Uma regra é definida como um conjunto de tokens de entrada seguido por -1 (terminator) seguido por conjunto de tokens de saída seguido por -1 seguido por um número que denota tipo de regra seguido por um ranking de regra.

Descrição

Uma tabel regras deve ter pelo menos as colunas a seguir, embora você tenha permissão para adicionar mais para seus usos pessoais.

id

Chave primária da tabela

rule

campo de texto indicando a regra. Detalhes em PAGC Registros da regra do padronizador de endereços.

Uma regra consiste em um conjunto de não negativos inteiros representando tokens de entrada, terminados por um -1, seguidos por um número igual de não negativos inteiros representando atributos postais, terminados por um -1, seguidos por um inteiro representando um tipo de regra, seguido por um inteiro representando o rank da regra. As regras são ranqueadas de 0 (menor) até 17 (maior).

Então por exemplo 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6mapeia para a sequência de tokens de saída TYPE NUMBER TYPE DIRECT QUALIF para a sequência de saída STREET STREET SUFTYP SUFDIR QUALIF. A regra é uma ARC_C regra de rank 6.

Números para tokens da saída correpondentes estão listados em stdaddr.

Tokens de entrada

Cada regra começa com um conjunto de tokens de entrada seguidos por um terminator-1. Tokens de entrada extraídos de PAGC Input Tokens estão como segue:

Tokens de entrada baseados na forma

AMPERS

(13). O ampersand (&) é frequentemente utilizado para abreviar a palavra "e".

DASH

(9). Um caractere de pontuação.

DOUBLE

(21). Uma sequência de duas letras. Normalmente utilizadas como identificadoras.

FRACT

(25). Frações são usadas algumas vezes em números cívicos ou de unidade.

MIXED

(23). Uma string alfanumérica que contém ambos: letras e dígitos. Usado por identificadores.

NUMBER

(0). Uma string de dígito.

ORD

(15). Representações como Primeiro ou 1ro. Normalmente usada em nomes de ruas.

ORD

(18). Uma única letra.

WORD

(1). Uma palavra é uma string de letras de tamanho aleatório. Uma única letra pode ser os dois uma ÚNICA e uma PALAVRA.

Tokens de entrada baseados na função

BOXH

(14). Palavras usadas para indicar caixas do correio. Por exemplo Caixa ou CO Caixa.

BUILDH

(19). Palavras usadas para indicar prédios ou condomínios, normalmente como um prefixo. Por exemplo: Torre em Torre 7A.

BUILDT

(24). Palavras e abreviações usadas para indicar prédios ou complexos de prédios, normalmente como um sufixo. Por exemplo: Shopping Center.

DIRECT

(22). Palavras usadas para indicar direções, por exemplo Norte.

MILE

(20). Palavras usadas para indicar endereços marco miliário.

ROAD

(6). Palavras e abreviações usadas para indicar estradas e ruas. Po exemplo: a Interestadual em Interestadual 5

RR

(8). Palavras e abreviações usadas para indicar rotas rurais. RR.

TYPE

(2). Palavras e abreviação usadas para indicar tipos de ruas. Por exemplo: R or AV.

UNITH

(16). palavras e abreviação usada para indicar sub endereços.Poe exemplo, APTO ou UNIDADE.

Tokens de entrada de tipo postal

QUINT

(28). Um número de 5 dígitos. Identifica um código Zip

QUAD

(29). Um número de 4 dígitos. Identifica ZIP4.

PCH

(27). Uma sequência de letra número letra de 3 caracteres. Identifica um FSA, os 3 primeiros caracteres de um código postal canadense.

PCT

(26). Uma sequência de número letra número de 3 caracteres. Identifica um LDU, os 3 últimos caracteres de um código postal canadense.

Palavras vazias

PALAVRAS VAZIAS combinadas com PALAVRAS. Uma string de múltiplas PALAVRAs e PALAVRAs VAZIAS será representada por uma única PALAVRA token.

STOPWORD

(7). Uma palavra com pouca significância lexical que pode ser omitida na análise sintática. Por exemplo: O.

Tokens de saída

Depois do primeiro-1 (terminator), segue os tokens de saída e sua ordem, seguido por um terminator -1. Números para tokens de saída correspondentes estão listados em stdaddr. Que estão permitidos é dependente em um tipo de regra. Tokens de saída válidos para cada tipo de regra estão listados em the section called “Tipos de Regra e Classificação”.

Tipos de Regra e Classificação

A parte final da regra é o tipo de regra que é denotado por um dos seguintes, seguido por uma regra rank. As regras são classificadas de 0 (menor) até 17 (maior).

MACRO_C

(token number = "0"). A classe de regras para as orações parsing MACRO como PLACE STATE ZIP

MACRO_C output tokens (excerpted from http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--.

CITY

(número token "10"). Exemplo "Albany"

STATE

(número token "11"). Exemplo "NY"

NATION

(número token "12"). Este atributo não é usado na maioria dos arquivos de referência. Exemplo "USA"

POSTAL

(número token "13"). (SADS elements "ZIP CODE" , "PLUS 4" ). Este atributo é usado para o US Zip e os códigos postais canadenses.

MICRO_C

(número token = "1"). A classe de regras para orações parsing full MICRO (such as House, street, sufdir, predir, pretyp, suftype, qualif) (ie ARC_C plus CIVIC_C). Essas regras não são usadas na construção da frase.

MICRO_C output tokens (excerpted from http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--.

HOUSE

é um texto (número token 1): Este é o número da rua em uma rua. Exemplo 75 em 75 Rua State.

predir

é um texto (número token 2): NOME DA RUA PRE-DIRECTIONAL como Norte, Sul, Leste, Oeste etc.

qual

é um texto (número token 3): NOME DA RUA PRE-MODIFIER Exemplo VELHA em 3715 ESTRADA VELHA 99.

pretype

é um texto (número token 4): TIPO DE PREFIXO DA RUA

street

é um texto (número token 5): NOME DA RUA

suftype

é um texto (número token 6): TIPO DE CORREIO DA RUA ex. R, Av, Cir. Um tipo de rua seguindo o nome raiz da rua. Exemplo RUA em 75 Rua State.

sufdir

é um texto (número token 7): RUA POST-DIRECTIONAL Um modificador direcional que segue o nome da rua.. Exemplo OESTE em 3715 DÉDIMA AVENIDA OESTE.

ARC_C

(número token = "2"). A calsse de regras para orações parsing MICRO, excluindo o atributo CASA. Como usa o mesmo conjunto de tokens de saída como MICRO_C menos o token CASA.

CIVIC_C

(número token = "3"). A classe de regras para parsing o atributo da CASA.

EXTRA_C

(número token = "4"). A classe de regras para atributos parsing EXTRA - atributos excluídos do geocoding. Essas regras não são usadas na fase de construção.

EXTRA_C output tokens (excerpted from http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--.

BLDNG

(token number 0): Unparsed identificadores e tipos de construção.

BOXH

(token number 14): The BOX in BOX 3B

BOXT

(token number 15): The 3B in BOX 3B

RR

(token number 8): The RR in RR 7

UNITH

(token number 16): The APT in APT 3B

UNITT

(token number 17): The 3B in APT 3B

UNKNWN

(token number 9): Uma saída senão não classificada.