rules table — La table rules contient un ensemble de règles qui établit une correspondance entre les jetons de la séquence d'entrée de l'adresse et la séquence de sortie normalisée. Une règle est définie comme un ensemble de jetons d'entrée suivi de -1 (terminateur) suivi d'un ensemble de jetons de sortie suivi de -1 suivi d'un nombre indiquant le type de règle suivi du classement de la règle.
La table rules doit comporter au moins les colonnes suivantes, mais vous pouvez en ajouter d'autres pour vos propres besoins.
id
Clé primaire de la table
rule
champ de texte indiquant la règle. Pour plus de détails, voir PAGC Address Standardizer Rule records.
Une règle se compose d'un ensemble d'entiers non négatifs représentant les jetons d'entrée, terminés par un -1, suivis d'un nombre égal d'entiers non négatifs représentant les attributs postaux, terminés par un -1, suivis d'un entier représentant un type de règle, suivi d'un entier représentant le rang de la règle. Les règles sont classées de 0 (la plus basse) à 17 (la plus haute).
Ainsi, par exemple, la règle 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6
associe la séquence de jetons de sortie TYPE NUMBER TYPE DIRECT QUALIF à la séquence de sortie STREET STREET SUFTYP SUFDIR QUALIF. La règle est une règle ARC_C de rang 6.
Les numéros des jetons de sortie correspondants sont énumérés dans stdaddr.
Chaque règle commence par un ensemble de jetons d'entrée suivi d'un terminateur -1
. Les jetons d'entrée valides extraits de Tokens d'entrée du PAGC sont les suivants :
Jetons de saisie basés sur la forme
AMPERS
(13). L'esperluette (&) est fréquemment utilisée pour abréger le mot "et".
DASH
(9). Un caractère de ponctuation.
DOUBLE
(21). Séquence de deux lettres. Souvent utilisé comme identifiant.
FRACT
(25). Les fractions sont parfois utilisées dans les nombres civiques ou les nombres unitaires.
MIXED
(23). Chaîne alphanumérique contenant à la fois des lettres et des chiffres. Utilisée pour les identifiants.
NUMBER
(0). Une chaîne de chiffres.
ORD
(15). Représentations telles que First or 1st. Souvent utilisé dans les noms de rue.
ORD
(18). Une seule lettre.
WORD
(1). Un mot est une chaîne de lettres de longueur arbitraire. Une même lettre peut être à la fois SINGLE et WORD.
Jetons d'entrée basés sur des fonctions
BOXH
(14). Mots utilisés pour désigner les boîtes postales. Par exemple Box ou PO Box.
BUILDH
(19). Mots utilisés pour désigner des bâtiments ou des ensembles de bâtiments, généralement sous forme de préfixe. Par exemple : Tower dans Tower 7A.
BUILDT
(24). Mots et abréviations utilisés pour désigner des bâtiments ou des ensembles de bâtiments, généralement sous forme de suffixe. Par exemple : Shopping Centre.
DIRECT
(22). Mots utilisés pour indiquer des directions, par exemple Nord.
MILE
(20). Mots utilisés pour indiquer les adresses des points kilométriques.
ROAD
(6). Mots et abréviations utilisés pour désigner les autoroutes et les routes. Par exemple : l'Interstate dans Interstate 5
RR
(8). Mots et abréviations utilisés pour désigner les routes rurales. RR.
TYPE
(2). Mots et abréviations utilisés pour désigner les types de rues. Par exemple : ST ou AVE.
UNITH
(16). Mots et abréviations utilisés pour désigner les sous-adresses internes. Par exemple, APT ou UNIT.
Type de poste Jetons d'entrée
QUINT
(28). Un nombre à 5 chiffres. Identifie un code postal
QUAD
(29). Un numéro à 4 chiffres. Identifie le ZIP4.
PCH
(27). Séquence de 3 caractères composée d'une lettre, d'un numéro et d'une lettre. Identifie un FSA, les 3 premiers caractères d'un code postal canadien.
PCT
(26). Séquence de 3 caractères composée d'un numéro, d'une lettre et d'un chiffre. Identifie un LDU, les 3 derniers caractères d'un code postal canadien.
Stopwords
STOPWORDS se combinent avec WORDS. Dans les règles, une chaîne de plusieurs WORDs et STOPWORDs sera représentée par un seul mot-clé WORD.
STOPWORD
(7). Un mot de faible importance lexicale, qui peut être omis dans l'analyse syntaxique. Par exemple : THE.
Après le premier -1 (terminateur), suivent les jetons de sortie et leur ordre, suivis d'un terminateur -1
. Les numéros des jetons de sortie correspondants sont énumérés dans stdaddr. Les éléments autorisés dépendent du type de règle. Les jetons de sortie valables pour chaque type de règle sont énumérés dans the section called “Types de règles et rangs”.
La dernière partie de la règle est le type de règle qui est désigné par l'un des éléments suivants, suivi du rang de la règle. Les règles sont classées de 0 (la plus faible) à 17 (la plus élevée).
MACRO_C
(numéro du jeton = "0"). La classe de règles pour l'analyse des clauses MACRO telles que PLACE STATE ZIP
MACRO_C
jetons de sortie ("output tokens") (excepté pour http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--.
CITY
(jeton numéro "10"). Exemple "Albany"
STATE
(jeton numéro "11"). Exemple "NY"
NATION
(numéro de jeton "12"). Cet attribut n'est pas utilisé dans la plupart des fichiers de référence. Exemple "USA"
POSTAL
(nombre de jetons "13"). (éléments SADS "ZIP CODE" , "PLUS 4" ). Cet attribut est utilisé à la fois pour le code postal américain et le code postal canadien.
MICRO_C
(numéro du jeton = "1"). La classe de règles pour l'analyse des clauses MICRO complètes (telles que House, street, sufdir, predir, pretyp, suftype, qualif) (c'est-à-dire ARC_C plus CIVIC_C). Ces règles ne sont pas utilisées dans la phase de construction.
MICRO_C
jetons de sortie ("output tokens") (exceptés pour http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--.
HOUSE
est un texte (jeton numéro 1
) : Il s'agit du numéro d'une rue. Exemple 75 dans 75 State Street
.
predir
est un texte (jeton numéro 2
) : NOM DE RUE PRÉDIRECTIONNEL tel que Nord, Sud, Est, Ouest, etc.
qual
est un texte (jeton numéro 3
) : NOM DE RUE PRE-MODIFIER Exemple OLD dans 3715 OLD HIGHWAY 99
.
pretype
est un texte (jeton numéro 4
) : TYPE DE PRÉFIXE DE RUE
street
est un texte (jeton numéro 5
) : NOM DE RUE
suftype
est un texte (jeton numéro 6
) : STREET POST TYPE e.g. St, Ave, Cir. Un type de rue suivant le nom de la rue racine. Exemple STREET dans 75 State Street
.
sufdir
est un texte (jeton numéro 7
) : STREET POST-DIRECTIONAL Un modificateur directionnel qui suit le nom de la rue. Exemple WEST dans 3715 TENTH AVENUE WEST
.
ARC_C
(numéro de jeton = "2"). Classe de règles pour l'analyse des clauses MICRO, à l'exclusion de l'attribut HOUSE. En tant que telle, elle utilise le même ensemble de jetons de sortie que MICRO_C, à l'exception du jeton HOUSE.
CIVIC_C
(numéro du jeton = "3"). La classe de règles pour l'analyse de l'attribut HOUSE.
EXTRA_C
(numéro du jeton = "4"). La classe de règles pour l'analyse des attributs EXTRA - attributs exclus du géocodage. Ces règles ne sont pas utilisées dans la phase de construction.
EXTRA_C
jetons de sortie ("output tokens") (excepté pour http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--.
BLDNG
(numéro de jeton 0
) : Identifiants et types de bâtiments non analysés.
BOXH
(numéro de jeton 14
) : Le BOX dans BOX 3B
BOXT
(token number 15
) : La 3B dans BOX 3B
RR
(token number 8
) : Le RR dans RR 7
UNITH
(numéro de jeton 16
) : L'APT dans APT 3B
UNITT
(numéro de jeton 17
) : La 3B dans APT 3B
UNKNWN
(numéro de jeton 9
) : Une sortie non classée par ailleurs.