Name

rules table — 규칙 테이블은 주소 입력 배열 토큰을 표준화된 출력 배열 토큰에 매핑하는 일련의 규칙들을 담고 있습니다. 입력 토큰들의 집합, 그 뒤에 -1(종결자; terminator), 그 뒤에 출력 토큰들의 집합, 그 뒤에 -1, 그 뒤에 규칙의 종류를 표시하는 번호, 그 뒤에 규칙의 순위를 나열해서 하나의 규칙을 정의합니다.

설명

규칙 테이블은 최소한 다음 열들을 가지고 있어야만 하지만, 사용자의 용처에 따라 더 많은 열을 추가할 수도 있습니다.

id

테이블의 기본 키

rule

규칙을 표시하는 텍스트 항목입니다. PAGC Address Standardizer Rule records 에서 자세히 설명하고 있습니다.

하나의 규칙은 입력 토큰을 나타내는 음수가 아닌 정수들의 집합, 해당 집합을 종결하는 -1, 그 다음에 우편 속성을 나타내는 동일한 개수의 음수가 아닌 정수들의 집합, 해당 집합을 종결하는 -1, 그 다음에 규칙 유형을 나타내는 정수, 그 다음에 규칙 순위를 나타내는 정수로 이루어집니다. 규칙의 순위는 (최저) 0부터 (최고) 17까지입니다.

따라서, 예를 들어 규칙 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6 은 출력 토큰 배열 TYPE NUMBER TYPE DIRECT QUALIF 에, 해당 출력 토큰 배열은 출력 배열 STREET STREET SUFTYP SUFDIR QUALIF 에 매핑됩니다. 규칙은 6순위의 ARC_C 규칙입니다.

stdaddr에서 해당 출력 토큰에 대한 번호 목록을 소개하고 있습니다.

입력 토큰

각 규칙은 입력 토큰 집합과 그 다음의 종결자 -1 로 시작합니다. PAGC Input Tokens 에서 발췌한 유효한 입력 토큰들은 다음과 같습니다:

서식 기반 입력 토큰

AMPERS

(13). 앰퍼샌드(&)는 단어 "and"를 축약하는 데 자주 쓰입니다.

DASH

(9). 구두법(句讀法; punctuation) 문자입니다.

DOUBLE

(21). 문자 2개의 배열입니다. 식별자로 종종 쓰입니다.

FRACT

(25). 분수는 가끔 가구 번호 또는 동호수에 쓰입니다.

MIXED

(23). 문자와 숫자 모두를 담고 있는 영숫자 스트링입니다. 식별자로 쓰입니다.

NUMBER

(0). 숫자 스트링입니다.

ORD

(15). "First" 또는 "1st" 같은 표현입니다. 도로명에 자주 쓰입니다.

ORD

(18). 단일 문자입니다.

WORD

(1). 임의의 길이의 문자열입니다. 단일 문자는 SINGLE도, WORD도 될 수 있습니다.

기능 기반 입력 토큰

BOXH

(14). 우편사서함을 표시하는 데 쓰이는 단어입니다. 예를 들어 Box 또는 PO Box 처럼 말이죠.

BUILDH

(19). 일반적으로 접두사의 형태인, 건물 또는 건물군을 표시하는 데 쓰이는 단어입니다. 예: Tower 7A 에서 Tower

BUILDT

일반적으로 접미사의 형태인, 건물 또는 건물군을 표시하는 데 쓰이는 단어 및 약어입니다. 예: Shopping Centre

DIRECT

(22). 방향을 표시하는 데 쓰이는 단어입니다. 예: North

MILE

(20). 거리표(어떤 지점까지의 거리를 나타내는 도로가의 푯말; milepost) 주소를 표시하는 데 쓰이는 단어입니다.

ROAD

(6). 고속도로와 도로를 표시하는 데 쓰이는 단어 및 약어입니다. 예: Interstate 5 에서 Interstate

RR

(8). 지방 우편물 배달 노선(rural route)을 표시하는 데 쓰이는 단어 및 약어입니다. RR.

TYPE

(2). 도로 유형을 표시하는 데 쓰이는 단어 및 약어입니다. 예: ST 또는 AVE

UNITH

(16). 내부 하위주소를 표시하는 데 쓰이는 단어 및 약어입니다. 예: APT 또는 UNIT

우편 유형 입력 토큰

QUINT

(28). 다섯 자리 숫자입니다. 집코드(Zip Code)를 식별합니다.

QUAD

(29). 네 자리 숫자입니다. ZIP4를 식별합니다.

PCH

(27). 문자, 숫자, 문자 순서로 이루어진 문자 3개의 배열입니다. 캐나다 우편 번호의 처음 세 문자인 FSA를 식별합니다.

PCT

(26). 숫자, 문자, 숫자 순서로 이루어진 문자 3개의 배열입니다. 캐나다 우편 번호의 마지막 세 문자인 LDU를 식별합니다.

불용어(不用語; stopword)

STOPWORD는 WORD와 결합합니다. 규칙 상 복수의 WORD 및 STOPWORD 스트링을 단일 WORD 토큰으로 표현할 것입니다.

STOPWORD

(7). 어휘 상 중요도가 낮아 파싱 작업시 생략할 수 있는 단어입니다. 예: THE

출력 토큰

첫 번째 -1(종결자) 다음에 출력 토큰 및 그 순서가 오고, 그 다음에 종결자 -1 이 따라옵니다. stdaddr 에서 많은 해당 출력 토큰들의 목록을 소개하고 있습니다. 규칙의 유형에 따라 사용할 수 있는 출력 토큰들도 달라집니다. the section called “규칙 유형 및 순위” 에서 각 규칙 유형에 대해 유효한 출력 토큰 목록을 볼 수 있습니다.

규칙 유형 및 순위

규칙을 구성하는 마지막 부분은 다음 가운데 하나로 표시되는 규칙 유형과 그 다음에 오는 규칙 순위입니다. 규칙의 순위는 (최저) 0부터 (최고) 17까지입니다.

MACRO_C

(토큰 번호 = "0"). PLACE STATE ZIP 같은 MACRO 절을 파싱하기 위한 규칙 클래스입니다.

MACRO_C 출력 토큰 (http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ-- 에서 발췌)

CITY

(토큰 번호 "10"). 예: "Albany"

STATE

(토큰 번호 "11"). 예: "NY"

NATION

(토큰 번호 "12"). 이 속성은 대부분의 참조 파일에서 쓰이지 않습니다. 예: "USA"

POSTAL

(토큰 번호 "13"). (SADS 요소 "ZIP CODE", "PLUS 4"). 미국 집코드 및 캐나다 우편 번호 모두 이 속성을 이용합니다.

MICRO_C

(토큰 번호 = "1"). (가구, 도로, sufdir, predir, pretyp, suftype, qualif와 같은) 완전한 MICRO 절을 파싱하기 위한 규칙 클래스입니다(예: ARC_C 및 CIVIC_C). 빌드 시기에는 이 규칙들을 이용하지 않습니다.

MICRO_C 출력 토큰 (http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ-- 에서 발췌).

HOUSE

문자형(토큰 번호 1)입니다: 도로의 번지수입니다. 예: 75 State Street75 번지

predir

문자형(토큰 번호 2)입니다: North, South, East, West 등과 같이 방향을 나타내는 도로명 접두사(STREET NAME PRE-DIRECTIONAL)입니다.

qual

문자형(토큰 번호 3)입니다: 도로명 전치수식어(STREET NAME PRE-MODIFIER)입니다. 예: 3715 OLD HIGHWAY 99 에서 OLD

pretype

문자형(토큰 번호 4)입니다: 도로 접두사 유형(STREET PREFIX TYPE)입니다.

street

문자형(토큰 번호 5)입니다: 도로명(STREET NAME)입니다.

suftype

문자형(토큰 번호 6)입니다: St, Ave, Cir와 같은 도로 접미사 유형(STREET POST TYPE)입니다. 도로명의 몸통 뒤에 붙는 도로 유형을 뜻합니다. 예: 75 State Street 에서 STREET

sufdir

문자형(토큰 번호 7)입니다: 방향을 나타내는 도로 접미사(STREET POST-DIRECTIONAL)입니다. 도로명 뒤에 붙어 방향을 나타내는 수식어입니다. 예: 3715 TENTH AVENUE WEST 에서 WEST

ARC_C

(토큰 번호 = "2"). HOUSE 속성을 제외하고 MICRO 절을 파싱하기 위한 규칙 클래스입니다. 따라서 HOUSE 토큰을 뺀 MICRO_C 출력 토큰 집합을 이용합니다.

CIVIC_C

(토큰 번호 = "3"). HOUSE 속성을 파싱하기 위한 규칙 클래스입니다.

EXTRA_C

(토큰 번호 = "4"). EXTRA 속성 - 지오코딩에서 제외된 속성 - 을 파싱하기 위한 규칙 클래스입니다. 빌드 시기에는 이 규칙들을 이용하지 않습니다.

EXTRA_C 출력 토큰 (http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ-- 에서 발췌).

BLDNG

(토큰 번호 0): 파싱되지 않은 건물 식별자 및 유형입니다.

BOXH

(token number 14): The BOX in BOX 3B

BOXT

(토큰 번호 15): BOX 3B 에서 3B

RR

(토큰 번호 8): RR 7 에서 RR

UNITH

(토큰 번호 16): APT 3B 에서 APT

UNITT

(토큰 번호 17): APT 3B 에서 3B

UNKNWN

(토큰 번호 9): 따로 분류되지 않은 출력물입니다.