KR20050084409A

KR20050084409A - 데이터 판독 방법 및 시스템

Info

Publication number: KR20050084409A
Application number: KR1020057011343A
Authority: KR
Inventors: 안드레아스 켈러; 잔 크네이슬러; 홀거 알. 스콜; 에릭 텔렌
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2002-12-19
Filing date: 2003-12-03
Publication date: 2005-08-26
Also published as: EP1576504A2; AU2003303254A1; WO2004057496A3; CN1930564A; JP2006510978A; WO2004057496A2

Abstract

문서로부터 데이터를 판독하기 위한 시스템과 방법 및 데이터를 검출하는 방법이 기술된다. 휘발성이고(volatile)(즉 시간에 따라서 변동하며) 약하게 구조화된 문서들(예를 들면 HTML 페이지들) 내에 존재하는 데이터를 판독하기 위해서, 유저에 의해서 조작되는 입력 수단과 표시기를 가진 컴퓨터를 구비한 시스템이 제안된다. 상기 컴퓨터는 적어도 하나의 문서에 접근할 수 있다. 상기 컴퓨터는 상기 유저에 의한 적어도 하나의 제 1 입력이 처리되는 프로그램을 동작시키며, 이에 의해서 판독될 상기 문서의 데이터 범위가 고정된다. 상기 프로그램은 상기 고정된 데이터 범위를 판독하기 위한 추출 명령을 자동적으로 생성한다. 상기 추출 명령은, 예를 들면 저장될 수도 있다. 상기 추출 명령을 실행하면, 상기 문서의 상기 고정된 데이터 범위가 판독된다. 이 작업은 시간 간격들을 두고 반복될 수도 있다.

Description

데이터 판독 방법 및 시스템{Method and system for reading data}

본 발명은 문서(document)로부터 데이터를 판독하는 시스템 및 방법에 관한 것이며, 또한 데이터를 획득하는 방법에 관한 것이다.

최근 다량의 데이터가 전자적인 형태로 저장되고 있다. 여기에는, 한편으로는 데이터베이스에 저장되어 컴퓨터에 의해서 하나 이상의 데이터 집합(set)의 질의(query)에 적합한 데이터베이스 형태의 저장 장치가 포함된다. 다른 한편으로 여기에는 또한 HTML이나 XML 파일들, 표들, 구조화된 텍스트들 또는 표 계산(table computation)을 통한 작업 페이지들(work pages) 등이 포함된다. 그러나 상술한 데이터베이스들과 마찬가지로 상기 후자의 전자 문서들 또한 컴퓨터 판독이 가능하다. 그렇지만, 이와 같은 문서로부터 단일 데이터를 질의하기 위한(예를 들면, 표 내의 각 기입 내용을 판독하기 위한) 특별한 질의 인터페이스는 없다. 본 발명에서는 이와 같은 문서들로부터 데이터 - 데이터베이스와는 달리 이 데이터는 약하게 구조화된 데이터라고 부르기로 한다 - 를 판독하기 위해서는 일반적으로 grep, sed 또는 awk 등과 같은 공지된 프로그램에 의해서 해석되는(interpretted), 예를 들면, PERL 스크립트 또는 정규 표현(regular expression, 정규식)과 같은 적절한 컴퓨터 언어에 추출 명령(extract instruction)을 제공할 필요가 있다. 이와 같은 명령의 제공은 프로그래밍에 관한 전문적인 기술 지식을 필요로 하며, 유저에게는 아주 편안한 방법이 되지 못한다.

문서로부터 데이터를 판독하려고 하는 목적은, 일반적으로 일회용 작업이 아니다. 오히려 시간과 함께 변화하는 데이터, 즉 갱신된 데이터를 상기 문서들로부터 빈번하게 또한 시간 간격들을 두고 판독되는 것이 바람직하다. 예를 들면 컴퓨터 네트워크 내에 주어진 주소(URL)로 표시되는 문서(예를 들면 HTML 페이지)는 서로 다른 도시들로부터의 일기 데이터(weather data)를 갖는 갱신된 표를 포함할 수 있다. 상기 표시된 데이터, 예를 들면 온도는 날마다 변화된다. 심지어 상황에 따라서 (데이터의) 포맷을 바꿈에 따라서 절대 위치의 범위가 변화될 수도 있다. 예를 들면, 어떤 날에는 파리(Paris)의 온도값이 제 2 행의 제 3 열에서 언급될 수도 있지만, 다른 날에는 다른 열의 제 2 행에서 언급될 수도 있다.

시간과 함께 상기 정보가 변화되는 특별히 흥미로운 종류의 문서들을 이하에서 "휘발성(volatile)"으로 지칭하기로 한다.

도 1은 추출 명령을 유도하기 위한 그래프를 나타낸 도면.

본 발명의 목적은 문서로부터 데이터를 판독하기 위한 시스템과 방법 및 획득 방법을 제공하는 것이며, 이에 의해서 유저는, 특히 약하게 구조화된 휘발성 문서들로부터 데이터를 질의할 수 있는 추출 명령을 간단하게 생성할 수 있다.

이 목적은 특허 청구 범위의 청구항 1에서 한정된 시스템, 청구항 9에서 한정된 데이터의 판독 방법 및 청구항 10에서 한정된 데이터 검출 방법에 의해서 해결된다. 종속 청구항들은 본 발명의 바람직한 실시예들에 의해서 한정된다.

본 발명에 따른 해결책에서, 상기 유저는 컴퓨터에서 실행되는 프로그램에 의해 상기 컴퓨터에 의해서 처리되는 입력에 의해 문서 내의 관심있는 데이터의 범위를 고정한다. 상기 프로그램에 의해서, 상기 목적을 위한 추출 명령이 자동적으로 생성된다.

상기 컴퓨터는 적어도 하나의 문서에 접근한다. 상기 컴퓨터는 컴퓨터 네트워크, 예를 들면 인터넷에 접속되어 있고, 상기 컴퓨터 네트워크를 통해서 원격 문서에 접속할 수 있는 것이 바람직하다.

상기 컴퓨터 상에서 동작하고 있는 프로그램은, 예를 들면 상기 문서를 표시하고 있으며, 예를 들면 (마우스와 같은) 표시 유닛을 사용하여 표시하는 것에 의해서 상기 관심있는 데이터 범위를 유저가 고정하도록 할 수도 있다. 상기 유저는 하나 이상의 범위들(이하 본 발명에서는 구조화된 범위들이라 한다)이 고정되는 가진 제 2 입력을 더 제공할 수도 있으며, 바람직한 범위를 찾는데 도움이 될 수도 있다. 예를 들면 이들 구조화된 범위들은 표(table) 내에서 바람직한 콘텐츠를 가진 셀(cell)을 찾을 수 있도록 하는 열(列) 또는 행(行) 헤더(header)일 수도 있다.

본 발명에 따르면, 추출 명령은 상기 유저의 상기 입력들에 기초하여 자동적으로 생성된다. 상기 추출 명령은 컴퓨터에 의해서 판독될 수 있고, 적절한 인터프리터 프로그램에 의해서 실행되는 형태로 공급되며, 저장되어 있는 것이 바람직하다. 상기 추출 명령을 실행하면, 상기 문서의 상기 고정된 데이터 범위가 판독된다. 상기 유저가 구조화된 범위를 추가적으로 미리 정해 놓은 경우에, 생성된 상기 추출 명령은 상기 위치에 대응하는 주소 표시 또는 상기 미리 결정된 구조화된 범위의 내용을 포함하는 것이 바람직하다.

본 발명의 다른 실시예에 따르면, 상기 추출 명령을 위한 특별한 문법(grammar)이 미리 결정된다. 유효한 표현식은 종단(terminal) 기호들의 미리 결정된 시퀀스로 구성되어 있다. 상기 문법은 문서 내의 주어진 위치들의 주소 지정을, 한편으로는 절대적으로(예를 들면 상기 문서 내의 도입부), 다른 한편으로는 이미 표시된 범위에 대해 상대적으로(예를 들면 2 열 아래)도 지정할 수 있게 한다.

바람직하게 사용되는 상기 문법의 구조는 간단하다. 상기 문법은 관심있는 문서의 종류(type)에 적합하도록 하는 것이 바람직하다. 예를 들면 특정 문법을 제공하여 연속적인 텍스트들의 주소를 지정할 수도 있으며, 이렇게 하면, 예를 들면 단어 및 문단에 기초하여 주소를 지정할 수도 있다(예를 들면 제 3 문단의 제 2 번째 단어). 다르게는 열(row)과 행(column)에 기초하여 주소를 지정하는 표들(table)에 적합한 특정 문법을 제공하는 것 또한 충분히 가능하다(예를 들면 "Paris"로 시작하는 열 내의 제 3 필드(field)).

본 발명의 다른 실시예에 따르면, 상기 추출 명령은 상기 미리 결정된 문법으로 이루어진 유효한 복수의 추출 명령들을 생성하고 이들 추출 명령들의 실행시에 상기 문서의 상기 관심있는 데이터 범위가 판독되어지는지를 검사하여 자동적으로 생성된다. 성공적인 추출 명령들의 한가지는, 예를 들면 복잡도 기준을 참고하여 선택된다.

자동 추출 명령은 하나의 문서에 의해서만 구현되는 것이 아니라 복수의 연습용 문서들을 처리하여 제공되는 것이 바람직하다. 이렇게 하면 자동적으로 생성된 추출 명령이 항상 원하는 데이터를 공급할 가능성이 높아지게 되며, 또한 휘발성 문서들의 경우에 있어서도 계속적인 변경을 행할 필요가 없어지게 된다.

일단 생성된 추출 명령은 복수의 연습용 문서들로 검증하는 것이 바람직하며, 또한 저장되는 것이 바람직하다. 이후에 시간 간격을 두고 반복될 수 있기 때문에 항상 갱신된 문서의 주소 지정된 범위로부터 현재값을 판독할 수 있게 된다. 상기 값은 또한 다양한 다른 방법으로 처리될 수도 있다. 예를 들면 컴퓨터 네트워크로부터 호출되는 다른 문서의 현재 정보와 조합하여 개인적인 선호도에 따라서 정보를 해석하도록 처리될 수도 있다.

본 발명의 이들 및 다른 특징들은 이하 상세하게 설명하는 실시예들을 참조하여 명백해지고 명료해질 것이다.

실시예에서는, 예를 들면 제 WO 99/39466 호에서 설명된 바와 같이 자동으로 제공되는 개인용 라디오 프로그램에 현재의 일기 예보가 삽입되어진다. 필요한 현재의 기상 정보는 서로 다른 인터넷 페이지들(HTML 문서들)로부터 항상 입수 가능하다. 유저는 간단한 방식에 의해서 상기 정보를 고정할 수 있어야 하며, 이 정보는 계속하여 유저의 개인용 라디오 프로그램 내로 (음성 합성에 의해서) 삽입되어진다.

이를 위해서, 입력 수단(예를 들면 키보드, 마우스 등)과 출력 수단(예를 들면 모니터)을 갖춘 컴퓨터 시스템을 사용한다. 상기 컴퓨터는 인터넷에 접속되어 있다. 상기 컴퓨터 상에는 프로그램이 설치되며, 이 프로그램을 사용하여 유저는 자기가 관심이 있는 데이터에 대한 추출 명령을 간단하게 공식화(formulate)하며, 이들 데이터를 자기를 위한 개인용 라디오 프로그램을 컴파일하는 상기 서비스 제공자에게 전송한다. 이하에서 상기 프로그램의 기능을 상세하게 설명한다.

질의가 공식화될 수 있도록 문법이 제공된다. 이는 임의적으로 규정될 수 있다. 이와 같은 문법은 다음과 같은 종류의 종단 기호들을 포함한다.

1. 절대 주소를 지정하여, 문서 내의 절대적으로 고정된 범위를 주소 지정함(예를 들면, TOP, BOTTOM, ROOT).

2. 상대 주소를 지정하여, 원래의 위치 또는 원래의 범위로부터 시작하여 문서 내의 주소 위치들 또는 범위들을 주소 지정함. (예를 들면, next_paragraph, previews_word, next_list_item, cell_up, to_first_row, parent_node, first_child, next_sibling).

3. 주어진 조건들 하에서 위치들을 주소 지정하기 위한 검색 명령들. 검색 명령은 검색 범위(예를 들어 in_paragraph, in_sub_tree, within_column) 및 조건(예를 들면 contains_text (T), has_format (F), is_a_number, is_smaller_than (n), carries_xml_tag (T))으로 이루어지고, 가능하다면 상기 조건이 관련된 위치에 대한 상대 경로(예를 들어 상술한 2.에서와 같은 상대적인 주소 지정) 및 복수의 히트들(hit)의 경우에 단일한 하나를 선택할 수 있도록 하는 표시기(indicator)(예를 들면, first_occurrence, last_occurrence, nth_occurrence (n))로 이루어진다.

서로 다른 문서들에 대한 추출 명령들은 상술한 종단 기호들을 복수개 조합하여 형성될 수도 있다. 예를 들면, 본 기술 분야에서 통상의 지식을 가진 자는 다음과 같은 종류(type)의 추출 명령을 구축할 수 있음을 알 것이다: "문서의 제 3 표(table)를 택하고, 제 1 행(column)에 입력된 내용이 "Canada"인 열 중에 있는 셀(cell)에서 숫자 다음에 $ 기호가 있는 것 중 최초의 것을 선택한다." 이와 같은 추출 명령은, 예를 들면 다음과 같이 형성할 수도 있다.

TOP to_next_table to_next_table to_next_table

find(in_table, is_a_number and has_format ("$")

and (to_first_column contains_text ("Canada")),

first-occurrence)

상기 컴퓨터 상에서 실행되는 상기 프로그램은 유저로부터 입력을 받아서, 문서 내의 관심있는 데이터를 표시한다. 상기 프로그램은 이후에 자동적으로 추출 명령을 생성한다. 상기 추출 명령은 미리 결정된 문법으로 공식화된다. 관련 있는 문서 내의 상응하는 실행, 즉 상응하는 인터프리터(interpreter)를 거치는 경우에 상기 표시된 데이터가 공급된다.

예를 들어 상기 유저가 프랑크푸르트(Frankfurt)에 거주하고, 자기의 개인용 라디오 프로그램의 프레임워크(framework) 내에서 그 도시의 온도와 습도와 같은 현재의 기상학적인 값들에 대해서 날마다 보고를 받고 싶어한다고 가정한다. 상기 유저는 인터넷으로 호출할 수 있는, 상술한 주제들에 대한 현재의 정보를 매일 제공하는 HTML 페이지를 검색한다. 다음의 표 1은 예시적인 것으로, 그와 같은 페이지의 콘텐츠를 보여주고 있다.

위치	온도(℃)	습도(%)	구름량 (%)
아헨(Aachen)	24	90	80
베를린(Berlin)	18	70	30
프랑크푸르트 암 마인(Frankfurt a. M.)	22	60	20
퀼른(Koeln)	23	50	95

개인용 라디오 프로그램에 현재의 습도에 대한 정보를 삽입하기 위해서, 유저는 상기 프로그램을 사용하여 상기 컴퓨터에 질의해야 하며, 상기 질의는 상기 개인용 라디오 프로그램을 구성하도록 상기 서비스 제공자에게로 전달된다. 상기 프로그램을 실행하면, 유저는 상술한 표 1을 이용하여 상기 문서를 호출한다. 상기 유저는 관심있는 값, 여기에서는 프랑크푸르트에서의 습도(60)에 주목하는데, 이 관심있어 주목한 값에는 마우스를 이용하여 밑줄을 그어 두었다. 또한 상기 유저는 상기 관심있는 값의 주소를 지정할 때 사용할 수 있는 구조화된 범위로서 열의 헤더(header)(즉 "프랑크푸르트")에도 표시를 하였다.

이 정보로부터, 상기 프로그램은 상기 미리 결정된 문법에 따라서 추출 명령을 자동적으로 생성한다. 상기 프로그램의 모드(mode)는 다음과 같은 조사에서 의사 코드(pseudo code)로 나타내었다.

1. SET TargetExpression := <empty>

SET DocumentsAndMarksList := <empty>

2. FOR d IN {전체 연습용 문서들} DO

3. IF TargetExpression이 상기 연습용 문서 d 내의 유효한 입력으로 유도하는 추출 명령이라면,

THEN 상기 범위를 TargetExpression에 의해서 표시

유저에게 상기 표시된 영역이 바람직한 데이터에 대응하는지를 문의

IF 유저의 대답이 "yes"라면 THEN GOT0 5

4. 상기 유저에게 상기 연습용 문서 d에서 바람직한 범위가 표시된 입력을 하도록 요청. 선택적으로 상기 유저는 또한 구조화된 범위들 내의 하나 이상의 표시들을 제공하여 상기 질의를 고려하도록 한다(유저가 이렇게 하고 싶지 않다면, SET A := <empty>)

5. 트리플릿(triplet)(d, M, A)을 DocumentsAndMarksList에 첨부.

6. FOR 상기 문법(G)으로부터 유도될 수 있고, 미리 결정된 복잡도 기준을 초과하지 않는 모든 추출 명령들 L에 대해서

7. SET count := 0

8. FOR 모든 트리플릿(t.A, t.M, t.D) IN DocumentsAndMarksList DO

9. IF(MARKING_DUE_TO_LOCATOR_EXPR(t.D, L) == t.M)

AND (t.A ⊆ LOCATOR_EXPRESSION_PATH (t.D, L))

THEN count++

10. DONE (단계 8의 다음 트리플릿으로 진행)

11. IF (count > bestcount)

OR ((count == bestcount) AND (COMPLEXITY(L) < COMPLEXITY(bestL))

THEN

SET bestL := L; SET bestcount := count

12. DONE (단계 6의 다음 추출 명령으로 계속)

13. DONE (단계 2의 다음 문서로 계속)

14. RETURN bestL

이 프로그램은 다음의 함수들을 사용한다:

MARKING_DUE_TO_LOCATOR_EXPR(문서 d, 추출 명령):

이 함수는 상기 추출 명령을 해석하고, 상기 추출 명령에 의해서 표시되는 위치에 있는 상기 문서 d의 상기 데이터를 되돌려 준다.

LOCATOR_EXPRESSION_PATH(문서 d, 추출 명령):

이 함수는 문서 d 내의 상기 추출 명령이 실행될 때 통과하는 범위들의 집합을 되돌려 준다.

COMPLEXITY(추출 명령 L):

상기 추출 명령(L)에 대한 복잡도 측정값으로, 예를 들면 표현식의 길이. 상기 복잡도 측정값은 다른 방식으로 했을 때 몇 개의 동등한 추출 명령들이 있는 경우에 선택할 때 사용된다.

상기 프로그램은 다수의 연습용 문서들을 사용한다. 이들은 서로 다른 순간들에서 동일한 URL 하에서 호출될 수 있는 서로 다른 문서들인 것인 바람직하며, 따라서 사용 가능한 문서들의 모음(set)에 의해서 가능한한 만족스럽게 상기 관심있는 문서의 휘발성이 극복된다. 그러나 상기 프로그램은 또한 단지 소수의 연습용 문서들이 있는 경우 또는 심지어 단일한 연습용 문서가 사용 가능한 경우에도 사용될 수 있다. 이런 경우에는 상기 외부 루프(loop)(2. - 13.)를 상응하게 적은 횟수만큼만 동작시키면 된다.

의사 코드로 표현한 상기 프로그램은 다음과 같이 동작한다.

외부 루프(2. - 13.)는 모든 사용 가능한 연습용 문서들을 통과해 간다. 유효한 입력을 유도하는 추출 명령인 TargetExpresssion이 이미 생성된 경우에는 상기 범위를 표시하고 상기 유저에게 이것이 원하는 범위인지를 문의한다(단계 3). 아니라면 상기 유저에게 원하는 범위를 직접 표시하도록 요청한다(그리고 선택적으로 하나 이상의 구조화된 범위들도 요청한다)(단계 4).

연습용 문서들로 이루어진 상기 트리플릿(triplet)과, 바람직한 범위들 및 (선택적으로) 구조화된 범위들을 DocumentsAndMarksList에 첨부한다(단계 5).

단계 6에서, 다수의 추출 명령들(L)을 상기 문법(G)으로부터 생성한다. 이들은 바람직하게도 모두 미리 결정된 복잡도 측정값(예를 들면, 상기 표현식의 전체 길이)을 초과하지 않는 유효한 표현식의 문법(G)이다. 본 기술 분야에서 통상의 지식을 가진 자는 상기 문법 정의(definition)로부터 유효한 표현식들을 자동적으로 생성해 낼 수 있을 것이다.

각각의 생성된 추출 명령(L)에 대해서, 모든 사용 가능한 트리플릿들(목표 범위들을 가지고, 가능하다면 구조화된 범위들을 가진 문서들)은 상기 표현식이 바람직한 결과를 유도하는지 검사한다. 바람직한 결과를 유도한다면, 카운터(counter)를 증가시킨다(단계 8 내지 10).

추출 명령의 결과, 즉 사용 가능한 연습용 문서들 내에서 정확한 표시들의 개수와 현재 가장 큰 결과(최적 횟수)를 비교한다. 더 높은 값이라면, 상기 현재의 표현식을 최적 후보값으로 유지한다. 현재의 최적 후보값과 동일한 값에서는 가장 낮은 복잡도를 가진 표현식을 유지한다(단계 11).

마지막으로 이와 같은 방식으로 결정된 최적 표현식을 찾아진 상기 추출 명령으로서 되돌려 준다(단계 14).

이하에서 간단한 예에 의해서 상기 프로그램의 실행을 설명하도록 한다.

예를 들면 이하에서 예시적으로 기재한 표(table) 구조에 적합한 간단한 문법을 사용한다. 종단 기호들은 소문자로 표시하였으며, 비종단(non-terminal) 기호들은 대문자로 표시하였다.

EXPRESSION ::= top_left_cell ROW_HEADER_SEARCH_EXPR

ROW_HEADER_SEARCH_EXP ::= find(within_column, contains_text (#))

ROW_ELEMENT_SELECTION

ROW_ELEMENT_SELECTION ::= select_entire_cell |

cell_left ROW_ELEMENT_SELECTION

상기 문법을 가진 상기 알고리즘을 상기 표 1에 대해서 사용하면, 상기 숫자(60)는 목표 범위로 표시되고, 상기 단어("프랑크푸르트(Frankfurt)")는 구조화된 범위로서 표시되며, 상기 생성된 추출 명령

TOP find(within_column, contains_text ("프랑크푸르트(Frankfurt)"))

cell_right cell_right select_entire_cell

도 1에 나타낸 바와 같이 상기 문법으로부터 유도될 수 있다. 상기 표시된 구조화된 범위의 콘텐츠 "프랑크푸르트(Frankfurt)"는, 이어서 "find" 표시로 변환되며, 이에 의해서 상기 단어 "프랑크푸르트(Frankfurt)"는 제 1 행(column)에서 검색된다(상기 문법 중에서 기호 "#"는 상기 선택된 구조화된 범위인 "프랑크푸르트(Frankfurt)"의 콘텐츠로 교체된다).

찾은(find) 셀로부터 시작하면, 상기 콘텐츠 "60"을 갖고있는 상기 검색된 셀은 오른쪽으로 2 셀이나 더 가야 하는, 즉 cell_right로부터 두 번의 호출(call)에 의해서 도달된다. 이렇게 하여 찾은 셀은 전체를 표시하고, 상기 바람직한 콘텐트인 "60"을 공급한다.

Claims

문서로부터 데이터를 판독하는 시스템에 있어서,

- 유저에 의해서 조작되어지는 표시기(indicator)와 입력 수단을 갖는 적어도 하나의 컴퓨터,

- 적어도 하나의 문서에 접근하는 수단, 및

- 프로그램 수단으로서, 유저에 의한 적어도 하나의 제 1 입력이 상기 프로그램 수단에 의해 처리되고 판독될 상기 문서의 데이터 범위가 상기 프로그램 수단으로 고정되는, 상기 프로그램 수단을 포함하고,

- 상기 프로그램 수단은 상기 고정된 데이터 범위를 판독하기 위해 추출 명령을 자동적으로 생성하고, 그 결과 상기 추출 명령이 실행될 때 상기 문서의 고정된 데이터 범위가 판독되는, 데이터 판독 시스템.
제 1 항에 있어서,

- 상기 프로그램 수단은 또한 상기 유저에 의한 제 2 입력을 처리하고, 상기 데이터 범위를 고정할 때 사용되는, 상기 문서의 적어도 하나의 구조 범위(structural range)가 상기 프로그램 수단으로 고정되고,

- 상기 프로그램 수단에 의해서 생성되는 추출 명령은 상기 제 2 입력에 대응하는 주소 표시(address indication)를 포함하는, 데이터 판독 시스템.
제 1 항 또는 제 2 항에 있어서,

- 문법(grammer)이 상기 추출 명령을 위해 미리 정해지며,

- 상기 문법은 적어도 하나의 절대 주소 표시와 적어도 하나의 상대 주소 표시를 포함하는, 데이터 판독 시스템.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

- 상기 추출 명령을 생성할 때, 미리 결정된 문법의 복수의 유효한 추출 명령들이 생성되고,

- 이 추출 명령은 상기 명령이 실행될 때 상기 문서의 상기 원하는 데이터 범위가 판독되는지의 여부가 검사되고,

- 상기 문서의 상기 원하는 데이터 범위가 판독되는 추출 명령의 실행시 상기 추출 명령들로부터 상기 추출 명령이 선택되는, 데이터 판독 시스템.
제 4 항에 있어서,

상기 추출 명령은 복잡도 기준(complexity criterion)에 따라 선택되는, 데이터 판독 시스템.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,

- 상기 컴퓨터는 복수의 문서들에 접근하고,

- 하나 이상의 추출 명령들은 상기 추출 명령들이 실행될 때 얼마나 많은 문서들이 상기 유저가 원하는 상기 데이터의 범위를 포함하는지에 대해 검사되는, 데이터 판독 시스템.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,

상기 컴퓨터는 컴퓨터 네트워크에 접속되어 있어서 상기 컴퓨터 네트워크를 통해 문서들에 접근할 수 있는, 데이터 판독 시스템.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,

상기 추출 명령을 저장하는 수단이 생성되는, 데이터 판독 시스템.
문서로부터 데이터를 판독하는 방법에 있어서,

- 유저에 의해 조작되는 표시기와 입력 수단 및 문서에 접근하는 수단을 갖는 적어도 하나의 컴퓨터 상에서,

- 상기 유저에 의한 적어도 하나의 제 1 입력이 프로그램 수단에 의해 처리되고 판독될 상기 문서의 데이터 범위가 상기 프로그램 수단으로 고정되는, 상기 프로그램 수단이 실행되고,

- 상기 프로그램 수단은 상기 고정된 데이터 범위를 판독하기 위해 추출 명령을 자동으로 생성하고, 그 결과 상기 추출 명령이 실행될 때 상기 문서의 고정된 데이터 범위가 판독되는, 데이터 판독 방법.
데이터를 얻는 방법에 있어서,

- 제 9 항에 청구된 방법에 의해서 추출 명령이 생성되고,

- 상기 추출 명령은 저장되며,

- 상기 추출 명령은 시간 간격들 후에 반복되는, 데이터를 얻는 방법.