KR20080087191A - 유알엘 압축 및 복원 방법 - Google Patents
유알엘 압축 및 복원 방법 Download PDFInfo
- Publication number
- KR20080087191A KR20080087191A KR1020070017225A KR20070017225A KR20080087191A KR 20080087191 A KR20080087191 A KR 20080087191A KR 1020070017225 A KR1020070017225 A KR 1020070017225A KR 20070017225 A KR20070017225 A KR 20070017225A KR 20080087191 A KR20080087191 A KR 20080087191A
- Authority
- KR
- South Korea
- Prior art keywords
- string
- bits
- url
- bit string
- uel
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000007906 compression Methods 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 11
- 238000004904 shortening Methods 0.000 claims 1
- 230000006837 decompression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0236—Filtering by address, protocol, port number or service, e.g. IP-address or URL
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/32—Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
- H04N1/32101—Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
- H04N1/32144—Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title embedded in the image data, i.e. enclosed or integrated in the image, e.g. watermark, super-imposed logo or stamp
- H04N1/32149—Methods relating to embedding, encoding, decoding, detection or retrieval operations
- H04N1/32203—Spatial or amplitude domain methods
- H04N1/32208—Spatial or amplitude domain methods involving changing the magnitude of selected pixels, e.g. overlay of information or super-imposition
- H04N1/32213—Modulating the least significant bits of pixels
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Signal Processing (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
Abstract
본 발명은 유알엘 압축 및 복원 방법에 관한 것으로, 보다 자세하게는 유알엘의 크기를 압축하여 저장함으로써, 웹 저장 공간을 효율적으로 사용할 수 있는 유알엘 압축 및 복원 방법에 관한 것이다.
본 발명의 유알엘 압축 및 복원 방법은 원본 유알엘을 16진수 문자열로 축약하는 제 1단계; 축약된 상기 16진수 문자열을 2진수 비트열로 변환하는 제 2단계; 변환된 상기 2진수 비트열에 0의 비트 4개를 추가하여 6비트씩 재배열하는 제 3단계; 및 재배열된 상기 비트열을 베이스64 코드로 치환하는 제 4단계를 포함함에 기술적 특징이 있다.
따라서, 본 발명의 유알엘 압축 및 복원 방법은 유알엘의 크기를 압축하여 저장함으로써, 웹 저장 공간을 효율적으로 사용할 수 있다.
또한, 기존용량보다 두 배 이상의 유알엘을 주기억장치에 캐싱할 수 있도록 하는 현저하고도 유리한 효과가 있다.
유알엘, 압축, MD5.
Description
도 1은 본 발명에 따른 유알엘 압축 방법,
도 2는 본 발명에 따른 유알엘 복원 방법,
도 3은 본 발명에 적용된 베이스64 코드표.
본 발명은 유알엘 압축 및 복원 방법에 관한 것으로, 보다 자세하게는 유알엘의 크기를 압축하여 저장함으로써, 웹 저장 공간을 효율적으로 사용할 수 있는 유알엘 압축 및 복원 방법에 관한 것이다.
웹 검색 서비스 업체들은 웹 문서들을 수집하고 웹 데이터베이스(Web Database)를 구축하여 사용자가 원하는 정보를 포함한 최신 문서를 제공하려고 노력하고 있다. 구글, 야후, 네이버, 엠파스 등과 같은 검색 서비스는 자체적으로 웹 데이터베이스를 구축하여 사용자들이 정보를 검색하면 웹 데이터베이스에 저장된 정보를 제공한다.
유알엘(URL, Uniform Resource Locator)은 인터넷상에 있는 다양한 정보들의 위치를 표시하는 체계로 접속해야될 서비스의 종류, 서버의 위치, 파일의 위치를 포함한다.
점점 웹 페이지들이 빠른 속도로 증가하는 추세로, 웹 데이터베이스 저장 공간의 효율적인 사용을 위해, 웹 데이터를 전부 저장하는 것보다 유알엘을 압축하여 저장하는 방법이 필요하다. 더불어 사용자 시스템의 주기억장치(Main Memory)에 대용량의 유알엘을 캐싱(Caching)할 필요가 있을 때, 기억장치의 용량에는 한계가 있으므로 유알엘의 길이 압축은 필수적이라 할 수 있다.
따라서, 본 발명은 종래 기술의 문제점을 해결하기 위한 것으로, 유알엘의 크기를 압축하여 저장함으로써, 웹 저장 공간을 효율적으로 사용하도록 함에 목적이 있다.
또한, 본 발명은 기존용량보다 두 배 이상의 유알엘을 주기억장치에 캐싱할 수 있도록 하는 다른 목적이 있다.
본 발명의 목적은 원본 유알엘을 16진수 문자열로 축약하는 제 1단계; 축약된 상기 16진수 문자열을 2진수 비트열로 변환하는 제 2단계; 변환된 상기 2진수 비트열에 0의 비트 4개를 추가하여 6비트씩 재배열하는 제 3단계; 및 재배열된 상 기 비트열을 베이스64 코드로 치환하는 제 4단계를 포함하는 유알엘 압축 방법에 의해 달성된다.
본 발명의 또 다른 목적은 축약된 문자열을 베이스64를 이용하여 비트로 변환하는 제 1단계; 변환된 상기 비트열을 0의 비트 4개를 소거하고 4비트씩 재배열하는 제 2단계; 재배열된 상기 비트열을 16진수로 변환하는 제 3단계; 및 변환된 상기 16진수 문자열을 원본 유알엘로 복원하는 제 4단계를 포함하는 유알엘 복원 방법에 의해 달성된다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.
따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1은 본 발명에 따른 유알엘 압축 방법이다.
먼저 원본 유알엘을 MD5(Message Digest 5) 알고리즘을 사용하여 32바이트(Byte) 크기의 문자열로 변환한다(S110). MD5는 보안관련 분야에서 데이터 무결 성을 검증하는데 사용되는 알고리즘으로서, 주어진 원문에서 고정된 길이의 의사난수(pseudo-random number)를 생성하는 기법이다. 본 발명에서는 이 알고리즘을 원본 유알엘 문자열을 일정한 길이로 변환하려고 하는 목적으로 사용한다. MD5는 원본 유알엘의 길이에 제한받지 않으며, 불가역적인 일방향함수를 포함하고 있기 때문에 어떠한 경우에라도 서로 다른 두 개의 유알엘이 동일한 결과로 나오는 경우는 없다. MD5 변환과정을 거치면 16진수로 이루어진 32바이트 크기의 문자열을 얻는다.
얻어진 32바이트 크기의 문자열을 비트(bit)로 표현한다(S120). 각각의 문자는 16진수로서, 2진수 4비트로 표현될 수 있다.
이렇게 하여 나열된 총 128비트열을 6개씩 재배열한다(S130). 6개씩 재배열하면 21개의 부분 비트열과 2개의 비트가 남는다. 마지막에 남은 2개의 비트는 '0'을 4개 채워 넣어 총 22개의 6비트 부분 문자열을 얻을 수 있다.
이렇게 얻어진 각 6비트 크기의 총 22개의 부분 비트열은 베이스64(Base64) 코드표의 문자에 대응하여 표현한다(S140). 베이스64는 2진 데이터를 아스키(ASCII, American Standard Code for Information Interchange) 텍스트로 변환하거나 그 반대로 변환하는 인코딩 방법으로, 모든 플랫폼에서 안보이거나 깨지는 일이 생기지 않도록 공통으로 64개 아스키 코드를 이용하여 2진 데이터를 변환한다. 모든 부분 비트열을 베이스64의 문자에 맞게 표현하면, 도 1의 마지막 부분과 같은 22바이트의 축약된 문자열을 얻는다. 이러한 방법으로 원본 유알엘을 22바이트 크기로 압축하여 저장할 수 있다.
상기와 같은 방법은 웹의 평균 유알엘 길이인 55바이트를 22바이트로 압축하기 때문에 저장 공간의 효율적인 사용이 가능하다.
도 2는 본 발명에 따른 유알엘 복원 방법이다.
도 1의 유알엘 압축 방법의 전체 수행 과정을 반대로 수행함으로써 복원할 수 있다. 먼저 22바이트로 축약되어 있는 문자열을 베이스64 코드를 사용하여 2진 비트로 표현한다(S210).
이렇게 하여 나열된 비트열에서 압축과정 시 추가한 4개의 '0'을 소거한, 총 128비트열을 4비트씩 재배열한다(S220).
총 32개의 부분 비트열로 나누어지고 각각의 비트열은 16진수로 표현할 수 있다(S230). 상기 과정을 수행하면 32바이트 크기의 문자열을 얻을 수 있고, 이것은 도 1의 S110 과정을 수행한 후 생성되는 문자열과 일치한다.
이 문자열에 MD5 역방향 디코딩을 수행하면 원본 유알엘로 복원할 수 있다(S240).
상기와 같은 방법으로 유알엘을 22바이트로 축약하고, 다시 원본 유알엘로 복원할 수 있으며, 사용되는 알고리즘은 간단하고 수행속도가 빠르다. 따라서 시스템의 주기억장치에 대용량의 유알엘을 캐싱할 때, 기존 용량보다 두 배 이상의 유알엘을 주기억장치에 캐싱할 수 있다.
도 3은 본 발명에 적용된 베이스64 코드표이다. 2진수 6자리가 표현할 수 있는 64개의 변수를, 알파벳 대문자 26개, 소문자 26개, 숫자 10개, 부호 2개의 아스키 코드로 나타낸다. MIME(Multipurpose Internet Mail Extension)에 의해 사용되 는 방법으로, 모든 플랫폼에서 안보이거나 깨지는 일이 생기지 않도록 공통으로 64개 아스키 코드를 이용하여 2진 데이터를 변환하기 위해 사용한다.
본 발명의 유알엘 압축 및 복원 방법에 따른 일실시예는 다음과 같다.
웹 검색 서비스 업체들은 웹 데이터베이스를 구축하여 사용자가 원하는 정보를 포함한 웹 문서들을 수집한다. 수집된 웹 문서의 유알엘은, 상기의 도 1의 설명과 같은 본 발명의 유알엘 압축 방법을 사용하여 저장된다. 따라서 웹 데이터베이스 저장 공간을 효율적으로 사용할 수 있다. 사용자의 검색에 의해 정보 요청이 들어오면, 압축저장된 유알엘중 요청된 유알엘의 압축복원이 상기의 도 2의 설명과 같은 방법에 의해 이루어지고, 복원된 원본 유알엘은 사용자에게 제공이 된다. 이런 압축 및 복원 과정에 사용되는 알고리즘은 간단하고 수행속도가 빠르다. 또한 유알엘의 길이를 절반 이상으로 압축하기 때문에, 다수의 사용자가 검색을 해도 시스템의 주기억장치에 캐싱되는 유알엘의 용량을 두 배 이상 처리할 수 있다.
본 발명은 이상에서 살펴본 바와 같이 바람직한 실시예를 들어 도시하고 설명하였으나, 상기한 실시예에 한정되지 아니하며 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변경과 수정이 가능할 것이다.
따라서, 본 발명의 유알엘 압축 및 복원 방법은 유알엘의 크기를 압축하여 저장함으로써, 웹 저장 공간을 효율적으로 사용할 수 있다.
또한, 기존용량보다 두 배 이상의 유알엘을 주기억장치에 캐싱할 수 있도록 하는 현저하고도 유리한 효과가 있다.
Claims (4)
- 원본 유알엘을 16진수 문자열로 축약하는 제 1단계;축약된 상기 16진수 문자열을 2진수 비트열로 변환하는 제 2단계;변환된 상기 2진수 비트열에 0의 비트 4개를 추가하여 6비트씩 재배열하는 제 3단계; 및재배열된 상기 비트열을 베이스64 코드로 치환하는 제 4단계를 포함하는 유알엘 압축 방법.
- 제 1 항에 있어서,상기 원본 유알엘을 16진수 문자로 축약하는 것은 MD5를 사용하는 유알엘 압축 방법.
- 축약된 문자열을 베이스64를 이용하여 비트로 변환하는 제 1단계;변환된 상기 비트열을 0의 비트 4개를 소거하고 4비트씩 재배열하는 제 2단계;재배열된 상기 비트열을 16진수로 변환하는 제 3단계; 및변환된 상기 16진수 문자열을 원본 유알엘로 복원하는 제 4단계를 포함하는 유알엘 복원 방법.
- 제 3 항에 있어서,상기 16진수 문자열을 원본 유알엘로 복원하는 것은 MD5를 사용하는 유알엘 복원 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070017225A KR20080087191A (ko) | 2007-02-21 | 2007-02-21 | 유알엘 압축 및 복원 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070017225A KR20080087191A (ko) | 2007-02-21 | 2007-02-21 | 유알엘 압축 및 복원 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20080087191A true KR20080087191A (ko) | 2008-10-01 |
Family
ID=40149876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070017225A KR20080087191A (ko) | 2007-02-21 | 2007-02-21 | 유알엘 압축 및 복원 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20080087191A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307369A (zh) * | 2019-07-31 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种短链接处理方法、装置、终端及存储介质 |
-
2007
- 2007-02-21 KR KR1020070017225A patent/KR20080087191A/ko not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307369A (zh) * | 2019-07-31 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种短链接处理方法、装置、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5953503A (en) | Compression protocol with multiple preset dictionaries | |
US7877364B2 (en) | Method of storing and retrieving miniaturised data | |
US7185018B2 (en) | Method of storing and retrieving miniaturized data | |
TW312771B (ko) | ||
US8109441B2 (en) | System and method for encoding and decoding data and references to data in machine-readable graphical codes | |
KR20130062889A (ko) | 데이터 압축 방법 및 시스템 | |
US20130262486A1 (en) | Encoding and Decoding of Small Amounts of Text | |
JP3778087B2 (ja) | データ符号化装置及びデータ復号装置 | |
US11070231B2 (en) | Reducing storage of blockchain metadata via dictionary-style compression | |
JPS6356726B2 (ko) | ||
JP2005501303A (ja) | 大きな文字セットに対応する方法及びシステム | |
Nandi et al. | Modified compression techniques based on optimality of LZW code (MOLZW) | |
US10340945B2 (en) | Memory compression method and apparatus | |
WO2018226221A1 (en) | Context-dependent shared dictionaries | |
KR20080087191A (ko) | 유알엘 압축 및 복원 방법 | |
US8463759B2 (en) | Method and system for compressing data | |
JP2005004560A (ja) | インバーテッドファイル作成方法 | |
JP7006462B2 (ja) | データ生成プログラム、データ生成方法および情報処理装置 | |
Moffat et al. | Binary codes for locally homogeneous sequences | |
Hoang et al. | Dictionary selection using partial matching | |
Jrai et al. | Improving LZW Compression of Unicode Arabic Text Using Multi-Level Encoding and a Variable-Length Phrase Code | |
Baruah et al. | Enhancing dictionary based preprocessing for better text compression | |
Nakano et al. | Highly efficient universal coding with classifying to subdictionaries for text compression | |
Rincy et al. | Preprocessed text compression method for Malayalam text files | |
Wang et al. | Prefix Coding Scheme Supporting Direct Access Without Auxiliary Space |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |