태그:     

원문 링크 : 소스 없이 웹 사전을 클리핑하는 방법


소스 없이 웹 사전을 클리핑하는 방법

안녕하세요. 바람없이 입니다.

오늘 제가 다운로드 툴스(Download tools)로 웹 사전을 클리핑 하는 방법을 소개드리겠습니다.

여기서 마왕님가 강의를 했던 연세한국어사전을 가지고 예로 하겠음.

1. Flashget 다운로드 툴스를 준비합니다.(혹 기타 대량 다운로드 기능이 있는 다운로드 툴스)
Flashget 홈페지: http://www.amazesoft.com/

2. 웹 사전을 찾아 파악하여 (파악하는 방법은 마왕님의 강의를 참조하세요. http://cafe.naver.com/freedic/23) 관건 링크가 나옵니다.
즉http://kordic.britannica.co.kr/sear_content.asp?id=12038&cid=0

3. 다운로드 링크 만들기.

Flashget소프트를 열고 다음 이미지에 지시와 같은 키를 선텍합니다.

사용자 삽입 이미지

그리고 주소에다 다음과 같은 내용을 써요.

사용자 삽입 이미지

id의 값은 “(*)”로 대체하고 “시작”과 “결속”은 2, 9로 쓰며 “자릿수”는 “1”로 씁나다. 그리하여
http://kordic.britannica.co.kr/sear_content.asp?id=2&cid=0
http://kordic.britannica.co.kr/sear_content.asp?id=3&cid=0
http://kordic.britannica.co.kr/sear_content.asp?id=4&cid=0
http://kordic.britannica.co.kr/sear_content.asp?id=5&cid=0
http://kordic.britannica.co.kr/sear_content.asp?id=6&cid=0
http://kordic.britannica.co.kr/sear_content.asp?id=7&cid=0
http://kordic.britannica.co.kr/sear_content.asp?id=8&cid=0
http://kordic.britannica.co.kr/sear_content.asp?id=9&cid=0
우과 같은 다운로드 링크가 자동적으로 생겨나옵니다.

확인, 다음 내용을 볼수 있습니다.

사용자 삽입 이미지

확인.

다시 아까의 스탭을 반복합니다. 이번에는 다음과 같은 내용을 설정합나다.

사용자 삽입 이미지

이번 생겨나온 링크 id의 자릿수는 2위이며 10~99생겨나옵니다.

마찬가지로 100~999, 1000~9999,  10000-99999도 만들수 있으며 사전 끝까지 하면 됩니다.

4. 다운로드 끝나면 다음과 같습니다.

사용자 삽입 이미지

매개파일은 단어가 하나되고 단어가 많을때 몇개의 드텍토리를 만들어 분리해서 다운해요.

5. 파일편집.
Ultraedit로 파일을 열어 자세히 여구하며 모두 파일에서 같은 시작을 정해요.

사용자 삽입 이미지

그리고 Ultraedit의 “대량 체환”(여기 주의하세요, “체환”가 아니요) 기능으로 전부 파일의 쓸데 없는 시작을 삭제합니다.

사용자 삽입 이미지

같은 방법으로 끝을 찾고 삭제합니다.

사용자 삽입 이미지

차근차근 수정하여 줄 바꿈없이 다음과 같은 모양로 수정합나다.

여기서 단어와 해석 중간의 기호 남겨둬야 합나다 (즉 이예의 “</font><font color=red>” ). 이때는 엔터키를 사전제작 요구에 맞게 변경해야 합나다. 우에 있는 “^P” 기호가 바로 Ultraedit에서의 엔터키입니다. 이상 완료된후 “</font><font color=red>” 를 “^P”로 치환합니다.

6. 파일 합치기.
완성해 다음 전부 파일을 합칩니다.

E:\temp\1\>copy *.* 1.txt

이렇게 하면 모든 파일 1.txt 파일로 합치됩니다.

사용자 삽입 이미지

7.합치된 파일 재수정.
합치된 파일을 Ultraedit로 열어 형태가 혼란한데 있는가를 검사합니다.

사용자 삽입 이미지

8.끝났습니다.

이방법의 결점:
후기 제작 좀 복잡합니다.

장점:
1. 다운로드 툴스를 이용하여 다운속도가 빠릅니다(최대 8개 링크를 동시 다운로드 가능) .
2. 에러데트가 작아요(린크 다운하기 어려울때 최대 99번 재시도).
3. Unicode텍스트 완전히 보유합니다.
4. 사전 다운로드 중단되어도 다음번 중단하던데서 계속할수 있습니다.

이상 저와 같은 소스를 모른분들에게 도움이 되시길 바람니다.

관련글

[펌] 소스 없이 웹 사전을 클리핑하는 방법

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다