SEOUL NATIONAL UNIVERSITY
검색창 닫기
[경과보고] 2020년 집중강좌 : '한국근대사 연구를 위한 디지털 역사자료의 현황과 활용' 10월 13일 (화) 19시
  • 작성자guest
  • 날짜2020-10-28 16:45:25
  • 조회수246
4강 검색에 대한 이해와 웹에서의 자료 탐색 사례

강의록 작성 : 연세대학교 사학과 대학원 김예림, 이규연


❚검색에 대한 이해 - ①
검색에 대한 다양한 방식이 있고, 세부적인 부분에서는 다를 수 있지만 대략 다음과 같은 발상의 차원에서 ‘검색에 대한 이해’를 살펴보고자 하였다. 효율적인 검색 방법을 모색하고, 검색에서 무엇을 기대할 수 있는지에 대한 이해에 도움이 될 수 있다.

예시)
문서 1: 主旨를 宣明하노라
문서 2: 世界에 向하야, 朝鮮에 큰 科學者가 나서 世界的으로 進出 하자

〈 필요한 단어를 찾을 때 〉
- 문자들을 하나씩 보면서 비교.
- 문서가 긴 경우,
하나씩 비교하는 것보다 역색인(역파일)의 방식을 쓰는 것이 효율적.
이용자는 역색인에서 원하는 검색질의에 맞는 키워드를 신속, 정확히 찾을 수 있음.
* 역색인(역파일) : 문서에서 검색 대상이 되는 키워드를 추출하여,
키워드 기준으로 필요한 정보를 저장하는 방식
- 문서에서 어떤 대상을 검색 키워드로 색인할지에 대한 판단이 중요. (‘추출’ 중요)
· 만약, 문자 하나씩 다 키워드로 추출할 경우 → 무의미한 키워드를 추출할 수 있음.
예) 문서 1의 경우, 明하, 하노, 노라 등

∴ 유의미한 키워드를 뽑는 것이 중요.
예) 문서 1의 경우, 主旨, 宣明 등
문서 2의 경우, 世界, 向, 朝鮮, 큰, 科學者, 나서, 世界的, 進出, 하자 등.

〈 역사자료를 제공하는 웹사이트에서 주로 사용하는 색인 방법 〉
1) N–gram (음절 단위 색인) - 역사 자료 웹사이트에서 주로 사용
(1) Uni-gram (한글자 씩) 예) 문서 1의 경우, 主, 旨, 를, 宣, 明, 하, 노, 라
(2) Bi-gram (두 글자씩) 예) 문서 1의 경우, 主旨, 旨를, 宣明, 明하, 하노, 노라
문서 2의 경우, ‘科學’ ‘學者’ ‘世界’ ‘界的’
→ 누락이 없어 재현율은 좋으나 잉여검색이 많음.

2) 형태소 분석
→ 기기가 문서 텍스트의 형태소를 분석, 의미있는 것을 추출.
효율성과 정확도가 높지만, 한문, 국한문 혼용 자료 등의 분석에 어려움이 있음.


❚검색에 대한 이해 - ②
<역사 자료 제공 웹사이트들의 주요 문자 표준, 검색-색인 방식>
(한국사데이터베이스, 한중연 디지털 아카이브, 한국고전번역원, 규장각 원문 검색 사이트, 한국국학진흥원, 동북아역사넷 등)

- 표준 문자 집합 : Unicode 3.0 이상
- 주로 N-gram 방식 색인 및 검색
- 한자의 한국어 독음 색인
- 한자의 이체자 검색 기능
- 옛한글의 경우 한양 PUA 사용
- 한중일 호환 영역 한자 문제 해결
- 대체로 3가지 검색 연산자 제공

< 3가지 검색 연산자 >
1) 논리연산자
(1) AND, (공백) : ‘신간 and 경성’, ‘신간 경성’으로 검색 시,
→ ‘신간’과 ‘경성’ 모두 들어있는 검색 결과
(2) OR : ‘신간 or 경성’으로 검색 시,
 → ‘신간’이나 ‘경성’이 들어있는 검색 결과
(3) NOT, ! : ‘신간 not 경성’, ‘신간!경성’ 으로 검색 시,
→ ‘신간’은 있되 ‘경성’은 없는 검색 결과
2) 인접연산자
(1) within, /w2 : ‘신간 within 경성’, ‘신간/w2경성’ 검색 시,
‘신간’이 있고 한 글자, 두 글자 범위 안에 ‘경성’이 있는 검색 결과.
(단, ‘신간’ 다음에 ‘경성’이 나옴.)
(2) near, /n2 : ‘신간 near 경성’, ‘신간/n2경성’ 검색 시,
위처럼 인접한 범위 내에 ‘경성’이 나오지만 ‘신간’ 앞·뒤에 ‘경성’ 가능(within, /w2와의 차이점)
3) 구문일치 : “ ” 큰따옴표 사용 - “신간 경성” 신간(공백)경성 단어 그 자체를 찾고 싶을 때

< 이용자 입장에서 >
1) 검색한 키워드가 문서에 있는 문자열과 일치 → 결과를 거의 찾아주지만, 잉여검색이 많음.
2) 한자 키워드: 그와 일치하는 문자열을 찾아 해당 문서를 찾아줌. (대개 이체자 포함)
3) 한글 키워드: 그와 일치하는 한글 문자열과 한자 문자열을 찾아줌
4) 형태소분석 사용자료 : 잉여검색 결과는↓, 특이한 역사용어 분석→어려움이 있을 수 있음.
5) 검색 연산자를 활용 가능
6) 검색을 통해 원하는 바를 스스로 되묻고, 검색 결과 후 다듬을 필요 있음
7) ‘자료상세검색’ 사용 → 서지항목별로 찾을 수 있음.

〈 근대사 자료 웹사이트 탐색 예시 : 독립협회 총대 경험자 金龜鉉 〉
검색 전 김구현에 대한 정보 : ‘下獨立協會會員李商在等十七人于獄’에 나오는 김구현(전웅천현감)’. 벽서사건으로 잡혀감. 그에 대한 정보 찾기+동명이인 구별 방법
1) 한국사데이터베이스: ‘金龜鉉’ 검색
(1) 중추원조사자료 - 각도의원 추천의 건 - 金龜鉉 (김구현의 이력서)
- 각도의원 추천의 건: 중추원 관제 바꾸면서 지방 유력자들의 추천을 받은 문서철.
- 이력서 내용을 보면 ‘웅천군수 임명’. 이는 ‘전웅천현감’이라는 정보와 일치. 웅천군수를 지낸 사람 중 ‘김구현’이라는 이름을 가진 사람은 한 명이었는가?
2) 승정원일기: ‘웅천 김구현’ 검색
(1) 웅천군수 중 ‘김구현’이 여러 명이었는지를 알아보기 위한 작업
(2) 웅천군수 김구현은 한 명만 등장 → 동일인물 가능성 높아짐
3) 규장각 원문검색서비스: ‘웅천 and 김구현’
(1) 웹에서 관보를 제공하며 관보에 인사기록이 나옴. 웅천군수 김구현은 한 명이었는가를 알아보기 위한 작업
(2) 웅천군수 김구현 한 건 존재: 이로써 독립협회 전 웅천군수를 한 김구현과 웅천군수 임명되었던 김구현은 동일인물이라고 볼 수 있음(99% 확률)
4) ‘각도의원 추천의 건’에서 보았던 김구현 이력서 정보를 바탕으로 이후 자료 검색에서 검색 결과 김구현이 우리가 살피고자 한 김구현과 동일인물 인지 아닌지 알 수 있음.
5) 병합 이전 ‘김구현’ 자료는 ‘승정원일기’에서, 일제 이후 일생은 ‘한국사데이터베이스-‘일제침략하한국36년사’와 ‘관보’ 자료가 적합.
6) 김구현의 출신지 ‘고령군 쌍동면’은 ‘삼일운동 데이터베이스 GIS서비스’에서 확인 가능.
7) 인물 정보 파악 후 ‘대한민국 신문 아카이브’에서 ‘김구현’ 검색→다양한 정보 얻음.


❚검색에 대한 이해 - ③ 컴퓨터가 문자를 다루는 방식
- ‘코드 포인트’ : 특정 문자에 특정 숫자 할당 → 표준화되어 있음.
· 모든 문자 포괄 문자 집합 : ISO/IEC 10646, Unicode 등.
- 인코딩 : 컴퓨터에 코드 포인트 어떻게 저장할지를 처리하는 일
· 표준 문자 인코딩 방식 : UTF-8, UTF-16 등.

< 참고 >
· unicode.org 사이트의 코드 차트
· 꼬꼬마 형태소 분석기
· KoNLPy: 파이썬 한국어 NLP

강의록 작성을 도와주신 연세대학교 사학과 대학원 김예림, 이규연님께 감사드립니다.
목록 수정 삭제하기 답변 등록 글작성

수정요청

현재 페이지에 대한 의견이나 수정요청을 관리자에게 보내실 수 있습니다.
아래의 빈 칸에 내용을 간단히 작성해주세요.

닫기