IT&컴퓨터/주제 없음

오픈 소스 한국어 처리기 - open-korean-text

누한 2018. 1. 9. 15:25
반응형

이번 글은 오픈 소스 프로젝트 중에 한국어 처리에 대한 내용입니다.


한글 형태소 분석? 구분화? 정규화? 토큰화? 어근화? 와 관련된 내용입니다.



저도 솔직히 한글 분석과 정규화에 대한 이론은 무지합니다.


그러 한글이 있다면 이 한글에 대해서 어떻게 분석할수 있는가를 고민하다가 웹 서치로 찾은 내용입니다.


그런데 생각보다 잘되어 있습니다.


물론, 보완이 좀더 되면 좋겠지만, 이정도라도 어디입니까?








https://github.com/open-korean-text/open-korean-text


open-korean-text

Open-source Korean Text Processor / 오픈소스 한국어 처리기 (Official Fork of twitter-korean-text)

Scala/Java library to process Korean text with a Java wrapper. open-korean-text currently provides Korean normalization and tokenization. Please join our community at Google Forum. The intent of this text processor is not limited to short tweet texts.

스칼라로 쓰여진 한국어 처리기입니다. 현재 텍스트 정규화와 형태소 분석, 스테밍을 지원하고 있습니다. 짧은 트윗은 물론이고 긴 글도 처리할 수 있습니다. 개발에 참여하시고 싶은 분은 Google Forum에 가입해 주세요. 사용법을 알고자 하시는 초보부터 코드에 참여하고 싶으신 분들까지 모두 환영합니다.

open-korean-text의 목표는 빅데이터 등에서 간단한 한국어 처리를 통해 색인어를 추출하는 데에 있습니다. 완전한 수준의 형태소 분석을 지향하지는 않습니다.

open-korean-text는 normalization, tokenization, stemming, phrase extraction 이렇게 네가지 기능을 지원합니다.

정규화 normalization (입니닼ㅋㅋ -> 입니다 ㅋㅋ, 샤릉해 -> 사랑해)

  • 한국어를 처리하는 예시입니닼ㅋㅋㅋㅋㅋ -> 한국어를 처리하는 예시입니다 ㅋㅋ

토큰화 tokenization

  • 한국어를 처리하는 예시입니다 ㅋㅋ -> 한국어Noun, 를Josa, 처리Noun, 하는Verb, 예시Noun, 입Adjective, 니다Eomi ㅋㅋKoreanParticle

어근화 stemming (입니다 -> 이다)

  • 한국어를 처리하는 예시입니다 ㅋㅋ -> 한국어Noun, 를Josa, 처리Noun, 하다Verb, 예시Noun, 이다Adjective, ㅋㅋKoreanParticle

어구 추출 phrase extraction

  • 한국어를 처리하는 예시입니다 ㅋㅋ -> 한국어, 처리, 예시, 처리하는 예시

Introductory Presentation: Google Slides


Web API Service

open-korean-text-api
이 API 서비스는 Heroku 서버에서 제공되며(Domain: https://open-korean-text.herokuapp.com/) 현재 정규화(normalization), 토큰화(tokenization), 어근화(stemmin), 어구 추출(phrase extract) 서비스를 제공합니다.

각 서비스와 사용법은 다음과 같습니다.
normalize, tokenize, stem, extractPhrases 가 각 서비스의 Action 이 되며 Query parameter  text 입니다.

서비스사용법
정규화https://open-korean-text.herokuapp.com/normalize?text=오픈코리안텍스트
토큰화https://open-korean-text.herokuapp.com/tokenize?text=오픈코리안텍스트
어근화https://open-korean-text.herokuapp.com/stem?text=오픈코리안텍스트
어구 추출https://open-korean-text.herokuapp.com/extractPhrases?text=오픈코리안텍스트


반응형

'IT&컴퓨터 > 주제 없음' 카테고리의 다른 글

무료 카톡 이모티콘  (0) 2018.10.22
공부 - TED 볼거리 ( 한글자막)  (0) 2018.01.29
쓸만한 부트스트랩 - 캘린더 부트스트랩  (0) 2018.01.09
날자 시간 변환 UTC KST 변환  (0) 2018.01.08
Git RESET 방법  (0) 2018.01.08