자신의 사이트 자랑도 해 보시구요.
잦은 스팸글 때문에 로그인 사용자만 글을 쓸 수 있도록 수정하였습니다.
작년 말에 가입하고 까맣게 잊어버리고 살다가, 이제서야 이렇게 글을 올리네요.
저는 현재 한국과학기술정보연구원(KISTI)에서 KRISTAL-IRMS라는 정보검색관리시스템을 개발하고 있습니다.
이 팀에서 저는 현재 형태소분석, 기계학습 파트를 맡고 있구요.
올라와 있는 글을 얼마 읽지는 못하였으나, 많은 분들이 한국어 형태소분석기 때문에 고민이 상당하시네요. ^^;
이와 관련하여, 한 가지 정보를 드리고자 합니다.
저희가 운영하고 있는 www.kristalinfo.com에 오시면 개발된 KRISTAL-IRMS 소스 전체를 다운받으실 수 있습니다. 물론 비상업적 용도에 한해서죠. ^^
보다 중요한 건...
포함된 소스 내에 한국어 형태소분석기가 있다는 사실이겠죠...ㅎㅎㅎ (검색엔진이니까 당연히...)
C로 개발되어 있으며, 다양한 사전과(Binary Encrypted Dictionary) 분석규칙이 포함되어 튜닝이 된 형태소분석기이며, 물론 열정이 있으신 분들은 소스분석을 통해서 어느 정도 지식을 얻을 수 있을것이라 사료됩니다.
형태소분석기 및 색인기 테스트 사이트는 다음과 같습니다.
http://www.kristalinfo.com/K-Lab/idx/
http://www.kristalinfo.com/K-Lab/ma/
공개버전으로 배포된 시스템에 대해서는 연구소의 사정상 다양한 기술적 지원은 해드리지 못하고 있으며,
만일 활용해 보시고 괜찮다고 느끼시면, 개인적(sungpil@gmail.com)으로나 아님 공식적(spchoi@kisti.re.kr)으로 컨텍을 부탁드립니다. ㅋㅋㅋ
그럼 많은 도움이 되었으면 하네요...
다음에는 더 좋은 정보로 다시 찾아뵙겠습니다.
그럼 수고하세요...
스파시스..
상당한 규모의 사전(품사사전: 약 20만 표제어, 기분석사전: 약 100만, 기타 형식형태소 사전 등)이 적용된 형태소분석기입니다. 복합명사 분석은 물론 미등록어 분석까지 지원하니, 많은 도움이 될 것 같습니다.
KRISTAL 엔진 자체가 현재 오픈소스로 공개되어 있으나, 아직 형태소분석기에 대한 명확한 정책이 수립되어 있지 않습니다.
이 부분도 빨리 정리해서 GPL이나 아님 기타 공개소프트웨어 라이센스 하에서 정식으로 오픈하겠습니다.
많은 기대 바랍니다. ㅎㅎㅎ
예...가능합니다. 현재 기술협력업체라는 이름으로 약 4-5군데에서 KRISTAL 기반의 응용시스템을 개발하고, 이를 재판매하고 있습니다. 하지만 그와 동시에, KRISTAL 소스 자체는 공개버전으로 오픈되어 있습니다. 이는 MySQL의 정책과 비슷하다고 생각합니다. 물론 머 요즘에는 ORACLE도 이 정책을 쓰고 있지만요...^^
루씬을 사용하려고 준비했던 과정을 잠시 보류하고 KRISTAL로 적용해 볼까 심각히 고민중입니다.
속도를 고려한다면 CPP 모델을 이용하는것이 좋아보이는군요.
그렇게 많은 사용자가 아니라면 CPP와 PHP를 이용해 서비스해도 크게 무리가 없어보이는데...
대략 자료를 찾아보니 200-300GB 정도의 자료는 쉽게 커버가 되는것으로 나오던데... 혹 동접자는 어느정도까지
커버가 될까요?
아울러 서비스가 확대될경우 분산서버로의 변환은 실제 적용해보신적이 있으신지... 궁굼합니다.
새로운 한주 잘보내시길...
나란트님... 좋은 지적이십니다. 그리고 칭찬해 주시니 정말 감사드립니다.
KRISTAL 마음껏 활용해 주셨으면 좋겠습니다. (물론 비상업적으로요...^^) 그리고 궁금하신 사항은 언제나 저희 홈페이지에 올려주세요.
말씀하신 동시접속자 수와 관련하여, 현재까지는 일반 상용 포털서비스처럼 초당 몇만세션의 접속 지원은 솔직히 못하지만, 이 부분도 시간이나 노력이 문제지 해결불가능한 문제는 아니라고 봅니다. 또한 말씀하신대로 KRISTAL 내부적으로는 분산검색 기능을 현재 지원 중에 있사오니 관심 부탁드립니다.
다시 한번 관심에 감사드립니다. 최성필.



