글수 36
횡설수설에 있는 글을 보고 생각이 나서 한개 또 올려 봅니다.
구글이 보면 다국어를 지원하는데 이는 UTF-8 기반으로 모든 문서를 변환하여 저장한후
색인을 하는거 같더라구요....
문제는 기존의 인코딩 타입이 전혀 없는 문서에 대해서 인코딩 타입을 알아내는 것이겠지요..
어찌하다 검색하여 찾은 자료를 올립니다.
Open 소스이구요 sf.net 에서 검색하여... 올립니다.
도움 되시기를 바랍니다...
구글이 보면 다국어를 지원하는데 이는 UTF-8 기반으로 모든 문서를 변환하여 저장한후
색인을 하는거 같더라구요....
문제는 기존의 인코딩 타입이 전혀 없는 문서에 대해서 인코딩 타입을 알아내는 것이겠지요..
어찌하다 검색하여 찾은 자료를 올립니다.
Open 소스이구요 sf.net 에서 검색하여... 올립니다.
도움 되시기를 바랍니다...
2007.11.19 22:18:27
[고감자] 좋은 자료네요... Tidy를 쓰면서 느낀건데.. 오픈소스인 경우 오픈소스를 직접 고쳐 쓸 능력이 없으면 섯불리 쓰지는 말아야겠다는 생각을 했습니다. 이거 소스를 보면서 분석좀 해봐야겠네요..
2007.11.19 22:18:27
[고감자] 바빠서 소스코드를 조금 밖에 못봤는데 대충 보니까... 음.....앞에 4바이트 정도에서 특정 인코딩에서 빈도수가 많은 문자char를 가지고 판단하는거 같네요.. 인터넷 익스플로러에서 판단하는 방법이랑 같습니다. 그치만 이 방법도 만능은 아닙니다.
2007.11.19 22:18:27
[고감자] 모국어 글자 인코딩에 정확히 맞아 떨어지지 않은 몇가지 글자를 이용해 페이지 처음 몇바이트를 써넣을 경우 다르게 판단하겠죠.. 하지만... 전혀 쓸모없는 모듈은 아니죠. 조금만 고치고 체크하는 텍스트를 더 많거나 중요한 부분에 집중시킬경우 모듈의 판단 능력은 높아지리라 생각되네요.
2007.11.19 22:18:27
[typos] IE 자체도 charset이 존재하지 않는한 인코딩을 제대로 못합(안하거나)니다. 해결책? tag와 영문, 기호등을 제외한 바이트를 계산하면 될듯도 싶은데.. 전 그냥 안하고 삽니다. 있는것도 다 못하는데..



