웹페이지 default charset이 궁금합니다.(웹페이지 썸네일작업관련)
사람
하려는 작업 : 웹페이지를 썸네일하여 이미지파일 생성or 이미지 디비저장
(가상브라우져 띄워서 스샷찍거나, 1.6부터 지원데는 데스크탑 클레스로 로컬브라우져 띄워서 스샷찍거나,
htmleditkit으로 css없는 text페이지 스샷찍는 것 아닙니다.)
안녕하세요.이것저것공부중인...초보 개발자 입니다.
오랜만에 들어와서 이렇게 질문을 올리게 되네요
위에 말씀드렸던것 처럼웹페이지 썸네일하여 이미지파일 생성or 이미지 디비저장 을 하는 작업을 하려고 하는데요
현재 방식은 java로 웹페이지를 document로 읽어와서 해당 페이지의 모든 정보를 java에서 재구성해서
그녀석을 핸들링 하는 방식으로 진행하고 있습니다.
httpclient, tidy, xhtmlrenderer를 이용하고 있습니다.
현재 문제점은
charset이 없는 페이지에 대해서는...정상 동작을 하는데요(content-type=text/html)
charset이 있는 페이지에 대해서는..오류를 발생합니다.(content-type=text/html;charset=xxxxx)
이유는 css파일의 charset때문에 발생하는 것 같습니다.
해당 lib에서 css파일을 read할때 utf-8로 해버려서 그런것 같습니다.
오류는 css파싱을 못한다는 오류와 css를 파싱하는 과정중에 css의 내용이 없다는 것 때문인데요
이와 관련해서 궁금한점을 질문드리려고 합니다.
1. content-type에 parameter로 charset을 넣지 않았을경우 java에서 읽었을 때의 기본 charset이 무엇인가요?
-charset을 가진 페이지에 대하여 기본 charset으로set하면 css도 변경되지 않을까 싶어서...
2. 지금 제가 이용하는 방법 말고 다른 방법으로는 어떤 것이 있을까요?
(java에서 타프로그램 호출하는 방법 제외)
1번은 tidy나 httpclient, getmethod의 charset들이랑 responseheader의 content-type을 건드러 밨는데...변화가 없어서
질문드렸구요...
2번 질문은 현재 방법으로 오류 수정을 하더라도...실행 시의 속도가 느려서(1개 페이지를 이미지 파일로 생성하는데
총5초 정도 걸립니다..;;;) 질문드렸습니다.
해보셨던 분이나 아시는 분은 알려주시면 감사하겠습니다....