01.JAVA/Java2009. 6. 8. 18:03
반응형

Java에서 HTML 태그를 제거하는 정규식 적용

  1. private String getText(String content) {  
  2.     Pattern SCRIPTS = Pattern.compile("<(no)?script[^>]*>.*?</(no)?script>",Pattern.DOTALL);  
  3.     Pattern STYLE = Pattern.compile("<style[^>]*>.*</style>",Pattern.DOTALL);  
  4.     Pattern TAGS = Pattern.compile("<(\"[^\"]*\"|\'[^\']*\'|[^\'\">])*>");  
  5.     Pattern nTAGS = Pattern.compile("<\\w+\\s+[^<]*\\s*>");  
  6.     Pattern ENTITY_REFS = Pattern.compile("&[^;]+;");  
  7.     Pattern WHITESPACE = Pattern.compile("\\s\\s+");  
  8.       
  9.     Matcher m;  
  10.       
  11.     m = SCRIPTS.matcher(content);  
  12.     content = m.replaceAll("");  
  13.     m = STYLE.matcher(content);  
  14.     content = m.replaceAll("");  
  15.     m = TAGS.matcher(content);  
  16.     content = m.replaceAll("");  
  17.     m = ENTITY_REFS.matcher(content);  
  18.     content = m.replaceAll("");  
  19.     m = WHITESPACE.matcher(content);  
  20.     content = m.replaceAll(" ");          
  21.       
  22.     return content;  
  23. }  
정규식을 6개 정도 적용하고 있는 간단한 소스입니다.
각각 HTML의 스크립트 태그와 내용, 스타일 및 내용, 태그들, 엔터티, 공백문자들을 제거하는 정규식 표현입니다.

관심있는 분들은 한번씩 테스트 해보시기 바랍니다. ^^

아마도 곧 간단한 기능을 하는 것을 오픈해서 보여드릴건데요..
URL을 지정하면 해당 텍스트를 분석해서 자동으로 태깅 정보를 제공하는 겁니다.
마무리 단계이니 완료되는 대로 이 사이트를 통해서 보여드릴께요..

그럼.. 좋은 하루 되세요~~ from 미니(xmlmanager@gmail.com)
Posted by 1010