03.HTML 4.X, HTML5, XML.../HTML/Css/Script2008. 11. 10. 17:32

HTML 태그 제거 정규식

HTML 태그 제거 정규식

HTML 태그 제거 정규식^#

태그제거^[1]^↓ ^#

// 정규표현식으로 제거
String.replaceAll("<(/)?([a-zA-Z]*)(\\s[a-zA-Z]*=[^>]*)?(\\s)*(/)?>","");

한 줄로 표현하기^[1]^↓ ^#

String.replaceAll("("\r|\n","");

주석 제거^#

Pattern.compile("", Pattern.DOTALL)
.matcher(text)
.replaceAll("");

HTML 태그 제거 소스 ^[2]^↓ ^#

public class HTMLCleaner
{
public static void main(String[] args)
{
HTMLCleaner cleaner = new HTMLCleaner();
//System.out.println(cleaner.clean("<html><head><script>aaaa</script></head><body><div>aaa</div> <div> <script></script></div><img src=\"http://tong.nate.com\" values=\">\"> 이건 어떻게 될까요 </body></html> "));
}
private static interface Patterns
{
// javascript tags and everything in between
public static final Pattern SCRIPTS = Pattern.compile("<(no)?script[^>]*>.*?</(no)?script>", Pattern.DOTALL);
public static final Pattern STYLE = Pattern.compile("<style[^>]*>.*</style>", Pattern.DOTALL);
// HTML/XML tags
public static final Pattern TAGS = Pattern.compile("<(\"[^\"]*\"|\'[^\']*\'|[^\'\">])*>");
public static final Pattern nTAGS = Pattern.compile("<\\w+\\s+[^<]*\\s*>");
// entity references
public static final Pattern ENTITY_REFS = Pattern.compile("&[^;]+;");
// repeated whitespace
public static final Pattern WHITESPACE = Pattern.compile("\\s\\s+");
}
/**
* Clean the HTML input.
*/
public String clean(String s)
{
if (s == null)
{
return null;
}
Matcher m;
m = Patterns.SCRIPTS.matcher(s);
s = m.replaceAll("");
m = Patterns.STYLE.matcher(s);
s = m.replaceAll("");
m = Patterns.TAGS.matcher(s);
s = m.replaceAll("");
m = Patterns.ENTITY_REFS.matcher(s);
s = m.replaceAll("");
m = Patterns.WHITESPACE.matcher(s);
s = m.replaceAll(" ");
return s;
}
}

* 완전하지는 않다.

참고자료^#

(1) ^a^b http://fairworld.tistory.com/138

(2) ^a http://okjsp.pe.kr/seq/111879

Posted by 1010

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

개발자(開發者) a developer

HTML 태그 제거 정규식

HTML 태그 제거 정규식^#

태그제거^[1]^↓ ^#

한 줄로 표현하기^[1]^↓ ^#

주석 제거^#

HTML 태그 제거 소스 ^[2]^↓ ^#

See also^#

참고자료^#

카테고리

공지사항

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바

개발자(開發者) a developer

HTML 태그 제거 정규식

HTML 태그 제거 정규식#

태그제거[1]↓ #

한 줄로 표현하기[1]↓ #

주석 제거#

HTML 태그 제거 소스 [2]↓ #

See also#

참고자료#

카테고리

공지사항

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바

HTML 태그 제거 정규식^#

태그제거^[1]^↓ ^#

한 줄로 표현하기^[1]^↓ ^#

주석 제거^#

HTML 태그 제거 소스 ^[2]^↓ ^#

See also^#

참고자료^#