특정 Token을 이용해서 분리할 때,
대번에 생각나는 API는 역시 StringTokenizer가 아닐까??
Class StringTokenizer
The string tokenizer class allows an application to break a string into tokens. The tokenization method is much simpler than the one used by the StreamTokenizer class. The StringTokenizer methods do not distinguish among identifiers, numbers, and quoted strings, nor do they recognize and skip comments.
The following is one example of the use of the tokenizer. The code:
StringTokenizer st = new StringTokenizer("this is a test");
while (st.hasMoreTokens()) {
System.out.println(st.nextToken());
}
prints the following output:
this
is
a
test
The following is one example of the use of the tokenizer. The code:
StringTokenizer st = new StringTokenizer("this is a test");
while (st.hasMoreTokens()) {
System.out.println(st.nextToken());
}
prints the following output:
this
is
a
test
(from JDK 5.0 document)
StringTokenizer는
손쉽게 문자열을 특정 Token으로 분리하는 것이 가능하다.
하지만, StringTokenizer를 사용하다 보면, 다음과 같은 문제가 발생할 때가 있다.
아래와 같은 문자열을 분리한다고 하자
박찬호/35/LA다저스//한국
박찬호
35
LA다저스
한국
다음과 같은 문자열을 분리하는 경우르 보자.
source :
영어,한글,중국어,일어
boy,소년,,ボ―イ
output :
영어 -> boy
한글 -> 소년
중국어 -> ボ―イ
일어 -> null
StringTokenizer를 사용하면 상당히 귀찮은 노가다성 작업이 필요하게 된다..;;
위와 같은 경우 생략된 값을 처리할 좋은 방법이 없을까?
String class의 split() method를 사용해 보자..
String str = "boy,소년,,ボ―イ";
String[] output = str.split(",");
output :
boy
소년
ボ―イ
생략된 값까지 포함된 배열을 얻을 수 있으므로,
일단, 귀찮은 작업을 해주지 않아도 될꺼 같다..ㅋㅋ;
그럼 필드의 마지막이 생략된 경우는 어떨까??
source :
영어,한글,중국어,일어,독어
boy,소년,,ボ―イ,
output :
영어 -> boy
한글 -> 소년
중국어 -> ""
일어 -> ボ―イ
독어 -> null
output1.length = 5
output2.length = 4
안타깝게도 마지막 값이 생략된 경우는,영어,한글,중국어,일어,독어
boy,소년,,ボ―イ,
output :
영어 -> boy
한글 -> 소년
중국어 -> ""
일어 -> ボ―イ
독어 -> null
output1.length = 5
output2.length = 4
결과에 포함되지 않는 것을 알 수 있다..
JDK Document에서 String.split() method를 보면,
다음 두가지가 있음을 알 수 있다.
public String[] split(String regex)
public String[] split(String regex, int limit)
limit 값을 넘겨줄 수 있는 method를 사용해 보자.public String[] split(String regex, int limit)
String str = "boy,소년,,ボ―イ,";
String[] output = str.split(",", 5);
output :
영어 -> boy
한글 -> 소년
중국어 -> ""
일어 -> ボ―イ
독어 -> ""l
output.length = 5
정확히 필드의 값들이 매치되는 것을 볼 수 있다.String[] output = str.split(",", 5);
output :
영어 -> boy
한글 -> 소년
중국어 -> ""
일어 -> ボ―イ
독어 -> ""l
output.length = 5
limit값은 split()의 결과로 받게 되는
String[]의 크기를 나타내는 값이다.
결론 :
다수의 정형화된 문자열을 분리하는데는 StringTokenizer가 편리하지만
정형화 되지 않은 문자열을 분리하는 경우는 String.split()가 더 편리할 수 있다.
(노가다로 해줘야 하는 작업이 줄어든다..ㅋ;)
물론,
필드의 갯수가 엉망인 문자열을 분리하는데는 String.split()로도 부족하다..