이런저런 소식/IT 2008. 3. 14. 13:53
엊그제 퇴근하고 블로그에 들어가보니,
심심하면 등장해서 사람을 짜증나게 만드는 스팸 댓글이 무려 10,000 개 이상 달려 있더군요... oTL
많은 블로거 여러분들이 잘 알고 계실만한... '위치'와 '지점' 타령하는 댓글들..... 이었습니다... ㅠ.ㅠ
10,000 개가 넘는 댓글을 모두 지우고... 있는 자료를 다 뒤져서 필터링을 걸었습니다.
여러 자료를 종합적으로 판단한 결과... 스팸 댓글을 크게 네 단계로 분류해서 필터링을 하게 되었는데,
스팸 댓글의 특징은 대략 다음처럼 분류되더군요....
1. 우선 홈페이지 URL에 'sex'라는 단어가 포함되어 있다. -_-
2. 홈페이지 URL'sex'란 단어가 포함되지 않은 경우는 극히 제한되지만 서 너 개의 단어 조합을 더 필터링할 수 있다.( wet , pink, red, hot, orgazm 등의 조합 )
3. 댓글에 한글을 아는 사람이라면 절대 쓸 수 없는 표현이 들어가 있다.( 경이롭 위치, 이렇게 이다... 등등... )
4. 맞춤법에는 맞더라도, 정상적인 언어 생활을 하는 사람이라면 남의 블로그나 웹에 쓰지 않는 표현이 포함된다.( 차가운 위치, 재미있는 지점... 등등... )
이상의 원칙에 따라 아래 그림처럼 필터링을 했습니다.
'경이롭 위치'처럼 말도 안 되는 표현도 있지만,
제일 재밌는 번역기체 표현은...
'cool site'를 번역한 것이라고 생각되는 '차가운 위치'... 더군요....
허허....
여튼.... 위치와 지점 찾는 스팸 댓글에 시달리시는 다른 분들도 참고하시면 좋겠네요...
'이런저런 소식 > IT' 카테고리의 다른 글
케로군도 구글 크롬을 써 보았습니다만 (4) | 2008.09.05 |
---|---|
옥션... 개인 정보 유출.. 시밤... (6) | 2008.04.17 |
일본 아마존에 "오타쿠 스토어"가 생겼더군요 (7) | 2007.06.11 |
올블로그의 포탈사이트 검색제휴 종료 (6) | 2007.05.02 |
개미들의 온라인 광고 시장은 열리겠지만.... (0) | 2007.04.04 |