url을 찾는 정규식 질문드립니다.
화이트
String url = ((http://)|(HTTP://))((WWW\\.)|(www\\.))?([a-zA-Z0-9]+\\.)+[a-zA-Z]{2,4}((/(~[a-zA-Z][a-zA-Z0-9\\.\\-]*[a-zA-Z0-9]/?)?)([a-zA-Z0-9\\.\\-\\_]*/?)*);
패턴을 만들어봤는데요..
몇가지 구분하지 못하는 경우가 있습니다.
아래의 경우는 모두 url로 간주되어야 합니다.
http://www.abc.com
http://WWW.ABC.com/
HTTP://wWw.aBc.COm
http://abc.com
http://abc.com/
http://www.abc.abc.abc.abc.com
http://abc.com/~abc
http://abc.com/~abc/
http://abc.com/abc/abc/index.html
http://abc.com/~abc/ABC/index.pdf
이런식으로 ~ 유저네임이 올수있구요.. 유저네임과 그뒤에 나오는 디렉토리와 파일명들은 대소문자 구분합니다.
도메인은 대소문자 구분없구요.
그리고 .com 이나 .kr 처럼 마지막 최상위 도메인(이라고 하나요?)은 2~4자의 범위를 가지고 있습니다.
아래는 물가능한 url입니다.
http:/abc.com
http://abc.com/~.abc
http://abc.com/~~abc
등입니다.
유저네임은 무조건 ~뒤에 문자[a-zA-Z]로 시작해야 합니다.
제가 위에 만든 패턴은 http://abc.com/~.abc 를 http://abc.com/ 으로 구분해버립니다.
아래는 숙제로 내준 조건입니다.
Valid URLs (Uniform resource locators) which: Always start with http:// May (or may not) contain www after this. After www, it should contain a domain (follow the same rules as in domain for email addresses above). Each domain ends with a 2, 3 or 4 letter top-level domain. After the domain, it may (or may not) contain a user name: ~username. E.g. http://www.cs.uwindsor.ca/~lrueda After the domain or username it may (or may not) contain folders, sub-folder, sub-sub-folder, etc. (a hierarchy with potentially infinite levels) E.g., http://www.cs.uwindsor.ca/~lrueda/teaching/languages http://www2.cs.tum.edu/projects/cup At the end of the URL it may (or may not) contain the name of a web page. E.g. , http://www.cs.uwindsor.ca/~lrueda/teaching/languages/index.html ?xml:namespace prefix = o ns = urn:schemas-microsoft-com:office:office /
-
호습다
답변감사드립니다. 많은 도움이 됐습니다.
숙제는 어찌어찌해서 제출했습니다.(만점받았어요^^) -
황예
단일, 텍스트 상에서 URL을 100% 정확하게 매칭 시키는것은 의외로 복잡합니다.
그러다보니 정규식을 이용한 URL 자동 링크의 경우 한글등이 붙으면
꼭 엉뚱하게 링크되는 사이트 들을 간간이 보실 것 입니다.
네이버도 예외는 아니죠^^;;
(바로 위 제 덧글에서 naver들어간 URL보시면 추출이 잘 못 된걸 알 수 있습니다.)
쨌든, 보다 정확하게 하시려면 캡춰와 비 캡춰등을 좀 복잡하게 섞으셔야 할 듯..
(어렴풋한 기억에 Java쪽 정 -
빵순
따라서, 이 경우에는 \로 시작해서 \로 끝나는 범위 안의 문장이 http로 시작되면서
제시한 문법을 충족하는 단어들을 찾아내면 Valid URL로 볼 수 있습니다.
고로, 제시한 HTML 파일에서 문장의 시작과 끝의 기준점을 정할 것인지가 관건일 것입니다.
HTML TAG처럼 단일 또는 이중 따옴표 범위 안으로 정할 것인지..
그렇지 않고 띄워쓰기등의 공백의 전 후로 정할 것인지등..
어떤 제한 조건이 들어가면 좀 더 만족스러우리라 봅니다.
그렇지 -
봄해
흠...역시 힘드네요..
그럼 지금과 같은 패턴을 이용하는 방식의 프로그래밍으로는 불가능한가요?
숙제를 저렇게 내줬는데;;ㅜㅜ
번호 | 제 목 | 글쓴이 | 날짜 |
---|---|---|---|
2702487 | 저작권관련 긴급질문요~ (6) | 지희 | 2025-07-23 |
2702459 | 최근 포트폴리오 부분 질문드려요 | 흰가람 | 2025-07-23 |
2702431 | 플래시9에서 lite는 얼마나 발전할까요? (6) | 자올 | 2025-07-23 |
2702375 | mvc패턴 게시판 ..........아힘들어요 고수님들좀상세히도와주세요;; (3) | 냐하 | 2025-07-22 |
2702317 | ie6메뉴 보더문제 (3) | VanilLa | 2025-07-22 |
2702287 | c++ 변수 중간값 뽑아내서 비교하는 법 | 헛장사 | 2025-07-21 |
2702258 | AS2,0 함수에서 매개변수의 타입이 각각 다를때는? (5) | 하림 | 2025-07-21 |
2702228 | 이 표현은 무엇인지... 몰라서요. (2) | 도란도란 | 2025-07-21 |
2702197 | dll 인젝션 사용법좀 알려주세요 | 새밝 | 2025-07-21 |
2702147 | dd 안에 div들어가도 되나요? (8) | 꿈 | 2025-07-20 |
2702086 | [질문]세션 박스 질문입니다. (1) | 하연 | 2025-07-20 |
2702057 | 씨언어 숙재좀 풀어주실분 ㅜ.ㅜ (3) | 난슬 | 2025-07-19 |
2702000 | select 사용시 label 문제 질문드립니다. | 김예쁨 | 2025-07-19 |
2701970 | 실행파일의 이름은 어디서 변경하는지요???? | 호빵녀 | 2025-07-19 |
2701856 | 다시 한번 대체텍스트 관련 질문입니다.. (1) | 한샘가온 | 2025-07-18 |
2701803 | 저에게 지식의 자비를~ 베푸소서~!! (4) | 봄바람 | 2025-07-17 |
2701773 | 메모장 파일을 읽고 출력하는 내용에 관한 질문입니다. | 한국드립 | 2025-07-17 |
2701748 | 아이피 변경 부분이요... | 날애 | 2025-07-17 |
2701665 | 자바스크립트 // 왜 if 두개를 쓰면 오류가 나죠? (2) | 글리슨 | 2025-07-16 |
2701636 | 모바일웹 게시판 만들기 조언좀 부탁드려요 ㅜㅜ (2) | 정훈 | 2025-07-16 |