웹파싱: 2개의 글
앞서 사용하는 방법을 설명했고, 이제는 실전이다. 무한도전의 회차 정보를 가져오는 내용을 해보았고, 페이지에서 전체 내가 원하는 회차 프로그램 정보를 가져오는 방법을 설명하겠다. 일단 무한도전의 회차 정보를 가져오기 위해서 확인해본 결과 아래와 같은 구조를 가지고 있었다. .... 는 이미지의 URL을 담고 있었고, ... 에는 회차정보인 택스트 정보를 담고 있었다. 안에를 자세하게 살펴보면 소스코드 Elements image = doc.select("div.brcs_thumb"); for (Element e : image) { // System.out.println(e); for (Element k : e.children()) { // System.out.println(k); for (Element y..
들어가며 웹페이지에서 내가 필요한 부분을 가져오고 싶을 경우가 있다. 예를 들면 날씨 정보나, 주식정보 등이 될 수 있다. 이번 포스팅에서는 Java의 라이브러리인 jsoup을 이용해 웹페이지 파싱하는 방법에 대해서 설명한다. Jsoup 공식 홈페이지 주소 [바로가기] Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); Elements newsHeadlines = doc.select("#mp-itn b a"); 예제 코드를 보기 위해서는 coobook을 참고하면 된다. [바로가기] 웹페이지 예를 들어서 네이버에 있는 사이트 일부분을 가져오는 코드를 설명해 보겠다. 아래 검색 결과에서 '무한도전 - 477회 이전희' 의 색칠한 내용을 가져오는 ..