JSoup: 4개의 글

앞서 사용하는 방법을 설명했고, 이제는 실전이다. 무한도전의 회차 정보를 가져오는 내용을 해보았고, 페이지에서 전체 내가 원하는 회차 프로그램 정보를 가져오는 방법을 설명하겠다. 일단 무한도전의 회차 정보를 가져오기 위해서 확인해본 결과 아래와 같은 구조를 가지고 있었다. .... 는 이미지의 URL을 담고 있었고, ... 에는 회차정보인 택스트 정보를 담고 있었다. 안에를 자세하게 살펴보면 소스코드 Elements image = doc.select("div.brcs_thumb"); for (Element e : image) { // System.out.println(e); for (Element k : e.children()) { // System.out.println(k); for (Element y..

들어가며 웹페이지에서 내가 필요한 부분을 가져오고 싶을 경우가 있다. 예를 들면 날씨 정보나, 주식정보 등이 될 수 있다. 이번 포스팅에서는 Java의 라이브러리인 jsoup을 이용해 웹페이지 파싱하는 방법에 대해서 설명한다. Jsoup 공식 홈페이지 주소 [바로가기] Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); Elements newsHeadlines = doc.select("#mp-itn b a"); 예제 코드를 보기 위해서는 coobook을 참고하면 된다. [바로가기] 웹페이지 예를 들어서 네이버에 있는 사이트 일부분을 가져오는 코드를 설명해 보겠다. 아래 검색 결과에서 '무한도전 - 477회 이전희' 의 색칠한 내용을 가져오는 ..
Jsoup Download : http://jsoup.org/download 위의 사이트에서 라이브러리를 다운로드한다 다음과 같은 방법으로 안드로이드 프로젝트에 jsoup 라이브러리를 포함시킨다 위와 같이 설정해주고 Project > Clean 을 한번 수행해주면 된다
이번에 HTML 파싱을 할 기회가 있어서 가장 유명한 두 가지 라이브러리를 사용해 보았다.jar파일은 첨부해 놓은 버전을 사용했다. 1. HTML이 존재하는 사이트의 주소를 입력하면 source에 담기는데 fullSequentialParse()를 통해 위에서부터 순차적으로 검색을 한다.Source source = new Source(new URL("사이트주소")); source.fullSequentialParse(); 2. 클래스명으로 List에 엘리먼트가 담긴 형태로 데이터를 리턴 받는다. List divList = source.getAllElementsByClass("클래스"); * 아이디도 가능source.getElementById("id명") 3. 클래스명으로 받아온 리스트에서 div > a > ..