Naik, лол, а ты точно внимательно прочёл статейку? Как раз JSOUP и используется.
web_demon, неправильный админ какой-то
Напрример
А если нормально знать css то наверняка можно вообще обойтись одним запросом
Зачем перебирать все дивы, всякие стрим апи, если можно все сделать с помощью jsoup?
aNNiMON, ну если парсить регулярками, то ничего пропускать и не надо. Ну и как по мне, чем запутанней стнуктура, тем лучше. Мало какому админу понравится что его сайт парсят. Изм. web_demon (26.05 / 12:22) (1)
web_demon, на самом деле не очень. Достаточно открыть форум, чтобы в этом убедиться. table, нет единых id/class с семантическим представлением. Например, название темы у нас .phrd>b, хотя можно было отдельный id повесить #topicname. Дата написания поста: .posttable>.post_top_l>.gray. Комментарии вот на этой странице - .class1|.class2>(тут надо пропустить table и .gray, чтобы получить содержимое комментария).
Ксакеп, тут вообще отличная разметка, можно написать один единственный парсер который разберет и веб и вап, благо различий - табличка и стили.
Годнота!
На примере о JSOUP - всё пучком
Задача тривиальная, поскольку на баше отличная разметка. Чего, например, не скажешь об http://annimon.com/ Java Категории |