JsoupXpath重构完成，开启全新2.0，强大超乎你想象

作者: zhegexiaohuozi
时间: 2019-03-14
分类: Java,爬虫
评论

简介

JsoupXpath 是一款纯Java开发的使用xpath解析提取html数据的解析器，针对html解析完全重新实现了W3C XPATH 1.0标准语法，xpath的Lexer和Parser基于Antlr4构建，html的DOM树生成采用Jsoup，故命名为JsoupXpath.
为了在java里也享受xpath的强大与方便但又苦于找不到一款足够好用的xpath解析器，故开发了JsoupXpath。JsoupXpath的实现逻辑清晰，扩展方便，
支持完备的W3C XPATH 1.0标准语法，W3C规范：http://www.w3.org/TR/1999/REC-xpath-19991116 ，JsoupXpath语法描述文件Xpath.g4

Change Log

https://github.com/zhegexiaohuozi/JsoupXpath/releases

- 阅读剩余部分 -

SeimiAgent使用--通过js控制以浏览器级效果登陆爬取京东信息

作者: zhegexiaohuozi
时间: 2016-08-07
分类: Linux,杂谈
评论

声明

本篇文章纯粹为了向还不是很了解SeimiAgent的同学演示下SeimiAgent的部分能力，目标网站随意选的，并没有其他目的。

SeimiAgent简介

SeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务，可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求（需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数），通过SeimiAgent去加载并渲染想要处理的动态页面，然后将渲染好的页面直接返给调用方进行后续处理，所以运行的SeimiAgent服务是与语言无关的，任何一种语言或框架都可以通过SeimiAgent提供的标准http接口来获取服务。SeimiAgent的加载渲染环境都是通用浏览器级的，所以不用担心他对动态页面的处理能力。同时支持渲染生成页面快照（png）和PDF，亦支持自定义js脚本处理基本渲染后的页面，具体请参见官方使用说明。

正文

视频分享

为了更为直观的了解，可以先看下分享在优酷上视频，点击地址直达

下面会是图片版的详细介绍

- 阅读剩余部分 -

Seimi基础系列2-SeimiCrawler整合Mybatis存储数据

作者: zhegexiaohuozi
时间: 2016-07-27
分类:
评论

最近关注SeimiCrawler整合Mybatis的朋友比较多，故仅以此文抛砖引玉。如果是不了解SeimiCrawler的朋友也可以通过此文简单了解下SeimiCrawler。

SeimiCrawler简介

SeimiCrawler是一个敏捷的，独立部署的，支持分布式的Java爬虫框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里，绝大多数人只需关心去写抓取的业务逻辑就够了，其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发，同时融合了Java语言本身特点与Spring的特性，并希望在国内更方便且普遍的使用更有效率的XPath解析HTML，所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目，非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成（当然，数据处理亦可以自行选择其他解析器）。并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。

- 阅读剩余部分 -

Seimi基础系列1-SeimiCrawler打包部署工具使用

作者: zhegexiaohuozi
时间: 2016-07-27
分类: Java,爬虫
评论

简介

在开发调试情况下，可以直接采用main函数来启动SeimiCrawler，但是为了便于工程化部署与分发，SeimiCrawler提供了专门的打包插件maven-seimicrawler-plugin用来对SeimiCrawler工程进行打包，打好的包可以直接在服务器上部署运行了。

- 阅读剩余部分 -

动态网页渲染服务器 SeimiAgent V1.1 发布

作者: zhegexiaohuozi
时间: 2016-05-14
分类: 爬虫
评论

简介

SeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务，可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求（需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数），通过SeimiAgent去加载并渲染想要处理的动态页面，然后将渲染好的页面直接返给调用方进行后续处理，所以运行的SeimiAgent服务是与语言无关的，任何一种语言或框架都可以通过SeimiAgent提供的标准http接口来获取服务。SeimiAgent的加载渲染环境都是通用浏览器级的，所以不用担心他对动态页面的处理能力。目前SeimiAgent只支持返回渲染好的HTML文档，后续会增加图像快照已经PDF的支持，方便更为多样化的使用需求。

- 阅读剩余部分 -

zhegexiaohuozi 发布的文章

JsoupXpath重构完成，开启全新2.0，强大超乎你想象

简介

Change Log

SeimiAgent使用--通过js控制以浏览器级效果登陆爬取京东信息

声明

SeimiAgent简介

正文

视频分享

Seimi基础系列2-SeimiCrawler整合Mybatis存储数据

SeimiCrawler简介

Seimi基础系列1-SeimiCrawler打包部署工具使用

简介

动态网页渲染服务器 SeimiAgent V1.1 发布

简介

最新文章

最近回复

分类

归档

其它