JsoupXpath v2.5.1 已发布，HTML 解析器

作者: zhegexiaohuozi
时间: 2022-01-11
分类: Java,搜索,爬虫,机器学习
评论

简介

JsoupXpath 是一款纯Java开发的使用xpath解析提取html数据的解析器，针对html解析完全重新实现了W3C XPATH 1.0标准语法，xpath的Lexer和Parser基于Antlr4构建，html的DOM树生成采用Jsoup，故命名为JsoupXpath.
为了在java里也享受xpath的强大与方便但又苦于找不到一款足够好用的xpath解析器，故开发了JsoupXpath。JsoupXpath的实现逻辑清晰，扩展方便，
支持完备的W3C XPATH 1.0标准语法，W3C规范：http://www.w3.org/TR/1999/REC-xpath-19991116 ，JsoupXpath语法描述文件Xpath.g4

更新

- 阅读剩余部分 -

JsoupXpath重构完成，开启全新2.0，强大超乎你想象

作者: zhegexiaohuozi
时间: 2019-03-14
分类: Java,爬虫
评论

简介

JsoupXpath 是一款纯Java开发的使用xpath解析提取html数据的解析器，针对html解析完全重新实现了W3C XPATH 1.0标准语法，xpath的Lexer和Parser基于Antlr4构建，html的DOM树生成采用Jsoup，故命名为JsoupXpath.
为了在java里也享受xpath的强大与方便但又苦于找不到一款足够好用的xpath解析器，故开发了JsoupXpath。JsoupXpath的实现逻辑清晰，扩展方便，
支持完备的W3C XPATH 1.0标准语法，W3C规范：http://www.w3.org/TR/1999/REC-xpath-19991116 ，JsoupXpath语法描述文件Xpath.g4

Change Log

https://github.com/zhegexiaohuozi/JsoupXpath/releases

- 阅读剩余部分 -

Seimi基础系列1-SeimiCrawler打包部署工具使用

作者: zhegexiaohuozi
时间: 2016-07-27
分类: Java,爬虫
评论

简介

在开发调试情况下，可以直接采用main函数来启动SeimiCrawler，但是为了便于工程化部署与分发，SeimiCrawler提供了专门的打包插件maven-seimicrawler-plugin用来对SeimiCrawler工程进行打包，打好的包可以直接在服务器上部署运行了。

- 阅读剩余部分 -

动态网页渲染服务器 SeimiAgent V1.1 发布

作者: zhegexiaohuozi
时间: 2016-05-14
分类: 爬虫
评论

简介

SeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务，可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求（需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数），通过SeimiAgent去加载并渲染想要处理的动态页面，然后将渲染好的页面直接返给调用方进行后续处理，所以运行的SeimiAgent服务是与语言无关的，任何一种语言或框架都可以通过SeimiAgent提供的标准http接口来获取服务。SeimiAgent的加载渲染环境都是通用浏览器级的，所以不用担心他对动态页面的处理能力。目前SeimiAgent只支持返回渲染好的HTML文档，后续会增加图像快照已经PDF的支持，方便更为多样化的使用需求。

- 阅读剩余部分 -

Java爬虫框架：SeimiCrawler——结构化解析与数据存储

作者: zhegexiaohuozi
时间: 2016-04-21
分类: Java,分布式,爬虫
评论

本文将介绍如何使用SeimiCrawler将页面中信息提取为结构化数据并存储到数据库中，这也是大家非常常见的使用场景。数据抓取将以抓取博客园的博客为例。

建立基本数据结构

为了演示，简单起见只建立一个用来存储博客标题和内容两个主要信息的表即可。表如下：

CREATE TABLE `blog` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `title` varchar(300) DEFAULT NULL,
  `content` text,
  `update_time` timestamp NOT NULL DEFAULT '0000-00-00 00:00:00' ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

- 阅读剩余部分 -

分类爬虫下的文章

JsoupXpath v2.5.1 已发布，HTML 解析器

简介

更新

JsoupXpath重构完成，开启全新2.0，强大超乎你想象

简介

Change Log

Seimi基础系列1-SeimiCrawler打包部署工具使用

简介

动态网页渲染服务器 SeimiAgent V1.1 发布

简介

Java爬虫框架：SeimiCrawler——结构化解析与数据存储

建立基本数据结构

最新文章

最近回复

分类

归档

其它

分类 爬虫 下的文章

JsoupXpath v2.5.1 已发布，HTML 解析器

简介

更新

JsoupXpath重构完成，开启全新2.0，强大超乎你想象

简介

Change Log

Seimi基础系列1-SeimiCrawler打包部署工具使用

简介

动态网页渲染服务器 SeimiAgent V1.1 发布

简介

Java爬虫框架：SeimiCrawler——结构化解析与数据存储

建立基本数据结构

最新文章

最近回复

分类

归档

其它

分类爬虫下的文章