2016年7月

时间: 2016-07-27

分类:

最近关注SeimiCrawler整合Mybatis的朋友比较多，故仅以此文抛砖引玉。如果是不了解SeimiCrawler的朋友也可以通过此文简单了解下SeimiCrawler。

SeimiCrawler简介

SeimiCrawler是一个敏捷的，独立部署的，支持分布式的Java爬虫框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里，绝大多数人只需关心去写抓取的业务逻辑就够了，其余的Seimi帮你搞定。设计思想上SeimiCrawler受Python的爬虫框架Scrapy启发，同时融合了Java语言本身特点与Spring的特性，并希望在国内更方便且普遍的使用更有效率的XPath解析HTML，所以SeimiCrawler默认的HTML解析器是JsoupXpath(独立扩展项目，非jsoup自带),默认解析提取HTML数据工作均使用XPath来完成（当然，数据处理亦可以自行选择其他解析器）。并结合SeimiAgent彻底完美解决复杂动态页面渲染抓取问题。

- 阅读剩余部分 -

Seimi基础系列1-SeimiCrawler打包部署工具使用

简介

在开发调试情况下，可以直接采用main函数来启动SeimiCrawler，但是为了便于工程化部署与分发，SeimiCrawler提供了专门的打包插件maven-seimicrawler-plugin用来对SeimiCrawler工程进行打包，打好的包可以直接在服务器上部署运行了。

- 阅读剩余部分 -

2016年7月

Seimi基础系列2-SeimiCrawler整合Mybatis存储数据

SeimiCrawler简介

Seimi基础系列1-SeimiCrawler打包部署工具使用

简介

最新文章

最近回复

分类

归档

其它