1.概述
聚合采集工具是基于python中scrapy+redis+mysql分布式采集工具的基础上进行开发的一套采集工具.另寄托于docker基础上运行,所以天然支持异步和多机采集工具另外特别方便部署,它采集时会自动入库到mysql数据库,并通过入库的数据进行向远端火车头api发起入库请求.这些操作每天都会定时全自动执行.
2.使用环境支持
1、windows系列,winserver和windows8及以上
2、linux内核系统比如 centos7,ubuntu,macos等系统支持
3、简单讲就是支持docker的系统那就支持
2.安装教程 linux安装
聚合采集工具安装流程我单独增加了linux sh脚本一键式安装,安装过程分为三步
1.安装docker,如果已安装则跳过
sh docker-install.sh
2.安装docker-compose ,如果已安装则跳过
sh docker-compose-install.sh
3.自动下载所需文件并启动
cd /opt && tar -zxvf spider.tar.gz && cd /opt/spider && docker-compose up -d
3.爬虫管理命令合集
# 爬虫启动推荐使用命令 先执行更新爬虫,再开启爬虫
docker pull jhspider/spider:test && cd /opt/spider && docker-compose up -d
# 爬虫重启推荐使用命令 先执行更新爬虫,再停止爬虫,最后再开启爬虫
docker pull jhspider/spider:test && cd /opt/spider && docker-compose down && docker-compose up -d
# 更新爬虫
docker pull jhspider/spider:test
# 启动爬虫
docker-compose up -d
# 关闭爬虫
docker-compose down
# 重启爬虫
docker-compose restart
# 查看爬虫日志,刚开始时常用该命令去看配置情况
docker logs jh-spider --tail 1000
安装完成后
大概效果图如上
这个时候你可以输入docker-compose ps指令查看运行状况
最后要配置发布
自行连接到数据库,开放33061端口到外网后通过工具去访问 连接信息请往下看,暂时只支持漫城跟小浣熊平台的发布 发布配置是在 spider_db数据库中的publish_site数据表里去做配置 具体配置参数请参考下面的表格
暂时只支持漫画源 主要用与发布时筛选漫画源
qinqinmh
twhm
qiman
qimiaomh
dmzj 动漫之家
sixmh
xianman
tx550
kuman5
switch | host | param | type | where | name | |
---|---|---|---|---|---|---|
字段参考值 | 1 | http://www.xxxxx.com | {“api_key”:”hahmh”} | 0 | qiman,tx550,dmzj,kuman5 | 测试发布站点 |
字段描述 | 0=关 1=开 | 发布host地址如果没做伪静态要加上http://www.xxxx.com/index.php | api_key里面填写发布密钥 | 类型 0=小浣熊 1=漫城漫画 2=漫城小说 | 指定发布采集源为空则全部发布,这边添加英文漫画源名比如 qinqinmh 如果多项则逗号隔开 | 这个应该都懂的 |
如果没有漫画站可以先用我的做测试,直接复制sql命令并插入即可
INSERT INTO `spider_db`.`publish_site` (`id`, `switch`, `host`, `param`, `type`, `thread_num`, `where`, `name`, `create_time`, `update_time`) VALUES (7, 1, 'http://www.52hah.com', '{\"api_key\":\"hahmh\"}', 0, 2, 'qiman,dmzj', '测试', '2022-11-01 13:42:44', '2022-11-01 13:42:44');
附录 默认mysql和redis账号密码
mysql-主机: 127.0.0.1或局域网ip也可外网ip
mysql-用户名: root
mysql-密码: jhspider_pass
mysql-数据库 : spider-db
mysql-端口:33061
redis-主机: 127.0.0.1或局域网ip也可外网ip
redis-用户名: root
redis-密码: jhspider_pass
redis-端口:63791
部署后可自行更改
结尾
采集工具的话初次使用都会自动赠送3天测试时间,如果出现问题或者想要继续使用可以联系我免费增加使用时间也可以增加漫画采集源初次使用只赠送1-2个漫画源采集
默认都是盗链的,当然我这也提供了python高性能图片本地化方案 需要也可以联系我咨询,彻底解决小白建漫画站的所有问题
最终效果图
如果安装时报wget未安装则可以按照以下步骤进行
mac系统 brew install wget
centos系统 yum install wget
ubuntu apt-get install wget
无错源码所有资源来自会员发布以及互联网收集,不代表本站立场,如有侵犯你的权益请联系管理员,站内发信联系 我们会第一时间进行审核删除。站内资源为网友个人学习或测试研究使用,未经原版权作者许可,禁止用于任何商业途径!本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。请在下载24小时内删除!
如果遇到付费才可观看的文章,建议升级传奇VIP。全站所有资源“任意下免费看”。本站资源少部分采用7z压缩,为防止有人压缩软件不支持7z格式,7z解压,建议下载7-zip,zip、rar解压,建议下载WinRAR。如遇解压需要密码,请尝试使用www.wucuoym.com来解压,如若仍有问题,请联系站长。