咔咔不会用python,也没打算为了爬点东西就去学python。时间成本不允许我这样做
于是咔咔使用了一款工具,火车头采集工具
这款工具学会了很简单,不会的全是问题
下来咔咔会把这个工具的从开始到结束的实现流程写出来
此篇文章用时俩天完成,咔咔也是从一个小白摸索过来的,网上的文章我是看的一头雾水,就写了一篇,希望可以帮助到大家
基础准备
1.下载火车头采集工具
火车头工具有可能需要登录,自己看
2.认识火车头
web发布配置:是使用接口进行发布
web发布模块:是使用接口发布的参数,相当于是一个发布模板而已
数据库发布配置和数据库发布模块也是同理
但是经常使用的就是web发布的这俩个模块,数据库的自己试试就可以了
2-1.新建采集任务
2-2.设置网址采集规则
起始网址就是需要采集的地址
采集案例
1.配置采集规则
先用电影类型这个链接
然后查看网址规则,我们会发现这个就是我们需要的采集地址
然后将采集网址和采集规则写到配置里边
<a target="_blank" href="[参数]" class="subject_link(*)">
点击网址测试采集,然后这些网址就是我们需要采集的内容页网址
2.获取图片
可以看到他的图片代码是这个样子的
开始写规则
<div id="(*)" class="message"><p><img src="[参数]"
3.获取原名
这一块可以看到的是他的标签都是一样的,那么设置的采集规则也就是一致的