博客
关于我
nodeJs爬取图片
阅读量:494 次
发布时间:2019-03-07

本文共 822 字,大约阅读时间需要 2 分钟。

新建nodeJs爬取图片的小样例

1、新建node项目

这一步已经完成,生成默认的package.json文件

2、安装所需模块

爬取图片需要以下模块

  • request 模块简化http请求
  • cheerio 提供jQueryCore功能
  • fs 操作文件操作

注意:cheerio需要单独下载

3、编写抓取图片代码

新建app.js文件

代码示例:

const cheerio = require('cheerio');const fs = require('fs');const request = require('request');

function start(url) {request(url, function(err, res, body) {if (!err && res.statusCode == 200) {findImg(body, saveImgFile);}});}

function findImg(dom, callback) {let $ = cheerio.load(dom);$('img').each((index, dom) => {let imgSrc = $(dom).attr('src');callback(imgSrc, index);});}

function saveImgFile(src, index) {let ext = src.split('.').pop();imgName = index + '.' + ext;// 创建文件路径并存储图片let filePath = './pic/' + imgName;request(src).pipe(fs.createWriteStream(filePath));}

运行命令:node app.js

注意事项:

  • 请确保网络权限
  • 确保被爬的网站允许通过请求模块抓取
  • 爬取图片请遵守robots.txt规则

图片保存到pic文件夹

转载地址:http://rajcz.baihongyu.com/

你可能感兴趣的文章
org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /
查看>>
org.hibernate.HibernateException: Unable to get the default Bean Validation factory
查看>>
org.springframework.orm.hibernate3.support.OpenSessionInViewFilter
查看>>
org.springframework.web.multipart.MaxUploadSizeExceededException: Maximum upload size exceeded
查看>>
org.tinygroup.serviceprocessor-服务处理器
查看>>
org/eclipse/jetty/server/Connector : Unsupported major.minor version 52.0
查看>>
org/hibernate/validator/internal/engine
查看>>
orm总结
查看>>
os.system 在 Python 中不起作用
查看>>
SQL--合计函数(Aggregate functions):avg,count,first,last,max,min,sum
查看>>
OSError: no library called “cairo-2“ was foundno library called “cairo“ was foundno library called
查看>>
OSG学习:几何体的操作(二)——交互事件、Delaunay三角网绘制
查看>>
OSG学习:几何对象的绘制(三)——几何元素的存储和几何体的绘制方法
查看>>
OSG学习:场景图形管理(三)——多视图相机渲染
查看>>
OSG学习:场景图形管理(四)——多视图多窗口渲染
查看>>
Sql 随机更新一条数据返回更新数据的ID编号
查看>>
OSG学习:空间变换节点和开关节点示例
查看>>
OSG学习:纹理映射(一)——多重纹理映射
查看>>
OSG学习:纹理映射(二)——一维/二维/简单立方图纹理映射
查看>>
OSG学习:纹理映射(六)——灯光
查看>>