打开 “懒猫微服客户端” 下载应用

Scraperr

一个强大的自托管 Web scraping(Web爬虫) 解决方案

18 次下载
0 次点赞
0 条评论
0 次催更
18

安装次数

0

点赞

0

应用评论

0

催更次数

桌面端

应用描述

基于 XPath 的提取:精确定位页面元素 队列管理:提交和管理多个抓取作业 域名爬取:抓取同一域名内所有页面的选项 自定义标头:将 JSON 标头添加到您的抓取请求中 媒体下载:自动下载图像、视频和其他媒体 结果可视化:以结构化表格格式查看抓取的数据 数据导出:以 markdown 和 csv 格式导出结果 通知渠道:通过各种渠道发送完成通知 XPath-Based Extraction: Precisely target page elements Queue Management: Submit and manage multiple scraping jobs Domain Spidering: Option to scrape all pages within the same domain Custom Headers: Add JSON headers to your scraping requests Media Downloads: Automatically download images, videos, and other media Results Visualization: View scraped data in a structured table format Data Export: Export your results in markdown and csv formats Notifcation Channels: Send completion notifcations, through various channels

相关攻略

Scraperr 实用攻略:小白也能轻松上手的网页数据抓取神器

## Scraperr 是什么? 简单说,Scraperr 就是个帮你从网页上"偷"数据的工具。别担心,这里说的"偷"是合法的数据抓取 😄。 想象一下,你要收集某个购物网站上所有商品的价格信息,手动复制粘贴得复制到天荒地老,而 Scraperr 可以帮你几分钟搞定。 **核心优势:** - 🎯 **精准定位**:用XPath选择器精确抓取你想要的内容 - 🚀 **简单易用**:网页界面操作,不需要写复杂代码 - 📦 **自托管**:数据安全掌握在自己手里 - 🔄 **批量处理**:一次提交多个抓取任务 - 📊 **结果可视化**:抓取的数据直接在表格里展示 https://appstore.lazycat.cloud/#/shop/detail/top.j0k3r.scraperr ## 实战攻略 应用安装后,打开即主页面 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/d6abfe07-16fe-4889-a397-350398e31a4c.png "image.png") 先注册一个账号 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/ed484992-d1ee-44e7-a208-4851e67ed331.png "image.png") 登录进去,左下角会有提示 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/613c1a58-ff76-4622-b424-a06d7d62824e.png "image.png") 以老王的博客为例https://manateelazycat.github.io/index.html ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/c201d31c-a219-44a0-ba3e-a9db94d797c4.png "image.png") ### 理解XPath(别被吓到,真的很简单) XPath 就像是网页元素的"地址"。比如你要找某个商品的标题,XPath 会告诉程序:"去第3个div里面的第2个span标签找"。 **实用XPath技巧:** 1. **右键大法**:在网页上右键点击你想抓取的内容 → 检查元素 → 右键选择"Copy XPath",直接复制现成的路径 2. **常用模式**: - 抓取所有链接:`//a/@href` - 抓取所有图片:`//img/@src` - 抓取特定class的文本:`//div[@class='product-title']/text()` - 抓取包含特定文字的元素:`//span[contains(text(), '价格')]` 以老王博客为例 URL:老王的博客地址为 https://manateelazycat.github.io/index.html Name:因为是抓标题,所以输入了 文章标题 XPath:可以在浏览器中获取到/html/body/div[1]/ul 点击提交 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/100a7f60-0a6e-4383-87c1-3f8ed644d468.png "image.png") 左下角会提示创建了一个Job ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/5d24f67b-c1bb-4a87-97e9-469c82c6eb53.png "image.png") 到左侧Job里可以看到 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/925dcd27-c362-4856-baa2-1f6451ed6ac7.png "image.png") 它有一定概率会失败,如果成功后会显示complete 点击 showresult ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/e23765c8-8f68-43b9-bda6-93778ac03aaa.png "image.png") 点进去,可以看到内容都抓到了 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/4c40ae85-2444-4e64-8871-526a0671f737.png "image.png") 还可以下载下来 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/4be5b71a-975c-4a4e-aadc-c83660c0d356.png "image.png") ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/1f081d04-0990-4d49-9d9d-88227c332bd9.png "image.png") 我下载的csv中文乱码了 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/5ab62754-4025-4a7c-824d-1d198f477b72.png "image.png") markdown没问题 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/2e9d7fee-df07-4dc2-a0b2-b388f2212b90.png "image.png") ### 注意事项(重要!)合规使用 1. **检查robots.txt**:访问`网站域名/robots.txt`看看是否允许抓取 2. **遵守使用条款**:不要抓取明确禁止的内容 3. **控制频率**:不要太频繁请求,给服务器留点喘息空间 ## 总结 Scraperr 是个不错的工具,特别适合需要定期抓取数据但又不想写复杂爬虫代码的朋友。界面清爽,功能齐全,而且支持自托管,数据安全有保障。 有了这个工具,以后收集数据就轻松多了。不过记得合规使用,做个有素质的数据收集者 😊 --- *提示:本文仅为技术交流,使用时请遵守相关法律法规和网站使用条款。*

懒猫评分/评论

0.0

0 条评论

此 App 尚未收到足够的评分或评论,无法显示评论列表。

应用信息

最新版本

0.0.1

更新日期

6/4/2025

预估安装占用

3.27 GB

不支持平台

ios、android

来源

jaypyles

提供者

J0k3r

兼容性

设备需装有 LzcOS 0.0.1 或更高版本

"首次提交"