Scraperr - 懒猫应用商店

打开 “懒猫微服客户端” 下载应用

Scraperr

一个强大的自托管 Web scraping（Web爬虫）解决方案

19 次下载

0 次点赞

0 条评论

0 次催更

安装次数

应用评论

催更次数

桌面端

应用描述

基于 XPath 的提取：精确定位页面元素队列管理：提交和管理多个抓取作业域名爬取：抓取同一域名内所有页面的选项自定义标头：将 JSON 标头添加到您的抓取请求中媒体下载：自动下载图像、视频和其他媒体结果可视化：以结构化表格格式查看抓取的数据数据导出：以 markdown 和 csv 格式导出结果通知渠道：通过各种渠道发送完成通知 XPath-Based Extraction: Precisely target page elements Queue Management: Submit and manage multiple scraping jobs Domain Spidering: Option to scrape all pages within the same domain Custom Headers: Add JSON headers to your scraping requests Media Downloads: Automatically download images, videos, and other media Results Visualization: View scraped data in a structured table format Data Export: Export your results in markdown and csv formats Notifcation Channels: Send completion notifcations, through various channels

相关攻略

Scraperr 实用攻略：小白也能轻松上手的网页数据抓取神器

## Scraperr 是什么？简单说，Scraperr 就是个帮你从网页上"偷"数据的工具。别担心，这里说的"偷"是合法的数据抓取 😄。想象一下，你要收集某个购物网站上所有商品的价格信息，手动复制粘贴得复制到天荒地老，而 Scraperr 可以帮你几分钟搞定。 **核心优势：** - 🎯 **精准定位**：用XPath选择器精确抓取你想要的内容 - 🚀 **简单易用**：网页界面操作，不需要写复杂代码 - 📦 **自托管**：数据安全掌握在自己手里 - 🔄 **批量处理**：一次提交多个抓取任务 - 📊 **结果可视化**：抓取的数据直接在表格里展示 https://appstore.lazycat.cloud/#/shop/detail/top.j0k3r.scraperr ## 实战攻略应用安装后，打开即主页面 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/d6abfe07-16fe-4889-a397-350398e31a4c.png "image.png") 先注册一个账号 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/ed484992-d1ee-44e7-a208-4851e67ed331.png "image.png") 登录进去，左下角会有提示 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/613c1a58-ff76-4622-b424-a06d7d62824e.png "image.png") 以老王的博客为例https://manateelazycat.github.io/index.html ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/c201d31c-a219-44a0-ba3e-a9db94d797c4.png "image.png") ### 理解XPath（别被吓到，真的很简单） XPath 就像是网页元素的"地址"。比如你要找某个商品的标题，XPath 会告诉程序："去第3个div里面的第2个span标签找"。 **实用XPath技巧：** 1. **右键大法**：在网页上右键点击你想抓取的内容 → 检查元素 → 右键选择"Copy XPath"，直接复制现成的路径 2. **常用模式**： - 抓取所有链接：`//a/@href` - 抓取所有图片：`//img/@src` - 抓取特定class的文本：`//div[@class='product-title']/text()` - 抓取包含特定文字的元素：`//span[contains(text(), '价格')]` 以老王博客为例 URL：老王的博客地址为 https://manateelazycat.github.io/index.html Name：因为是抓标题，所以输入了文章标题 XPath：可以在浏览器中获取到/html/body/div[1]/ul 点击提交 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/100a7f60-0a6e-4383-87c1-3f8ed644d468.png "image.png") 左下角会提示创建了一个Job ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/5d24f67b-c1bb-4a87-97e9-469c82c6eb53.png "image.png") 到左侧Job里可以看到 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/925dcd27-c362-4856-baa2-1f6451ed6ac7.png "image.png") 它有一定概率会失败，如果成功后会显示complete 点击 showresult ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/e23765c8-8f68-43b9-bda6-93778ac03aaa.png "image.png") 点进去，可以看到内容都抓到了 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/4c40ae85-2444-4e64-8871-526a0671f737.png "image.png") 还可以下载下来 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/4be5b71a-975c-4a4e-aadc-c83660c0d356.png "image.png") ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/1f081d04-0990-4d49-9d9d-88227c332bd9.png "image.png") 我下载的csv中文乱码了 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/5ab62754-4025-4a7c-824d-1d198f477b72.png "image.png") markdown没问题 ![image.png](https://lzc-playground-1301583638.cos.ap-chengdu.myqcloud.com/guidelines/496/2e9d7fee-df07-4dc2-a0b2-b388f2212b90.png "image.png") ### 注意事项（重要！）合规使用 1. **检查robots.txt**：访问`网站域名/robots.txt`看看是否允许抓取 2. **遵守使用条款**：不要抓取明确禁止的内容 3. **控制频率**：不要太频繁请求，给服务器留点喘息空间 ## 总结 Scraperr 是个不错的工具，特别适合需要定期抓取数据但又不想写复杂爬虫代码的朋友。界面清爽，功能齐全，而且支持自托管，数据安全有保障。有了这个工具，以后收集数据就轻松多了。不过记得合规使用，做个有素质的数据收集者 😊 --- *提示：本文仅为技术交流，使用时请遵守相关法律法规和网站使用条款。*

懒猫评分/评论

0.0

0 条评论

此 App 尚未收到足够的评分或评论，无法显示评论列表。

应用信息