语言:精通 C++17/20、Python ;
后端:FastAPI(异步 ASGI、OpenAPI、Pydantic)、Flask(微服务);
桌面端:wxWidgets、 wxPython、PyQt5;
爬虫与解析:Scrapy、aiohttp、Playwright、Selenium;
数据存储:MySQL、PostgreSQL、Redis(缓存+队列);
消息队列:Kafka、Redis Stream;
容器与云:Docker、Nginx、CI/CD(GitHub Actions)、阿里云 / 腾讯云;
其他:Linux 调优、网络协议、多线程 / 协程、算法与数据结构;
scrapy系统开发
面向人群与痛点
• 目标用户:设计师、电商运营、AI 训练工程师、壁纸/素材站站长。
• 核心痛点:手动批量下载图片费时费力;现有工具只能单站抓取,缺少分布式去重、实时预览与可视化报表。
差异化亮点(相比常规爬虫/下载器)
双引擎:Scrapy + Redis 去重队列,支持横向扩容,1天可抓百万级图片。
Chrome-headless 中间件:自动滚屏、懒加载、登录 Cookie 注入,突破反爬。
实时仪表盘:ECharts 展示“站点-分类-尺寸-下载量”多维统计,任务进度秒级刷新。
云端断点续爬:任务状态写 MySQL + Redis,异常重启后自动续传。
产品组成与技术选型
• 采集层:Scrapy + Scrapy-Redis + Chrome Headless。
• 存储层:MySQL(元数据)+ Redis(去重)。
• 展示层:FastAPI + ECharts + Bootstrap,内网/公网均可访问。
• 部署:Docker-Compose 一键启动。
面向人群与痛点 • 目标用户:设计师、电商运营、AI 训练工程师、壁纸/素材站站长。 • 核心痛点:手动批量下载图片费时费力;现有工具只能单站抓取,缺少分布式去重、实时预览与可视化报表。 差异化亮点(相比常规爬虫/下载器) 双引擎:Scrapy + Redis 去重队列,
一、产品定位 面向电子工程师与硬件创业团队,将 KiCad / Altium / EasyEDA 等 EDA 项目一键导出符合 NextPCB 量产标准的 Gerber + BOM 文件包,并直接对接 NextPCB 在线下单系统,实现“设计→报价→生产→物流”全流程数字化闭环