爬虫技术 Scrapy、Scrapy-Redis、DrissionPage、Playwright、Selenium、Requests、asyncio、APScheduler
反爬对抗 代理 IP 池轮询、请求频率自适应、Cookie 池管理、验证码识别、浏览器指纹对抗
JS 逆向 AST 反混淆、加密算法还原(AES/RSA/MD5/SHA)、签名参数逆向、Hook 调试(Frida/Xposed)
Web 后端 FastAPI、Flask、RESTful API 设计、JWT 认证、Pydantic 数据校验
数据存储 MongoDB(复合索引设计)、Redis(缓存/分布式锁/布隆过滤器)、MySQL
编程语言 Python、JavaScript、Solidity
JinritemaiCrawler — 电商选品爬虫
项目背景:基于浏览器自动化方案实现今日头条电商选品数据的自动采集
核心工作:实现登录态保持、商品详情抓取、销售数据采集、转化率分析和带货内容链接提取
量化成果:抓取结果自动生成 Excel 报表,client_db.py 负责数据格式化与导出
ArticleCrawler — 多站点新闻聚合爬虫
项目背景:构建增量式新闻聚合爬虫系统,覆盖博彩/游戏行业主流资讯源
核心工作:内置 affpapa、bnldata 等 10 个站点的爬虫模块;集成 APScheduler 实现定时任务调度
量化成果:设计模块化架构,新站点接入仅需实现标准接口;通过哈希去重减少 80% 冗余请求
ArticleCrawler 是一个用 Python 编写的增量式新闻聚合爬虫项目,基于 Scrapy 框架和 APScheduler 定时调度器构建。它内置了超过 10 个站点的爬虫模块,通过自定义的 SunSpider 基类实现 URL 自动去重,借助 curl_cffi 模
多源数据管理平台 是一个基于 FastAPI 企业级架构构建的多源数据采集、管理与监控平台。提供多种数据源的接入、爬虫任务调度分发、服务器远程管理、待办事项跟踪等完整服务能力。