1、 编程语言与算法:熟练掌握 Python、Java,熟悉数据结构与算法;了解 JS 语言及前端基础(HTML/CSS)
2、 逆向工程与安全:掌握多端逆向技术 —— 网页端(抓包 / 断点调试 / JS 代码补环境)、小程序端(抓包 / 断点逆向)、App 端(Charles 抓包 / Frida Hook/IDA 反编译.so 文件);熟悉加密解密(Base64、AES 全模式、MD5 加盐等)。
3、 爬虫与数据处理:熟练使用 Scrapy、BeautifulSoup、Selenium 框架,能实现静态 / 动态页面数据抓取;掌握 Charles 抓包分析,通过多线程(ThreadPool)、协程(asyncio)提升爬取效率;能完成数据清洗、结构化存储(Excel/CSV/MongoDB)及基础表结构设计
1. 电商平台商品数据爬取与竞品分析系统
• 技术栈:Scrapy、MongoDB、Pandas、Matplotlib、IP 代理池
• 项目背景:为支持电商团队选品决策,需批量获取平台商品数据并分析价格与竞品差异。
• 核心职责:负责流程开发(爬虫 + 逆向 + 数据分析),解决反爬限制及数据加密问题。
• 内容:
o 设计分布式爬虫架构,通过 IP 代理池(动态切换 IP)+ 绕过反爬封禁,实现 10 万 + 商品数据(价格 / 销量 / 评论)高效爬取;
o 逆向破解价格接口 sign 值加密逻辑(JS 混淆 + 动态参数生成),通过扣取核心 JS 代码 + 补环境(模拟浏览器运行上下文)实现接口稳定调用;
o 用 Pandas 清洗数据(去重 / 异常值处理),存入 MongoDB,结合 Matplotlib 生成价格分布、竞品销量对比等可视化报告。
• 项目成果:数据准确率达 95%,覆盖平台 80% 核心品类,为选品决策提供数据支撑,较人工采集效率提升 8 倍,成本降低 80%。
2. 基于大模型的自动化智能答题系统
• 技术栈:OpenAI API、Requests、JS 逆向、OpenCV、MySQL
• 项目背景:针对知识竞赛类网站的批量答题需求,需实现自动化答题以提升效率(人工答题耗时且易出错)。
• 核心职责:负责答题流程自动化开发,解决网站加密验证、验证码识别及 AI 回答规范化问题。
• 内容:
o 逆向破解网站交互逻辑:通过网页 抓包 + JS 断点调试,分析出题接口加密参数(如 token 生成算法),通过跟栈溯源实现参数解密;
o 搭建自动化答题流程:对接 OpenAI 大模型 API,设计提示词模板(限制回答格式)+ 错误回调机制(自动修正模型异常输出),结合 OpenCV 识别图形验证码,实现 “登录 - 获取题目 - 调用 AI 答题 - 提交答案” 全流程自动化;
o 优化成本与效率:将正确答案存入 MySQL 数据库,支持重复题目快速匹配,减少大模型 token 消耗。
• 项目成果:智能答题准确率达 96%,单账号答题效率提升 10 倍,完全满足批量答题需求,节省人工成本约 70%。
本项目旨在开发一套高效的数据采集解决方案,以支持特来电在全国范围内充电设施的运营和管理需求。通过该系统,用户可以选择特定的地域区段,针对所需的关键性能指标(KPIs)进行精准的数据收集与分析。这些数据包括但不限于充电次数、电量消耗、用户行为模式、设备运行状态等,为提升充电服务质量
• 项目背景:针对知识竞赛类网站的批量答题需求,需实现自动化答题以提升效率(人工答题耗时且易出错)。 • 核心职责:负责答题流程自动化开发,解决网站加密验证、验证码识别及 AI 回答规范化问题。