猿急送>

厦门Java兼职程序员

ID：402763

梁木

java开发爬虫数据采集

公司信息：
厦门科拓通讯技术股份有限公司

工作经验：
2年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
厦门
全区

技术能力

1、编程语言与算法：熟练掌握 Python、Java，熟悉数据结构与算法；了解 JS 语言及前端基础（HTML/CSS）
2、逆向工程与安全：掌握多端逆向技术 —— 网页端（抓包 / 断点调试 / JS 代码补环境）、小程序端（抓包 / 断点逆向）、App 端（Charles 抓包 / Frida Hook/IDA 反编译.so 文件）；熟悉加密解密（Base64、AES 全模式、MD5 加盐等）。
3、爬虫与数据处理：熟练使用 Scrapy、BeautifulSoup、Selenium 框架，能实现静态 / 动态页面数据抓取；掌握 Charles 抓包分析，通过多线程（ThreadPool）、协程（asyncio）提升爬取效率；能完成数据清洗、结构化存储（Excel/CSV/MongoDB）及基础表结构设计

项目经验

1. 电商平台商品数据爬取与竞品分析系统
• 技术栈：Scrapy、MongoDB、Pandas、Matplotlib、IP 代理池
• 项目背景：为支持电商团队选品决策，需批量获取平台商品数据并分析价格与竞品差异。
• 核心职责：负责流程开发（爬虫 + 逆向 + 数据分析），解决反爬限制及数据加密问题。
• 内容：
o 设计分布式爬虫架构，通过 IP 代理池（动态切换 IP）+ 绕过反爬封禁，实现 10 万 + 商品数据（价格 / 销量 / 评论）高效爬取；
o 逆向破解价格接口 sign 值加密逻辑（JS 混淆 + 动态参数生成），通过扣取核心 JS 代码 + 补环境（模拟浏览器运行上下文）实现接口稳定调用；
o 用 Pandas 清洗数据（去重 / 异常值处理），存入 MongoDB，结合 Matplotlib 生成价格分布、竞品销量对比等可视化报告。
• 项目成果：数据准确率达 95%，覆盖平台 80% 核心品类，为选品决策提供数据支撑，较人工采集效率提升 8 倍，成本降低 80%。
2. 基于大模型的自动化智能答题系统
• 技术栈：OpenAI API、Requests、JS 逆向、OpenCV、MySQL
• 项目背景：针对知识竞赛类网站的批量答题需求，需实现自动化答题以提升效率（人工答题耗时且易出错）。
• 核心职责：负责答题流程自动化开发，解决网站加密验证、验证码识别及 AI 回答规范化问题。
• 内容：
o 逆向破解网站交互逻辑：通过网页抓包 + JS 断点调试，分析出题接口加密参数（如 token 生成算法），通过跟栈溯源实现参数解密；
o 搭建自动化答题流程：对接 OpenAI 大模型 API，设计提示词模板（限制回答格式）+ 错误回调机制（自动修正模型异常输出），结合 OpenCV 识别图形验证码，实现 “登录 - 获取题目 - 调用 AI 答题 - 提交答案” 全流程自动化；
o 优化成本与效率：将正确答案存入 MySQL 数据库，支持重复题目快速匹配，减少大模型 token 消耗。
• 项目成果：智能答题准确率达 96%，单账号答题效率提升 10 倍，完全满足批量答题需求，节省人工成本约 70%。

案例展示

基于大模型的自动化智能答题系统

本项目旨在开发一套高效的数据采集解决方案，以支持特来电在全国范围内充电设施的运营和管理需求。通过该系统，用户可以选择特定的地域区段，针对所需的关键性能指标（KPIs）进行精准的数据收集与分析。这些数据包括但不限于充电次数、电量消耗、用户行为模式、设备运行状态等，为提升充电服务质量
基于大模型的自动化智能答题系统

• 项目背景：针对知识竞赛类网站的批量答题需求，需实现自动化答题以提升效率（人工答题耗时且易出错）。 • 核心职责：负责答题流程自动化开发，解决网站加密验证、验证码识别及 AI 回答规范化问题。