1.3年的爬虫经验。
2.熟练使用python基本语法以及常用操作,熟悉HTTP/HTTPS,TCP/IP等协议的抓包工具的使用
3.熟悉Javascript逆向工程,代理网络流量,代码混淆,抽象语法树,并有实际的Javascript逆向和分析项目经验
4.有解决图片验证码,滑块,账号限制。IP限制等经验
5.熟悉常见的算法与数据结构,对数据敏感。具备独立思考能力和解决能力
6.熟悉自动化selenium、requests、lxml,xpath等常见结构化与非结构化数据解析
7.熟悉SQLServer,MySql,Redis等数据库
8.了解微服务架构组件,Docker,Jenkins等工具
产品上新市场评估至今项目描述:产品需要上新次抛精华,所以需要对数据分析部门提供现市场主流次抛精华销量、评价、品类、价格。因供应商要求所以项目选择某生物作为参照,由于该项目需要长期采集数据,以及数据量较大,爬虫任务较多所以本项目利用了分布式爬虫来提高爬虫的敏捷性以及健壮性,个人职责:主要负责爬虫设计与开发,采用Scrapy框架结合Scrapy-Redis进行动态网页的数据抓取。采用Dandas对指定爬取的的数据进行清洗和格式化,并基于指定pipe存储到MySQL数据库中。由于某东存在IP禁封反爬问题,所以本项目则采用了代理IP池和来解IP禁封问题。为解决分布式任务爬虫数据积压问题所以同时采用redis进行数据缓存,缓存设计主要基于hash结构进行定制化存储,从而保证爬虫任务的稳定性。
某公司主播带货能力评级至今项目描述:新品上市需要提高知名度和增销所以邀请抖音主播带货,由于需要对带货主播做出绩效考核,所以需分析带货主播的控场能力与带货能力,从而需要从直播间弹幕获取观众的实时反映。由于该项目的数据量较大,所以该项目采用了hash结构来进行定制化储存来保证爬中项目的稳定性,个人职责:主要负责爬虫设计与开发,弹幕信息是通过WwebSocket协议进行传输的,所以我们对弹幕的传输部分做了一个拦截使弹幕数据能够被我们的服务器获取到。采用Scrapy框架进行弹幕抓取。由于弹幕通过protobuf协议进行序列化,所以我们还原其proto结构文件。采用numpy对指定爬取的数据进行清洗。由于数据量庞大,所以基于pipe储存到redis中。由于某音会对高频繁请求的用户进行拉黑,为解决该问题我们采用了分布式爬虫。
本项目基于 Python 技术栈,构建一套分布式爬虫与实时库存监控预警系统。通过编写高性能网络爬虫,实现对多平台、多渠道商品库存信息的自动化采集、结构化解析与增量数据抓取,并结合数据清洗、去重、归一化等处理流程,完成库存数据的深度挖掘与分析。 系统采用多线程 / 协程并发爬取策
本项目基于 Python 全栈数据技术栈,完成千万级真实销售业务数据的全流程自动化处理。针对原始数据多源异构、格式混乱、缺失值 / 异常值 / 重复数据泛滥等痛点,自主开发高性能数据抽取与清洗引擎,实现跨文件、跨格式数据源的批量解析、结构化提取与标准化治理。 项目采用分批次流式
本项目基于 Python 全栈数据技术栈,完成千万级真实销售业务数据的全流程自动化处理。针对原始数据多源异构、格式混乱、缺失值 / 异常值 / 重复数据泛滥等痛点,自主开发高性能数据抽取与清洗引擎,实现跨文件、跨格式数据源的批量解析、结构化提取与标准化治理。 项目采用分批次流式
本项目基于 Python 全栈数据技术栈,完成千万级真实销售业务数据的全流程自动化处理。针对原始数据多源异构、格式混乱、缺失值 / 异常值 / 重复数据泛滥等痛点,自主开发高性能数据抽取与清洗引擎,实现跨文件、跨格式数据源的批量解析、结构化提取与标准化治理。 项目采用分批次流式