熟悉 Python 全栈数据处理链路,可独立完成从数据采集、逆向破解到清洗分析的全流程工作。熟练使用 requests、Selenium 等工具开展定向数据收集,具备应对验证码、IP 限制等常见反爬机制的实战经验,可高效完成多源异构数据的稳定抓取。精通前端 JS 逆向,能够绕过各类反调试检测,还原接口加密参数与签名算法,完成核心加密逻辑的 Python 复现,保障数据采集通畅。可使用 Pandas、NumPy 完成数据清洗、统计分析与可视化输出,结合业务场景输出数据结论,支撑业务决策,具备完整的数据类项目独立落地能力
曾主导内容平台数据采集与分析项目,通过 JS 逆向还原接口多参数加密逻辑,绕过窗口检测、时间差校验等反调试机制,复现核心签名算法,搭建高可用采集脚本,实现日均十万余条数据的稳定抓取,数据准确率超 99%。后续基于采集的全量业务数据,完成多源数据清洗、指标体系搭建与多维统计分析,输出用户留存、转化链路优化报告,支撑业务策略调整,助力核心转化指标提升,具备从数据获取到价值输出的全链路落地能力
该代码通过requests库爬取TMDB高分电影榜单所有电影详情,使用lxml解析HTML提取每部电影的URL,然后逐个访问详情页抓取名称、年份、上映时间、类型、时长、评分、语言、导演、作者、宣传语和简介等11个字段,最后将所有数据保存为CSV文件
该代码读取销售订单CSV数据,先对单价取绝对值处理异常值,然后计算销售额。通过groupby分组统计实现四个分析需求:绘制每日销售额折线图、各城市销量柱状图、产品类型和支付方式的饼图比例,最终将2x2子图保存为图片展示。
该代码读取销售订单CSV数据,先对单价取绝对值处理异常值,然后计算销售额。通过groupby分组统计实现四个分析需求:绘制每日销售额折线图、各城市销量柱状图、产品类型和支付方式的饼图比例,最终将2x2子图保存为图片展示。