猿急送>

乌鲁木齐其它兼职程序员

ID：408786

豆腐混世大魔王

python高级爬虫

公司信息：
蓝因子

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
乌鲁木齐
全区

技术能力

精通Python编程语言，熟练运用Scrapy、BeautifulSoup、Selenium等爬虫框架与库，能够针对不同类型网站（静态页面、动态渲染页面、反爬机制网站）制定对应的爬取策略。熟悉IP代理池搭建、Cookie池维护、请求头伪装等反反爬技术，可高效突破网站的反爬限制。掌握正则表达式、XPath、CSS选择器进行数据解析，能将爬取的非结构化数据清洗、整理为结构化数据并存储至MySQL、MongoDB、CSV等介质中。同时了解分布式爬虫架构，可基于Scrapy-Redis实现大规模数据的分布式爬取，保障数据获取的效率与稳定性，还能根据业务需求对爬取的数据进行初步的统计分析与可视化处理。

项目经验

负责电商平台商品数据爬取项目：针对某知名电商平台的商品信息、价格、评论等数据进行爬取，使用Scrapy框架搭建爬虫，结合Selenium处理动态加载的商品详情页。对爬取的数据进行清洗去重后，存储至MongoDB数据库，并利用Pandas进行价格趋势分析和评论情感分析，形成可视化分析报告，为客户的市场调研提供了数据支撑，项目交付后客户反馈数据准确率达98%以上。

案例展示

广东省公共资源数据采集-

1. 主要网站(https://ygp.gdzwfw.gov.cn/#/44/jygg) 全国公共资源交易平台（广东省） 2. 主要任务 1. 在广东省公共资源平台获取栏目“政府采购”中检索近1个月全部公告，可获取该栏目的各公告标题、公告类型、发布平台以及该月内所有的
高德地图实时全国拥堵城市榜单-

2. 主要任务 1. 爬取高德地图实时全国拥堵城市榜单。 2. 高德地图实时拥挤前十名拥堵延时指数，样例数据↓ 3. 将采集下来的数据进行可视化处理，如生成柱状图。
登录界面设计

1. 主要任务 1. 使用web框架如flask，django, fastapi等，实现一个类似的登录界面。 2. 登录界面应具有注册功能，同步到后台存放账号的文档中（可使用数据库）。 3. 登录时不在这十个账户中的登录信息返回账户不存在，密码错误则返回密码错误，