精通Python编程语言,熟练运用Scrapy、BeautifulSoup、Selenium等爬虫框架与库,能够针对不同类型网站(静态页面、动态渲染页面、反爬机制网站)制定对应的爬取策略。熟悉IP代理池搭建、Cookie池维护、请求头伪装等反反爬技术,可高效突破网站的反爬限制。掌握正则表达式、XPath、CSS选择器进行数据解析,能将爬取的非结构化数据清洗、整理为结构化数据并存储至MySQL、MongoDB、CSV等介质中。同时了解分布式爬虫架构,可基于Scrapy-Redis实现大规模数据的分布式爬取,保障数据获取的效率与稳定性,还能根据业务需求对爬取的数据进行初步的统计分析与可视化处理。
负责电商平台商品数据爬取项目:针对某知名电商平台的商品信息、价格、评论等数据进行爬取,使用Scrapy框架搭建爬虫,结合Selenium处理动态加载的商品详情页。对爬取的数据进行清洗去重后,存储至MongoDB数据库,并利用Pandas进行价格趋势分析和评论情感分析,形成可视化分析报告,为客户的市场调研提供了数据支撑,项目交付后客户反馈数据准确率达98%以上。
1. 主要网站(https://ygp.gdzwfw.gov.cn/#/44/jygg) 全国公共资源交易平台(广东省) 2. 主要任务 1. 在广东省公共资源平台获取栏目“政府采购”中检索近1个月全部公告,可获取该栏目的各公告标题、公告类型、发布平台以及该月内所有的
2. 主要任务 1. 爬取高德地图实时全国拥堵城市榜单。 2. 高德地图实时拥挤前十名 拥堵延时指数,样例数据↓ 3. 将采集下来的数据进行可视化处理,如生成柱状图。
1. 主要任务 1. 使用web框架 如flask,django, fastapi等,实现一个类似的登录界面。 2. 登录界面应具有注册功能,同步到后台存放账号的文档中(可使用数据库)。 3. 登录时不在这十个账户中的登录信息返回账户不存在,密码错误则返回密码错误,