Web 框架方面,熟练使用 Django 搭建完整 Web 应用,包括 ORM、中间件、模板系统及 REST framework 开发 API;熟悉 Flask 轻量框架的路由、蓝图等。爬虫领域,能运用 Requests、BeautifulSoup、Scrapy 抓取和解析数据,掌握动态页面爬取(Selenium)、反爬应对(代理、验证码处理)。数据库操作上,精通 MySQL 查询优化、索引设计,了解 MongoDB 等 NoSQL 数据库。还需掌握 Git 版本控制、Linux 服务器部署(Nginx、Gunicorn),熟悉 Docker 容器化,了解 Redis 缓存及消息队列(如 Celery),具备基础的后端安全防护能力(防 SQL 注入、XSS 等)。
项目经验:负责多个数据爬取项目,均成功实现信息提取与存储。
疾病分类爬取:针对https://jib.xywy.com/,分析页面层级结构,先获取一级科室,再遍历二级科室链接,用 Requests+BeautifulSoup 提取简介、病因等信息,通过 pandas 保存为 Excel,含疾病分类标签,解决编码问题,最终爬取 10 类科室 200 + 疾病数据。
虎扑评论抓取:解析https://bbs.hupu.com/628721373.html动态加载机制,用 Selenium 模拟浏览,定位用户名、评论内容及时间标签,处理翻页逻辑,保存 300 + 条评论至 Excel,规避反爬限制。
中标信息爬取:针对水管相关招标页面,提取标书名称、金额、时间,通过随机 UA 和延时防反爬,多页爬取后用 Excel 存储,数据完整度达 95%,为业务分析提供支持。
| 角色 | 职位 |
| 负责人 | 爬虫工程师 |
| 队员 | 后端工程师 |
数据构成: 序号ID、股票代码、公司名称、分红年份、公告日期、送转股总比例、送股比例、转股比例、现金分红比例、股息率、每股收益、每股净资产、每股公积金、每股未分配利润、净利润同比增长率 近10年所有股票的分红数据; 数据清洗程序,处理缺省值、重复值、异常值等数据问题,并将原始
精准爬取酒店信息:可指定城市(如临沂,支持自定义城市 ID)和爬取页数,自动抓取酒店地区、名称、参考价、酒店 ID 等关键数据,还能获取入住 / 离店日期(默认爬取次日入住、后日离店数据,可灵活调整)。 智能提取酒店标签:能从酒店名称中识别房型特点,比如 “大床房”“双床房”