您好!我是一名在校大学生,拥有扎实的Python爬虫基础(熟练掌握Requests、BeautifulSoup等库)。暑假期间(即日起至7月10日)拥有充足且稳定的时间,非常希望能承接与网页数据采集、信息整理相关的项目(例如:文章内容抓取、公开数据收集等)。
我深知技术成长需要实践,因此不怕繁琐、细致认真,会全力以赴完成每一个任务,确保沟通顺畅、及时反馈。作为学生,我理解预算有限,将提供高性价比的服务。如果遇到技术边界,我会坦诚沟通并积极寻求解决方案,希望能用我的技能为您提供帮助,同时也为我的实践履历添砖加瓦。欢迎随时联系,期待合作!
练习过一些爬虫练习题如爬取豆瓣电影TOP250的内容和一些反爬的小网站内容也爬过一些。
在网上曾帮一个顾客爬取网站内容:
顾客在做一个关于地方政府如何响应中央产业政策的项目,需要收集各省市发布的与产业发展相关的政策文件。主要是想爬取从2015年到2024年这十年间,省级政府(比如省政府、省发改委、省工信厅)发布的涉及制造业升级、技术创新、招商引资、战略性新兴产业等内容的文件
角色 | 职位 |
负责人 | 学生 |
队员 | 前端工程师 |
项目描述要点: - 功能:爬取浙江省政府网站中关于“新能源汽车”的公开信息,包括标题、发布时间、正文内容等,并保存为文本文件。 - 技术:使用Selenium模拟浏览器操作,处理多窗口切换,采用多种XPath策略适配不同页面结构,文件名清理等。 - 我的角色:独立开发
1. 功能:实时爬取全国拥堵枢纽榜单(火车站),包括排名、名称、拥堵延时指数和车速。 2. 技术亮点:使用requests库高效获取数据,pandas处理数据排序,openpyxl实现Excel自动更新和图表生成。 3. 定时任务:每5分钟自动更新一次,并处理异常情况。 4