编程语言
熟练掌握 Python 编程语言,熟悉 Python 基础语法、数据结构(如列表、字典、元组等),能运用 Python 进行高效的数据处理和算法实现。
具备一定的 SQL 语言基础,能够编写 SQL 语句进行数据库的增删改查操作,熟悉 MySQL、SQLite 等常见关系型数据库的使用。
爬虫技术
掌握常见的爬虫框架,如 Scrapy 和 BeautifulSoup,能够使用 Scrapy 框架快速搭建爬虫项目,利用其强大的调度器和中间件功能高效抓取网页数据。
熟悉 requests 库,可灵活使用其发送 HTTP 请求,处理不同类型的请求头和请求参数,应对各种反爬机制。
了解网页解析技术,能够使用 XPath 和 CSS 选择器准确提取网页中的目标数据。
掌握数据存储技术,可将爬取到的数据存储到数据库(如 MySQL、MongoDB)或文件(如 CSV、JSON)中。
其他技术
学习过基本的 HTML、CSS 知识,能够读懂网页结构,为爬虫数据提取提供支持。
了解 Git 版本控制工具,能够使用基本的 Git 命令进行代码的版本管理和协作开发。
夜曲编程课程项目 - 豆瓣电影数据爬取
项目描述:在夜曲编程课程学习期间,完成了一个豆瓣电影数据爬取项目。该项目旨在爬取豆瓣电影 Top250 的相关信息,包括电影名称、评分、导演、主演等,并将数据存储到 CSV 文件中。
技术实现:使用 Python 的 requests 库发送 HTTP 请求获取网页内容,使用 BeautifulSoup 库解析 HTML 页面,提取所需的数据。通过循环和分页技术,实现了对 250 条电影数据的完整爬取。
项目成果:成功爬取了豆瓣电影 Top250 的全部数据,并存储为规范的 CSV 文件,为后续的数据分析和挖掘提供了基础。
蓝桥杯竞赛项目 - 电商商品价格监控爬虫
项目描述:参加蓝桥杯竞赛时,参与了一个电商商品价格监控爬虫项目。该项目的目标是实时监控某电商平台上指定商品的价格变化,并在价格低于设定阈值时发送通知。
技术实现:使用 Scrapy 框架搭建爬虫,通过定时任务定期爬取商品页面信息,使用正则表达式和 XPath 提取商品价格。使用 Python 的邮件模块实现价格预警通知功能。
项目成果:完成了商品价格监控爬虫的开发,能够准确获取商品价格信息并及时发送价格预警通知,在竞赛中获得了[具体奖项]。
计算机二级备考实践项目 - 新闻资讯爬虫
项目描述:在备考计算机二级的过程中,为了巩固所学知识,自主开发了一个新闻资讯爬虫。该爬虫可以爬取某新闻网站的最新资讯,包括新闻标题、发布时间、内容摘要等,并将数据存储到 SQLite 数据库中。
技术实现:运用 Python 的 urllib 库发送请求,使用 lxml 库进行网页解析。通过建立数据库表结构,将爬取到的数据存储到 SQLite 数据库中,方便后续的查询和管理。
项目成果:实现了新闻资讯的自动爬取和存储,加深了对 Python 编程和数据库操作的理解,顺利通过了计算机二级考试。