后端开发:熟练掌握 Python 语言,精通 Flask、Django 等后端框架,熟悉 RESTful API 设计,了解数据库设计与优化(MySQL、MongoDB)。
前端开发:精通 Vue3 框架,熟悉 Element Plus 等 UI 组件库,掌握 HTML5、CSS3、JavaScript 等前端技术,了解前端性能优化。
爬虫开发:熟练使用 Python 进行爬虫开发,掌握 Scrapy 框架,熟悉反爬机制应对策略,如使用代理 IP、设置请求头等。
BI 报表与 ETL 设计:熟悉 Power BI、Tableau 等 BI 工具,能够进行数据可视化报表设计;掌握 ETL 流程设计,熟练使用 Python 进行数据清洗、转换和加载,熟悉 Pandas、NumPy 等数据处理库。
项目描述:该项目旨在爬取多个新闻资讯网站的数据,并进行数据清洗、分析和可视化展示。我负责爬虫开发和数据处理部分。
责任描述:
爬虫开发:使用 Scrapy 框架编写爬虫程序,爬取了多个知名新闻网站的新闻标题、内容、发布时间等信息。针对不同网站的反爬机制,采用了设置代理 IP、随机 User-Agent、处理验证码等策略,确保了爬虫的稳定运行。
数据处理:使用 Pandas 库对爬取到的数据进行清洗和预处理,去除了重复数据、缺失值和异常值。对新闻内容进行了分词、词频统计等文本分析操作,提取了热门关键词。
数据可视化:使用 Power BI 将处理后的数据进行可视化展示,制作了新闻热点趋势图、关键词云图等报表,为业务决策提供了数据支持。
ETL 设计:使用 Python 编写 ETL 脚本,从企业的多个业务系统中抽取数据,进行数据清洗、转换和加载到数据仓库中。通过优化 ETL 流程,提高了数据处理的效率和准确性。 报表开发:使用 Tableau 工具进行报表开发,设计了销售趋势分析报表、客户分布报表等多个可视化
ETL 设计:使用 Python 编写 ETL 脚本,从企业的多个业务系统中抽取数据,进行数据清洗、转换和加载到数据仓库中。通过优化 ETL 流程,提高了数据处理的效率和准确性。 报表开发:使用 Tableau 工具进行报表开发,设计了销售趋势分析报表、客户分布报表等多个可视化