开发并维护Python自动化爬虫脚本,熟练运用Xpath、正则表达式及select选择器从多类公开网页抓取结构化数据。计算机视觉项目的图像数据清洗与标注工作,精准识别并修正错误标签,对图像中的物体进行精细化分类与属性管理
• 项目背景: 针对网络小说内容信息进行全链路数据挖掘,旨在通过数据可视化分析用户偏好与内容特征。
• 技术实施:
1. 数据采集:运用Xpath和selenium技术,高效获取静态⽹页上的内容。
2.数据处理:利用pandas库进⾏数据清洗与结构化处理,结合jieba分词及停用词库进行文本预处理。
3. 数据分析与可视化:基于matplotlib及可视化库生成多维度图表,深入分析小说类型数量,作者分布及用户评价趋势。
项目成果:成功抓取并处理9000+条小说数据,构建直观的数据图表,清晰展现数据间关联,为内容推荐策略提供数据支撑。