我是一名在读计算机与大数据双专业大学生,兼具扎实的理论素养与丰富的实践能力。我熟练掌握多种关键技术,包括计算机编程语言、网页基础开发,尤其擅长Python编程。
首先,我擅长编写 Python 网络爬虫脚本,熟练运用 DrissionPage等库实现网页数据的批量采集与解析;能够开发自动化处理脚本,完成文件管理、数据批量转换等重复性任务,提升工作效率。
其次,我能够合理设置请求间隔、添加请求头伪装、实现 IP 代理池基础配置,规避网站反爬机制,保障批量采集任务的持续稳定运行。
最后,我将对采集到的非结构化数据(HTML、JSON 等)进行清洗、解析与格式标准化处理,将原始数据转化为可直接用于大数据分析的结构化数据(如 CSV、Excel等),无缝衔接后续数据处理流程。
1. B 站数据批量采集与下载工具开发:
我使用 Python+DrissionPage 实现 B 站动态页面的视频元数据(标题、播放量等)采集,解析音视频流地址完成批量下载,结合 ffmpeg 实现音视频自动合并。通过请求频率控制、请求头伪装等策略规避反爬,保障采集稳定性。从而完成 500 + 条视频数据的采集与下载,输出标准化结构化数据及视频文件,支撑课程数据分析课题。掌握动态网页爬虫开发、多线程批量处理、第三方工具集成的实战技巧,形成大数据预处理的全流程思维。
2. Office高效应用与模板设计:
在日常学习与团队协作中,我熟练运用Microsoft Office套件(Word、Excel、PowerPoint)进行文档撰写、数据分析与演示文稿制作。我设计并分享了一系列专业、规范的报告、简历、数据分析模板,帮助同学们提升工作效率,赢得广泛好评。此外,我还精通使用Excel进行数据清洗、统计分析与图表制作,自动化处理大量重复性工作,显著提高数据处理效率。
本作品是面向大数据分析场景开发的 B 站数据采集工具,基于 Python 语言实现,核心解决 B 站视频元数据批量采集、音视频资源下载及数据规整的需求。工具支持按视频 URL 列表、UP 主 ID、关键词等多维度采集,通过 DrissionPage 库突破动态网页渲染限制,抓取视
本作品是基于Python+Tkinter开发的桌面端追剧辅助工具,核心解决视频平台追剧时的网址快速访问与管理需求。工具以Tkinter为核心搭建可视化交互界面,包含视频平台网址输入框、“一键跳转”按钮、历史记录列表等核心组件;通过调用webbrowser库实现输入网址后直接唤起浏