熟练掌握 Python 全栈开发与数据处理相关技术,具备扎实的编程基础与项目实战能力。精通 Python 基础语法、面向对象编程、函数式编程,能够独立完成需求分析、代码编写、调试与优化工作。熟练使用 Pandas、NumPy、Matplotlib、Seaborn 等库进行数据清洗、数据分析与可视化,能够高效处理各类结构化与非结构化数据。掌握 Requests、BeautifulSoup、Selenium 等工具实现数据采集与自动化脚本开发,可完成日常办公自动化、数据抓取、报表生成等任务。熟悉 MySQL等数据库的基本操作与 SQL 查询,能够实现数据存取与接口对接。擅长计算机视觉中分类,检测和OCR等任务。具备良好的代码规范与问题排查能力,能够根据需求快速实现脚本开发、小工具制作、数据处理、自动化流程等相关任务,注重代码可读性、执行效率与稳定性,可按时高质量完成外包与项目交付。
项目一:多平台电商数据爬虫系统开发
基于 Python 开发多平台电商数据爬虫系统,核心使用 Requests+Scrapy 框架实现高并发数据抓取,结合 BeautifulSoup 与 XPath 完成商品标题、价格、销量、评价等信息解析。针对不同平台反爬机制,配置动态 User-Agent、IP 代理池、Cookie 池,并通过 Selenium 模拟浏览器行为突破 JS 加密限制。设计数据去重、增量更新与异常重试逻辑,将抓取数据清洗后存入 MySQL 数据库,同时开发可视化面板展示抓取进度与数据质量。该系统稳定运行每日抓取超 10 万条有效数据,数据准确率达 90% 以上,为电商竞品分析与市场调研提供了核心数据支撑。
项目二:票据信息提取 OCR 工具开发
使用 Python+OpenCV+PaddleOCR 开发票据信息自动化提取工具,解决传统人工录入效率低、易出错的问题。首先通过 OpenCV 完成票据图像的预处理(降噪、纠偏、裁剪、二值化),再调用 PaddleOCR 模型实现文字检测与识别,针对票据固定版式设计正则表达式与关键字匹配规则,精准提取发票金额、开票日期、发票号码等核心字段。工具支持批量处理 PDF / 图片格式票据,识别准确率达 90% 以上,输出结构化 Excel 报表,将单张票据处理时间从 3 分钟缩短至 10 秒,已落地应用于企业财务票据审核场景,大幅降低人力成本。