我具备扎实的Python编程能力,能够熟练运用Scrapy、Selenium等主流爬虫框架,针对不同类型的网站(包括静态和动态页面)设计高效、稳定的数据抓取方案。熟悉多线程、线程池等并发编程技术,能够有效提升爬虫的抓取效率和数据处理能力。曾个人参与漫画网站、小红书、美团、抖音等平台的数据采集,积累了丰富的反爬机制应对和数据清洗经验,目前开源在Github上。具备良好的代码规范意识,熟练使用Git进行版本管理,并能将项目开源至GitHub,便于团队协作和技术交流。在北京行动元公司实习期间,负责公司产品数据的自动化采集与分析,能够根据业务需求快速定制爬虫解决方案,为企业决策提供有力的数据支持。具备较强的沟通能力和团队协作精神,能够为客户提供专业的技术咨询与实施服务。
此外,我还具备C++编程能力,对计算机图形学有深入理解,熟悉OpenGL渲染管线,能够进行基本的三维图形开发。对Unity和Unreal Engine(UE)等主流游戏引擎有一定了解,能够协助进行简单的游戏开发和可视化项目。
1.大世界场景下大气和体积云的实时渲染
项目简介:主要在大世界场景下实现体积云建模、体积云渲染和大气渲染,光照与云层进行动态交互,满足基本实时渲染的需求。体积云建模采用 Perlin-Worley 噪声生成真实云层形态与细节,并结合密度-高度函数控制云的密度与生成类型;体积云渲染采用比尔定律、相位函数和光线步进模拟云层的密度和光照;大气渲染采用单次散射物理模型,结合瑞利散射和米氏散射实现大气的光照模拟。
负责工作:阅读有关领域中英文文献;使用 Unity 的 URP 管线建立地球模型,在大气层表面和地面天空分别模拟大气和体积云。
2 大规模点云场景转换
项目简介:将超过亿万的点云场景数据转换成最精细细节层次的 2D 图片,采用正交投影45°方式对点云数据进行投影,转换的图片场景交界完全平滑并将其封装成自动化程序。负责工作:使用 C++的PCL 库进行数据解析,设计分块载入算法优化点云载入与转换时间,用户可自行控制图片分辨率大小。
3 移动端天气模拟
项目简介:分别在 PC 端和安卓移动端,对飘雪和动态云效进行渲染。雪的模拟分别进行远、近两种层次的渲染;使用流体动力解算动态体积云,采用六面光照进行渲染和预计算,并采用 Billboard技术对前后云层进行混合。
负责工作:在 PC 端使用 OpenGL 对飘雪和动态云效进行模拟,将渲染效果移植基于 OpenGLES 和Android Studio 的安卓端移动平台,并在实体机上进行帧率和功耗测试。
4.北京行动元爬虫实习
工作简介:负责官网电机及电子元器件的爬虫数据采集,成功实现对多种类型数据的抓取,包括动态和静态页面。面对国内外不同官网的数据表格提取方式,深入研究并解决了数据结构差异带来的挑战。在多线程限制的情况下,采用普通的HTTP请求方式,手动编写了一个高效的爬虫模板,确保了数据的准确性和完整性。通过优化请求策略和数据解析流程,显著提高了数据采集的效率和稳定性,为后续的数据分析和决策提供了重要支持。
5.漫画、小红书、抖音、美团评论爬取
工作简介:针对漫画、小红书、抖音和美团等平台的反爬虫技术,制定并实施了多种策略以提高数据采集的成功率。采用线程池和多线程爬取技术,结合Selenium实现动态页面的数据抓取,有效提升了爬取速度和效率。在项目中,成功应对了各平台的反爬措施,确保数据的准确性和完整性。目前,该项目已开源并发布在GitHub上,供开发者参考和使用。
角色 | 职位 |
负责人 | 计算机研究生 |
队员 | UI设计师 |
队员 | iOS工程师 |
队员 | 安卓工程师 |
队员 | 前端工程师 |
队员 | 后端工程师 |
小红书、抖音和美团等平台的反爬虫技术,制定并实施了多种策略以提高数据采集的成功率。采用线程池和多线程爬取技术,结合Selenium实现动态页面的数据抓取,有效提升了爬取速度和效率。在项目中,成功应对了各平台的反爬措施,确保数据的准确性和完整性。目前,该项目已开源并发布在GitHu
利用Python异步协程技术,成功实现了对《斗破苍穹》漫画(截至第410话)及新版《镇魂街》的数据爬取。项目中采用了异步请求和异步持久化存储(包括异步文件存储),有效提升了爬取效率和数据处理速度。实现了基本的图片存储功能,确保了漫画资源的完整性和可访问性。虽然探索了结合线程池与异
D2SE-CNN: An improved SAR Image Despeckling Network Created by ZHANG Yiming,ZHAO Shengfu,ZHENG Xing and WANG Yibo. Synthetic Aperture Rada