关键词:Selenium、Appium、Scrapy、XPath、JsonPath、Dagster、正则表达式、Deepseek、PaddleOCR、PaddleClas、启发式算法
项目角色:本人负责全部设计、开发工作
详细功能:
1、通过基于Selenium和Appium的Automata模拟浏览,从各大购物网站爬取商品HTML页面。
2、使用基于XPath和JsonPath的T2R框架从HTML页面中提取数据。
3、利用正则表达式(Regex)、大语言模型(LLM)、机器视觉(CV)清洗和提炼数据。
4、采用Sqlalchemy作为ORM框架,将清洗后的数据写入数据库。
5、基于Odoo ERP维护SPU、SKU信息,实现采购指数、销售指数等计算。
6、使用采集到ERP中的数据训练CV模型,使模型性能持续提高。