Tatsumaki的案例列表

生产级高性能 URL 元数据爬虫系统

工具-云盘|下载 Tatsumaki

本作品是一个面向大规模网页元数据提取的生产级命令行工具,完全使用 C++17 标准开发,并依托 libcurl 的成熟网络库实现高鲁棒性处理。该项目专为处理千万级URL列表而生,致力于在海量任务中实现高效、稳定的网页标题(Title)、描述(Description)、规范链接(Canonical URL)及搜索引擎抓取指令(Robots)的自动化提取。 核心功能与技术亮点: 1. 高性能并发架构:实现了固定大小的 Worker 线程池模型,配合基于令牌桶思想的自定义主机并发限流器,能在确保高吞吐的同时,严格遵守对单域名的并发限制,避免触发反爬策略。 2. 断点续传与数据完整性:独...

生产级高性能 URL 元数据爬虫系统
生产级高性能 URL 元数据爬虫系统
生产级高性能 URL 元数据爬虫系统

异步分布式智能网页采集器

企业服务-数据服务 Tatsumaki

本作品是一个生产级、高度可配置的异步网络爬虫系统,完全由 Python 实现,核心基于 httpx + BeautifulSoup + Playwright,并原生支持单机 SQLite 与多节点 Redis 两种前沿协调模式。项目尊重 robots.txt,内置私有网络保护、陷阱检测、重试退避、域名级限流等机制,能够以礼貌且合规的方式采集公开网页。 主要功能与技术特点 · 双前端协调器:SQLiteFrontierCoordinator 适合单机长时间运行;RedisFrontierCoordinator 通过 Lua 脚本实现原子队列、全局去重、租约过期与失败重试,支持多节点分...

异步分布式智能网页采集器
异步分布式智能网页采集器
异步分布式智能网页采集器
------ 加载完毕 ------
联系需求方端客服