工具-办公软件 き雾慢了风景が
1. 网页抓取与解析 :
* 编写简单爬虫模块,抓取指定种子URL列表下的有限网页 (例如:10-50个)。
* 使用 `BeautifulSoup` 解析HTML,提取页面标题 `<title>`、正文主要内容 (去除标签) 和原始URL。
* *(可选:处理相对URL转绝对URL)*
2. 建立倒排索引 :
* 对抓取的网页正文内容进行**分词** (使用简单空格分割或基础中文分词库如 `jieba`)。
* 创建数据库表存储:
* `网页表 (pages)`:存储 `id, ...