modified | Friday 1 November 2024 |
---|
搜索系统
⁃ 网页界面
⁃ 命令行界面
⁃ 编程接口
⁃ 嵌入系统 用于嵌入网页,或与其他服务集成
索引系统
⁃ 域名索引系统 仅限有效域名 索引域名
⁃ 内容页发现索引系统 对文章内容索引。提交到webarchive。
⁃ 内容页刷新索引系统 更新文章内容与索引 标记失效内容 删除完全无法访问的内容及完全变更的内容
爬虫系统
⁃ 主域名发现系统
⁃ 子域名发现系统
⁃ 正常域名刷新系统
⁃ 异常域名刷新系统
⁃ 主入口页面刷新系统
⁃ 次入口页面刷新系统
⁃ 内容页面刷新系统
⁃ 内容页面发现系统
爬取结果存储
⁃ 网址映射表
⁃ 规范结果
⁃ 错误结果
⁃ 网址规范化
⁃ 200网页存储
⁃ 404,403,400,410网页存储
⁃ 500,502,503网页存储
⁃ 301,302,307,308网页存储
⁃ 其他错误网页存储
爬取任务存储(发现)
⁃ 每小时爬取 200索引,其他错误不动,即不索引
⁃ 每日爬取 200索引,其他错误不动,即不索引
⁃ 每周爬取200索引,其他错误不动,即不索引
⁃ 每月爬取200索引,其他错误不动,即不索引
爬取任务存储(刷新)
⁃ 每周刷新 200重新索引 301,302,307,308以新地址索引,400,404,410删除,其他错误不动
⁃ 每月刷新 200重新索引 301,302,307,308以新地址索引,400,404,410删除,其他错误不动
页面索引
⁃ id
⁃ 目标url
⁃ 标题
⁃ 描述
页面内容
⁃ id
⁃ 目标url
⁃ 内容html
页面主要内容
⁃ id
⁃ 目标url
⁃ 内容html
⁃ 内容文本
域名索引
⁃ 域名
⁃ 状态
⁃ 目标网址
搜索结果页面
⁃ 标题
⁃ 描述
⁃ 标识网址
⁃ 访问网址
⁃ 域名
⁃ 可注册域名
⁃ 附加服务
名单
⁃ 域名后缀黑名单
⁃ 域名及对应的路径黑名单
⁃ 全局域名匹配黑名单
⁃ 全局域名匹配白名单
⁃ 全局路径匹配黑名单
⁃ 全局路径匹配白名单
网址状态
⁃ 原始网址 目标网址 是否允许抓取
内容抓取 存于缓存中。之后的索引从这里建立。
⁃ 内容网址 返回头 返回html
内容索引 发现和刷新时,符合索引条件则加入索引,或删除索引。
⁃ 内容网址 原始头
⁃ 内容网址 原始html
⁃ 内容网址 解析html
⁃ 内容网址 解析text
⁃ 内容网址 结构化信息 包括标题 标识网址 跳转网址 描述
⁃ 内容网址 内容网址 内容标题 内容text 存于Sonic中