入库类型 *
{{ typeLabels[typeIndex] }}
爬虫地址(选填)
{{ addressLabels[addressIndex] }}
目标地址 *
正在识别采集源…
已识别:{{ resolvedName }}{{ resolvedAdapter ? `(${formatAdapterLabel(resolvedAdapter)})` : '' }}
{{ selectedAddressHint }}
搜索关键词(选填)
抓取页数
arXiv 按提交时间倒序,每页约 50 条;增大页数可抓取更早论文
已入库论文自动跳过,不计入条数上限
虎嗅、投资界、清科等列表页建议 3~5 页;正文将自动补全入库
交大 AI 研究院研究中心为 API 一次性拉取,无需分页
多页列表(如 Sudy CMS、博山 CMS、交大 tsites)请适当增大页数
大批量抓取时仅部分老师会访问主页补邮箱,避免请求超时
条数上限
论文最多 200 条
师资列表最多 500 条
将抓取各研究中心「研究团队」成员,含邮箱、电话、研究方向
资讯最多 50 条;同 URL 已入库将跳过(不重写正文,空正文需先删旧记录再重抓)
来源将使用爬虫地址名称(如交大要闻),不会填「通用资讯 HTML」
抓取结果
状态:{{ lastResult.status === 'completed' ? '已完成' : lastResult.status }}
采集源:{{ lastResult.source_name }}
适配器:{{ formatAdapterLabel(lastResult.adapter_code) }}
{{ lastResult.result_summary }}
已入库 {{ lastResult.items_imported ?? 0 }} 条
跳过 {{ lastResult.teacher_duplicates_skipped }} 位:老师库中已有相同邮箱,或同校同院系同名老师
共抓取 {{ lastResult.items_fetched }} 条