快乐冲浪与生活

多体验、多体会、多体悟

0%

看了那么多天的 Playwright,准备做一个文献信息爬取,设定的需求如下:

  • 爬取 PubMed 上,查询词为 maize(玉米)的 100 篇文献
  • 要求近 5 年内摘要可访问的文献
  • 单篇文献应该具有以下字段:
    • title(标题)
    • authors(作者),以英文逗号和空格间隔
    • journal(期刊)
    • first affiliation(第一单位)
    • abstract(摘要)
    • pmid(PubMed 文献编号)
    • doi(文献数字对象标识)
    • publish date(发表日期)
    • pubmed_url(详情地址)
  • 按 publish date 降序排列

思路

  • 打开列表页,每页 10 个文献,爬取文献的标题和详情页地址(10 次)
  • 遍历获得的 100 个文献及详情页地址
  • 从详情页获取其它信息
  • 全部信息获取完毕后,保存至 CSV 文件

编码

编写用于存储数据的模型和将模式数据写入 CSV 的方法:

插槽(<slot>)是 Vue 组件体系中核心的内容分发机制,其核心作用是允许父组件向子组件传递任意模板片段,子组件可在指定位置渲染这些片段,让组件的结构复用与定制化变得更加灵活。