5 天学习 Playwright(Day4):文献信息爬取
看了那么多天的 Playwright,准备做一个文献信息爬取,设定的需求如下:
- 爬取 PubMed 上,查询词为 maize(玉米)的 100 篇文献
- 要求近 5 年内、摘要可访问的文献
- 单篇文献应该具有以下字段:
- title(标题)
- authors(作者),以英文逗号和空格间隔
- journal(期刊)
- first affiliation(第一单位)
- abstract(摘要)
- pmid(PubMed 文献编号)
- doi(文献数字对象标识)
- publish date(发表日期)
- pubmed_url(详情地址)
- 按 publish date 降序排列
思路
- 打开列表页,每页 10 个文献,爬取文献的标题和详情页地址(10 次)
- 遍历获得的 100 个文献及详情页地址
- 从详情页获取其它信息
- 全部信息获取完毕后,保存至 CSV 文件
编码
编写用于存储数据的模型和将模式数据写入 CSV 的方法:

