docs: 📓update readme

main
jackluson 3 years ago
parent 6f71cf9b83
commit 605313df40

@ -65,12 +65,14 @@
1. `selenium` 模拟登录:
- 可采用验证码识别方式
- 设置已经登录好的账号 cookies
2. 利用`BeautifulSoup` 解析 html提取当前页的基金列表信息存入到 mysql 中,或者追加到 csv 中
2. 利用`BeautifulSoup` 解析 html提取当前页的基金列表信息存入到 mysql 中,或者追加到 csv 中 (目前仅 acquire_fund_snapshot.py 支持导出 csv
3. `selenium` 模拟切换分页,重复第二,第三步
4. 所有的页数据爬取完,退出浏览器
## 本地运行
> 本地前置条件: 安装好 chromedriver 驱动, 安装 tesseract 并将 tesseract 加到环境变量下(识别二维码需要,如果是设置 cookies 方式则不需要),如果是需要连接数据库的话,还要配置好表结构
1. 从环境参数模板(.env.example中复制一份文件.env,修改本地环境变量
> `cp .env.example .env`
@ -101,12 +103,16 @@
│   └── tmp.gif
├── fund_info_crawler.py # 封装的爬取class
├── fund_statistic.py # 统计数据
├── db
│ └── connect.py # 连接数据库
├── lib
│   └── mysnowflake.py # 雪花id生成
└── utils.py # 一些工具函数比如登录设置cookies等
```
> tip: 首次执行,现执行 `python ./src/acquire_fund_snapshot`, 列表快照数据是其他数据的来源
## 其他
涉及到一些细节有:

Loading…
Cancel
Save