Python脚本实现PDF IOC提取自动化
本脚本基于 PDFMiner,可以从PDF文件中解压缩流,然后查看流内的脚本,并提取各类IOC(Indicators of Compromise)信息,例如 IP、哈希、URL 和 主机名。
步骤概述:
-
安装依赖:
-
通过 pip 安装
dnspython
依赖:```python
pip install dnspython
```
-
使用 PDFMiner 解压缩流并处理 PDF 内容。
-
配置 TLD 列表:
-
使用
uniaccept
库,刷新最新的 TLD 列表以确保对各类 URL 的高精度提取:```python
import uniaccept
uniaccept.refreshtlddb(\"/tmp/tld-list.txt\")
```
-
注意:可以更改
tld-list.txt
文件的位置,确保scrape-pdf.py
在当前工作目录 (CWD) 中找到它。
提示:脚本运行前,请确保依赖安装完成,且 TLD 列表路径正确配置。
用户评论