php数据采集

爬虫主要功能:
1.html文档解析
2.文件加载存储(图片、zip等各种文件)
3.模拟网站各种请求,获取返回数据,解析,并存入数据库
4.自动迭代寻找数据

解析xml或html主要方式
正则表达式
PHP DOMDocument
插件: PHP Simple HTML DOM Parser