shilongdred 2020-04-22
前言:本来是不想重复造车轮的,网上资料有开源的fofa,和一些设计。有的架设太复杂了,好用东西不会用,整个毛线。还有的没有完整代码。
设计方案:
测试平台:windows
测试环境:php+mysql 任意编程语言后端(实现数据录入)
mysql 表段:host ip header title body time
正如别人说的呢样,一个正则就抓出来了。
抓取友链:正则 [a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?
判断是否是域名 所有域名 在判断一下是否是ip就ok了
|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cf|cg|ch|ci|ck|cl|cm|cn|co|cq|cr|cu|cv|cx|cy|cz|de|dj|dk|dm|do|dz|ec|ee|eg|eh|es|et|ev|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gh|gi|gl|gm|gn|gp|gr|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|in|io|iq|ir|is|it|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|ml|mm|mn|mo|mp|mq|mr|ms|mt|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nt|nu|nz|om|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|pt|pw|py|qa|re|ro|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|sk|sl|sm|sn|so|sr|st|su|sy|sz|tc|td|tf|tg|th|tj|tk|tm|tn|to|tp|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|va|vc|ve|vg|vn|vu|wf|ws|ye|yu|za|zm|zr|zw|com|net|org|int|edu|gov|mil|arpa|Asia|biz|info|name|pro|coop|aero|museum|cc|tv
数据录入:很简单,就不详细说了。
其他细节:在数据录入的过程中,大量的垃圾域名,二级/三级的泛解析域名
判断方法 分割 “.” 从末尾倒序一个一个检测是否是域名,判断留下来的域名是什么,轻松杀掉。当然这种方法可能会导致一些域名不录入。
如何索取就看你的想法了
php后段实现在线查询,推荐百度知道的大神,几分钟就解决了。
占用空间:网站信息,2万6千条,都967.50 MB 理论上500gb 硬盘 能存储1300W网站信息
仅供参考,因为网页大小都是不一样的。
用masscan 普通民用.24小时也可以扫描3亿多ip