使用pymongo解析文本格式日志后放入mongo

思路

拿到的文本是二进制的，在查看文件的时候可以加上-rb以二进制读的形式打开。

文件格式如下：

b’2019-03-29 10:55:00\t0\192.168.31.123:8080\t5\t12345678\t0\t44560\t953864\t2\t192.168.31.123\tmd5\n’

可以看到日志里面的分隔符是制表符t，行末尾有换行符n

处理日志文件的基本逻辑

链接数据库
逐行读txt
将一行的数据分割为数组
将数据放入list
将list逐条转化为json
存入数据库

分片集群的mongo链接

用于存储日志的mongo集群有三个分片：flux-stat-1.mongo:27017,flux-stat-2.mongo:27017和flux-stat-3.mongo:27017.

假设用户名是flux-stat，密码是flux-stat-mongo123，登录方法：

from pymongo import MongoClient
import urllib.parse
#创建MongoDB链接对象
username = urllib.parse.quote_plus(‘flux-stat’)
password = urllib.parse.quote_plus(‘flux-stat-mongo123’)
uri = 'mongodb://%s:%[email protected]:27017, flux-stat-2.mongo:27017, flux-stat-3.mongo:27017/admin' % (username,password)
client = MongoClient(uri)

注意：username和password必须要进行转换，否则链接不正确

pymongo逐行读取日志文本

with open(“d:/user/ServerLog/test.txt”,’rb’) as file:
    for line in file:
        #这里放操作
file.close()

分割日志内容转化为json，并把每行json放到数组中

#引入json模块
import json
total=[]
logList = line.split(‘\t’)    #line分割为list
keyList = [‘time’,’status’,’ip’,’type’,’userid’,’v1’,’v2’,’v3’,’v4’,’ip’,’md5’]    #key的list
logDict = dict(zip(keyList, logList))    #把二者以字典的方式拼起来
logJson = json.dumps(logDict)    #把字典转换为string形式的json
#json转字典的方法为dictinfo = json.loads(json_str)
total.append(logJson)

日志存入mongo

insert_one和insert_many是两种插入的方式，但是采用insert_one进行逐条插入会进行大量的访问，大幅降低插入效率，采用insert_many进行json为基本单位的list批量插入，效率明显提高。

db = client['log']             #获取数据库
coll = db[‘data’]              #获取表
coll.insert_many(total)        #插入到数据库

使用pymongo解析文本格式日志后放入mongo

思路

分片集群的mongo链接

pymongo逐行读取日志文本

分割日志内容转化为json，并把每行json放到数组中

日志存入mongo

banana000

相关推荐

在PyCharm中安装Mongo Plugin的详细教程

linux mongo数据丢失排查

Python与mongo交互

应用安全 - 数据库 | 工具 - mongo数据库 - mongo-express - 漏洞 - 汇总

Shell中Bash的基本功能(二)

使用docker部署influxdb与 mongo的常用命令

mongo EOF（二）

使用docker部署influxdb与 mongo的常用命令

php-fpm重启导致的程序执行中断问题详解

Centos 安装mongod

mongo 启动方式

使用Docker部署Nginx+Flask+Mongo的应用

spring mongo 注解

mongo连接分析

Morphia整合spring

使用mongo shell远程连接数据库

2017年终总结

Docker Mongo 设置主从备份

mongo中模糊查询的综合应用

「全栈初探」- Mongoose的简单使用

Linux Shell脚本多线程

Python3安装Pymongo详细步骤

Linux中打印函数堆栈

Redhat Linux 下 fluentd+fluentd 实现桥接

PyCharm配置mongo插件的方法

8种极品程序员，你属于哪一种？

各式各样的极品程序员，你属于哪一种

全 Javascript 的 Web 开发架构：MEAN

Mongo复制集同步验证的实例详解

为什么要选择Mongo DB

mongo 3.4分片集群系列之八：分片管理

记一次队列积压问题的分析、解决