sticks00 2014-01-10
网上相关信息很多很多,到底notin与notexists谁的效率高,说实话,我也不知道!
selectcount(1)fromba_ry_jbxxawherenotexists(selectb.gmsfzhfromba_ry_zgksshbwherea.gmsfzh=b.gmsfzh);
selectcount(1)fromba_ry_jbxxawherea.gmsfzhnotin(selectb.gmsfzhfromba_ry_zgksshb);
以下针对这两条语句分析:
说到比较,首先得有共同点才会去比较,共同点就是:都可以查询a表中的gmsfzh字段的值不在b表中的gmsfzh字段里的记录数。
前提条件是首先得保证这两个语句查询的数据的正确性,才可以进行效率的比较。
(1)当b表中的gmsfzh字段有空值时,用notin查询结果为0.所以这两个语句比较效率就没有任何意义了!就直接用notexists!
(2)当a表中的gmsfzh字段有空值时,查询结果固然也不一样,用notexists查询的记录数会大于用notin的记录数,因为notexists把空值也
作为查询结果了,而notin不把空值作为结果。
(
至于为什么,我的理解是:因为notexists会关联a.gmsfzh=b.gmsfzh一下,除了关联上的数据其他的在a表中剩下的记录都认为不在b表中,因为空值肯定是关联不上的,
所以就认为空值不在b表中。
而为什么用notin时,a表中的空值就不算在查询结果内呢!因为oracle就这么规定的)
所以当a表中的gmsfzh字段有空值时,因为查询结果都不一样,你觉得哪个查询结果是正确的,固然就用哪个!
如果排除两个表的空值的问题,或者说a表中的空值并不影响查询结果的正确性时,接下来可以考虑notin和notexists的执行效率问题了:
数据量情况:a表100条记录,b表70000条记录,执行以下两语句:
selectcount(1)fromba_ry_jbxxawherenotexists(selectb.gmsfzhfromba_ry_zgksshbwherea.gmsfzh=b.gmsfzh);
selectcount(1)fromba_ry_jbxxawherea.gmsfzhnotin(selectb.gmsfzhfromba_ry_zgksshb);
当两个表都为gmsfzh字段建了索引的情况下
实测结果如下:
用notexists,耗时0.015秒。
用notin,耗时50.641秒。
这差距还真有点大。。。
毫无疑问,用notexists走索引了,而notin并不走索引。
当删除两个表的索引之后:
实测结果如下:
用notexists,耗时50秒。
用notin,耗时50.875秒,此时notexists和notin几乎差不多。
数据量不变,反过来测试:
selectcount(1)fromba_ry_zgksshbwherenotexists(selecta.gmsfzhfromba_ry_jbxxawhereb.gmsfzh=a.gmsfzh);
selectcount(1)fromba_ry_zgksshbwhereb.gmsfzhnotin(selecta.gmsfzhfromba_ry_jbxxa);
无索引:
用notin,耗时3.703秒.
用notexists,耗时3.641秒。(此时至少说明,无索引的情况下,b表数据量远远大于a表时,notin与notexists效率差不多)
建完索引后:
用notin,耗时3.937秒.
用notexists,耗时0.813秒。
以上数据测试可见,索引的重要性。
我总觉得,notin既然存在,肯定有他存在的道理。
测试这么多,至少证明,有索引的情况下,多数时候notexists完虐notin的执行效率。
现在我纠结的问题就是,到底什么情况下notin效率要高于notexists?还请高人留言指点一下。
另外一部分,则需要先做聚类、分类处理,将聚合出的分类结果存入ES集群的聚类索引中。数据处理层的聚合结果存入ES中的指定索引,同时将每个聚合主题相关的数据存入每个document下面的某个field下。