某网站高度加密混淆的javascript的分析

对某网站加密混淆后的javascript代码也算分析了一段时间了，虽然还没搞出来，但多少有些心得，这里记录一下。

工具和资料

前一篇文章 - 记录了之前尝试的一些初步研究成果
awesome-java-crawler - 我收集的爬虫相关工具和资料
java-curl - java HTTP库，可用来替换chrome网络后端，更方便控制底层行为，如缓存、代理、监控、修改请求和应答等
cdp4j - java版的Chrome Devtools Protocol实现，用于控制Chrome浏览器。最大的特点就是没有“特点”，你懂的……
beautifier.io - js代码在线格式化
estree - ECMAScript抽象语法树(AST)业界标准
ECMAScript262语言规范 - 帮助理解estree
acornjs - ECMAScript编译器前端，将js源码解析成estree格式的AST
astring - ECMAScript代码生成器，将AST重新还原成js源码
nashorn - java8以上自带的javascript解释器，性能接近原生node
java中调用npm模块 - 我的工作语言是java和kotlin，使用此方案调用js原生库
商标局网站分析 - 类似的加密，神箭手云的大佬写的
裁判文书网分析 - 另一篇类似网站分析
很早的一篇分析文 - 看特征是这种加密的早期版本

分析过程

获取javascript代码

加密的核心代码只有一小部分是直接写在网页的<script>里面的，大部分代码是eval出来的，还有部分是jsonp方式异步加载的
可以用cdp4j监听Debugger.ScriptParsed事件，并在监听器中调用Debugger.getScriptSource来获取js代码文本
这样是可以获取到所有前端javascript源码的，即使源码在网络应答中是加密的，但用eval执行前也会还原为合法的js源码
为了方便分析，将代码保存为文件。该网站js会用定时器不断重复eval一段代码，因此可以用ScriptParsed.hash作为文件名，避免重复保存文件
这样搞出来的，用一样的混淆方式加密的js代码共有4段，其中两段特别长是核心代码，还有两段应该是编解码算法，一共加起来约5000行

获取常量映射

拿到js之后，格式化一下，发现还是一团乱麻，所有的变量，函数都是"_$xx"，可读性等于0
在Chrome控制台里试了一下，发现全局变量和函数都保存在window中了
- 一部分无参的函数调用，其实返回的就是常量字符串
- 还有一些_$xx.call的，看了一下，其实就是系统方法，比如String.fromCharCode，Array.prototype.slice等

因此可以编写一段控制台脚本，遍历window对象中所有形似_$xx的成员，判断其类型和函数执行结果。这样即可将常量字符串映射、系统方法映射等搞出来。在控制台执行下面这段代码就可以把字符串映射表弄到。

(function () {
      for (var p in window) {
          if (p.substr(0, 2) !== "_$") continue;
          if (typeof window[p] !== "function" || window[p].name !== "") continue;
          try {
              var s = window[p]();
              console.log(p + "=" + s)
          } catch (e) {}
      }
  })()

可读性还原

拿到映射关系之后是不是简单用正则表达式替换回去就万事大吉了呢？哪有那么简单！函数的局部变量、局部函数有很大可能性和全局变量重名，如果用正则无脑替换回去绝对会被坑死！！要是代码少倒也罢了，这里可有5000行代码，差之毫厘谬以千里！
另外，不同函数的局部变量也存在大量重名，静态分析时干扰严重。因此，应该将局部变量也替换成唯一且更有意义的名字，比如<函数名>_<变量索引>
因此，正确的方法是基于编译原理进行语法级别的替换。看到这里是不是要弃疗了？老子爬点数据还要写编译器？！
还好，js上已经有很成熟的业界标准和若干老练的第三方库了，至少不用从龙书搞起……
我这里选择了acornjs和astring，前者用于将js源码解析成抽象语法树AST，后者将AST还原成js源码。当然，有了AST就可以上下其手了……
为了在java代码中运行acornjs和astring，请参见参考中《java中调用npm模块》一文。注意astring还依赖endswith和repeat两个polyfill，均可以npm下载到
简单描述一下AST变换算法。用acorn.parse()搞到AST之后，递归扫描每个节点：
- 进入每个FunctionDeclaration/FunctionExpression节点前，创建一个新的作用域对象放到栈顶，里面放该域内所有局部变量（含函数参数）和新名称的映射表；退出时将栈顶弹出
- 遇到Identifier节点，首先在作用域栈中自顶向下依次寻找当前变量名，找到了，则是本方法局部变量或闭包外局部变量，用新名字替换之；否则，则是全局变量，去映射表中查找替换之
- 注意，遇到CallExpression须特殊处理，前面的AST变换只涉及修改标识符名，而为了将_$xx()变换为"xxx"，则涉及到结构变换，要把CallExpression节点修改为Literal节点并添加value属性
全部处理完成后，就可以用astring.generate()产生还原后的代码了
可读性恢复前后的代码可以看看下面的对比：

处理前：一团乱麻，完全不知所云

处理后：虽然还很费劲，起码看得出来这是在挂各种事件监听器。另外，看看人家监听多少种事件啊……

代码分析

上面步骤完成后，这代码至少勉强能看了，别放松，后面还有无数的坑……
还原前的代码只能是让人一脸懵逼，还原后的代码则足以让人咬牙切齿啊，多大仇啊，满满登登5000行全是正面硬怼的……
这里记录一部分已经发现的反破解手法吧。

不断主动中断干扰调试，并检测是否有动态分析行为

var eI_v1 = window["eval"]("(function() {var a = new Date(); debugger; return new Date() - a > 100;}())");
    _$n1 = _$n1 || eI_v1;
    //这个在上篇文章分析了，在这找到调用来源了。注意，在可读性还原之前这货长这样：
    var _$pW = _$u9[_$mz()](_$oi());
    _$n1 = _$n1 || _$pW;

js代码动态混淆

上一篇文章已经说过了，每次刷新js代码都会完全变化，包括全局/局部变量名、函数排列顺序等
设断点会被干扰，且代码无法重复执行对于调试意味着什么？

检查关键函数是否被注入替换

function __RW_checkNative(rh_p0, rh_p1) { // 函数名我手动改的
      try {
        var rh_v2 = Function["prototype"]["toString"]["apply"](rh_p0);
        var rh_v3 = new RegExp("{\\s*\\[native code\\]\\s*}");
        if (typeof rh_p0 !== "function" || !rh_v3["test"](rh_v2) || rh_p1 != undefined && rh_p0 !== rh_p1) __GL_undefined_$sy = true;
      } catch (_$r0) {}
    }

会用这个函数检测eval, Function, setTimeout, setInterval几个系统函数是不是被注入了
知道这块逻辑，就可以用一些手段骗过去，不知道的话……

检测当前窗口是否隐藏状态

document["addEventListener"]("visibilitychange", _$r0);

会监控当前窗口是否在最上方，如果多开浏览器并行爬取……

检测Selenium, WebDriver, PhantomJS等

var rm_v5 = "_Selenium_IDE_Recorder,_selenium,callSelenium"
        , rm_v6 = "__driver_evaluate,__webdriver_evaluate,__selenium_evaluate,__fxdriver_evaluate,__driver_unwrapped,__webdriver_unwrapped,__selenium_unwrapped,__fxdriver_unwrapped,__webdriver_script_func,__webdriver_script_fn"
        , rm_v7 = ["selenium", "webdriver", "driver"];
        if (_$un(window, "callPhantom,_phantom")) { ... }

看到这里想必就知道会发生些什么了……

Hook住AJAX

var ec_v4 = window["XMLHttpRequest"];
  if (ec_v4) {
    var ec_v5 = ec_v4["prototype"];
    if (ec_v5) {
      __GL_f_open = ec_v5["open"];
      __GL_f_send = ec_v5["send"];
      ec_v5["open"] = function () {
        _$t5();
        arguments[1] = _$pK(arguments[1]);
        return __GL_f_open["apply"](this, arguments);
      };
    } else { ... }
  }

会自动在ajax请求后添加一个加密参数MmEwMD，参数值中可能包括鼠标轨迹等信息

检查navigator是否是伪造的

var hi_v14 = window["navigator"];
  for (hi_v11 in hi_v14) {
    try {
      hi_v13 = hi_v14["hasOwnProperty"](hi_v11);
    } catch (_$r0) {
      hi_v13 = false;
    }
  }

如果你注入的navigator对象是用{...}创建的水货版本，那就露馅了……

检查浏览器特征

这块代码很长很复杂，还没分析完，现在能看出来的包括：
navigator.languages - 在headless chrome中是没有这个字段的
navigator.plugins - 无头和有头的chrome返回的插件列表不一样

WebGL能力检查

有一大段代码是在canvas上用webgl绘图，没搞过webgl，现在还不明白，但肯定也是检查浏览器特征手段之一