在Hive中,须要实现Hive中的函数无法实现的功能时,就能够用Streaming来实现. 其原理能够理解成:用HQL语句之外的语言,如Python.Shell来实现这些功能,同一时候配合HQL语句,以实现特殊的功能. 比方,我有一张不同站点訪问的日志表,当中有两个列是url和ref.分别代表当前訪问的网址和来源地址,我想要查看用户的来源.即看用户都是从那些站点跳到这些站点上去的.这里有些站点可能域名是二级甚至三级域名,可是这些实际上是属于其顶级域名的. 所以要找出其顶级域名. 这个在Hive的