2019年10月10日

摘要:随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而这些数据恰好可以作为分析关系的有效原料。如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。在一项任务中,只要有关系分析的需求,知识图谱就“有 阅读全文
posted @ 2019-10-10 14:17 XIAO的博客 阅读 (211) 评论 (0) 编辑

2019年10月9日

摘要:首先我们来看一个典型的互联网大数据平台的架构,如下图所示: 在这张架构图中,大数据平台里面向用户的在线业务处理组件用褐色标示出来,这部分是属于互联网在线应用的部分,其他蓝色的部分属于大数据相关组件,使用开源大数据产品或者自己开发相关大数据组件。 你可以看到,大数据平台由上到下,可分为三个部分:数据采 阅读全文
posted @ 2019-10-09 16:22 XIAO的博客 阅读 (246) 评论 (0) 编辑

2019年9月30日

摘要:今天我们来看一下淘宝、美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的架构,另一方面也学习大厂的工程师如何画架构图。通过大厂的这些架构图,你就会发现,不但这些知名大厂的大数据平台设计方案大同小异,架构图的画法也有套路可以寻觅。 淘宝大数据平台 淘宝可能是中国互联网业界较早搭建了自己大数据平台 阅读全文
posted @ 2019-09-30 11:51 XIAO的博客 阅读 (1097) 评论 (1) 编辑
摘要:前面的文章中我们讲道,像趣头条类的APP对于收徒和阅读行为给予用户现金奖励的方式势必会受到大量羊毛党黑产的注意,其实单个用户能薅到的钱是没有多少的,为了达到利益最大化,黑产肯定会利用各种手段构建大量账号来薅APP运营企业的羊毛,因为收徒的奖励远高于阅读,所以赚取收徒奖励就成了最严重的薅羊毛手段。前文 阅读全文
posted @ 2019-09-30 10:12 XIAO的博客 阅读 (199) 评论 (0) 编辑

2019年9月27日

摘要:Driver spark.driver.cores driver端分配的核数,默认为1,thriftserver是启动thriftserver服务的机器,资源充足的话可以尽量给多。 spark.driver.memory driver端分配的内存数,默认为1g,同上。 spark.driver.ma 阅读全文
posted @ 2019-09-27 13:08 XIAO的博客 阅读 (50) 评论 (0) 编辑

2019年9月20日

摘要:Spark 编程读取hive,hbase, 文本等外部数据生成dataframe后,一般我们都会map遍历get数据的每个字段,此时如果原始数据为null时,如果不进行判断直接转化为string,就会报空指针异常 java.lang.NullPointerException 示例代码如下: shel 阅读全文
posted @ 2019-09-20 18:38 XIAO的博客 阅读 (40) 评论 (0) 编辑

2019年7月31日

摘要:上一篇文章 "知识图谱在大数据中的应用" 我们介绍了知识图谱的一些概念和应用场景,今天我们就来看一个具体的应用案例了解下知识图谱的应用。用户增长对于一个APP的生存起到了至关重要的作用,没有持续的用户增长,再好的APP也不会走的长远,为了获得更多的用户,APP运营商往往会鼓励老用户拉新并给与奖励,比 阅读全文
posted @ 2019-07-31 10:49 XIAO的博客 阅读 (358) 评论 (0) 编辑

2019年7月29日

摘要:随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而这些数据恰好可以作为分析关系的有效原料。如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。在一项任务中,只要有关系分析的需求,知识图谱就“有 阅读全文
posted @ 2019-07-29 10:50 XIAO的博客 阅读 (596) 评论 (1) 编辑

2019年7月22日

摘要:随着业务的发展、微服务架构的升级,服务的数量、程序的配置日益增多(各种微服务、各种服务器地址、各种参数),传统的配置文件方式和数据库的方式已无法满足开发人员对配置管理的要求: 安全性:配置跟随源代码保存在代码库中,容易造成配置泄漏。 时效性:修改配置,需要重启服务才能生效。 局限性:无法支持动态调整 阅读全文
posted @ 2019-07-22 10:19 XIAO的博客 阅读 (542) 评论 (0) 编辑

2019年7月15日

摘要:有时我们需要批量删除一些hbase中符合某些条件的数据,本文提供一种简单的shell命令的方式批量删除hbase里的数据。思路就是,建立hive与hbase的关联表,通过hive sql查询出符合条件的数据rowkey导出到本地文件,然后通过hbase shell批量删除。示例如下: 1 创建hba 阅读全文
posted @ 2019-07-15 14:26 XIAO的博客 阅读 (195) 评论 (0) 编辑

导航

统计