• 一、理论知识(一)加载数据到HBase的三种方法: 通过MR job,使用TableOutputFormat加载到表中。(效率较低)核心的原理还是使用htable的put方法,不过由于使用了mapreduce分布式提交到hbase,速度比单线程效...
  • 原因是spark-sql执行sql有三中模式:ANSI, LEGACY, STRICT。 ANSI模式是标准sql,不允许不合理的类型转换,与PostgreSQL相同。 LEGACY模式允许类型强制转换,只要它是有效的'Cast' 这也是Spar...
  • 原因是linux root执行spark-sql,但是root用户对hdfs文件没有相应权限。解决方法是:在ranger权限管理对HDFS添加root用户
  • 全局参数:1. --master yarn-cluster (or yarn-client) 参数说明:制定yarn的执行模式,分集群模式和客户端模式,一般使用集群模式 2. --num-executors 50 参数说明:  该参数...
  • 执行数据量较大的spark任务时经常会出现MetadataFetchFailedException: org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output...
  • mapreduce运行中发现有任务被kill掉,多半是因为内存分配不足造成,所有需要修改内存配置。 首先在yarn-site.xml中添加下面内容: <property> <name>yarn.nodemanager.re...
  • 出度顶点信息 person:{id:110,name:"张三",age:26} 入度顶点信息 company:{id:1,name:"京东",address:"北京市大兴区科创十一街18号院"} 边信息 works:{110->1} Neb...
  • JanusGraphManagement mgmt = jsGraph.openManagement(); //删除schema,删除边、删除顶点、删除属性 EdgeLabel worksLabel=mgmt.getEdgeLabel("work...
  • JanusGraph通过java访问,如果cassandra和ElasticSearch的组合,需要将这两个组件设置允许外部网络访问。 Maven配置如下: <dependency> <groupId>org.janusg...
  • JanusGraph full包中也包含了ElasticSearch应用,但是ElaticSearch默认只允许本机访问不允许外部访问,如果设置外王访问,需要修改以下配置。 1、在ElasticSearch/config/elastic...