IT开发屋

HBase批量入库/导入

一、理论知识（一）加载数据到HBase的三种方法：通过MR job，使用TableOutputFormat加载到表中。（效率较低）核心的原理还是使用htable的put方法，不过由于使用了mapreduce分布式提交到hbase，速度比单线程效...
- 求知探索
- 大数据
- 1年前
- 1444
- 0
Spark-sql执行sql语句报：Cannot safely cast xxx string to int.

原因是spark-sql执行sql有三中模式：ANSI, LEGACY, STRICT。 ANSI模式是标准sql,不允许不合理的类型转换，与PostgreSQL相同。 LEGACY模式允许类型强制转换，只要它是有效的'Cast' 这也是Spar...
- 求知探索
- 大数据
- 1年前
- 4636
- 0
Cannot create staging Directory，spark-sql执行sql语句权限问题

原因是linux root执行spark-sql,但是root用户对hdfs文件没有相应权限。解决方法是：在ranger权限管理对HDFS添加root用户
- 求知探索
- 大数据
- 1年前
- 1502
- 0
sparksql调优参数

全局参数：1. --master yarn-cluster (or yarn-client) 参数说明：制定yarn的执行模式，分集群模式和客户端模式，一般使用集群模式 2. --num-executors 50 参数说明：　　该参数...
- 求知探索
- 大数据
- 1年前
- 1379
- 0
Spark常见异常:Missing an output location for shuffle

执行数据量较大的spark任务时经常会出现MetadataFetchFailedException: org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output...
- 求知探索
- 大数据
- 1年前
- 1758
- 0
Container killed on request. Exit code is 143

mapreduce运行中发现有任务被kill掉，多半是因为内存分配不足造成，所有需要修改内存配置。首先在yarn-site.xml中添加下面内容： <property> <name>yarn.nodemanager.re...
- 求知探索
- 大数据
- 1年前
- 1333
- 0
NebulaGraph查询出度顶点和入度顶点方法

出度顶点信息 person:{id:110,name:"张三",age:26} 入度顶点信息 company:{id:1,name:"京东",address:"北京市大兴区科创十一街18号院"｝边信息 works:{110->1} Neb...
- 求知探索
- 数据库
- 1年前
- 1449
- 0
JanusGraph删除shema操作Java api

JanusGraphManagement mgmt = jsGraph.openManagement(); //删除schema,删除边、删除顶点、删除属性 EdgeLabel worksLabel=mgmt.getEdgeLabel("work...
- 求知探索
- 数据库
- 1年前
- 1827
- 0
JanusGraph java连接访问

JanusGraph通过java访问，如果cassandra和ElasticSearch的组合，需要将这两个组件设置允许外部网络访问。 Maven配置如下： <dependency> <groupId>org.janusg...
- 求知探索
- 数据库
- 1年前
- 1525
- 0
JanusGraph ElasticSearch允许外网访问的配置

JanusGraph full包中也包含了ElasticSearch应用，但是ElaticSearch默认只允许本机访问不允许外部访问，如果设置外王访问，需要修改以下配置。 1、在ElasticSearch/config/elastic...
- 求知探索
- 数据库
- 1年前
- 1280
- 0

1
...
7
8
9
...
22