SparkのPython-APIでHBaseのFilterを利用してレコードを取得する方法を知りたいです。
現在以下のようにSparkContextのnewAPIHadoopRDD
メソッドでScanを利用してレコードを取得できています。
python
1host = 'localhost' 2keyConv = "org.apache.spark.examples.pythonconverters.ImmutableBytesWritableToStringConverter" 3valueConv = "org.apache.spark.examples.pythonconverters.HBaseResultToStringConverter" 4conf = {"hbase.zookeeper.quorum": host, "hbase.mapreduce.inputtable": "user", 5 "hbase.mapreduce.scan.columns": "u:uid", 6 "hbase.mapreduce.scan.row.start": "1", "hbase.mapreduce.scan.row.stop": "100"} 7rdd = sc.newAPIHadoopRDD("org.apache.hadoop.hbase.mapreduce.TableInputFormat", 8 "org.apache.hadoop.hbase.io.ImmutableBytesWritable", 9 "org.apache.hadoop.hbase.client.Result", 10 keyConverter=keyConv, valueConverter=valueConv, conf=conf)
ここからさらにFilterを利用してレコードを絞り込みたいのですがどのようにコードを書けばいいでしょうか?Sparkのバージョンは1.6.0です。
よろしくお願いします。
あなたの回答
tips
プレビュー