请问大文件CSV,大概300G的CSV文件如何进行导入

请问大文件CSV,大概300G的CSV文件如何进行导入

请先 登录 后评论

1 个回答

Qing Li
n=10000000
dataFilePath="/home/jwu/data/dhbt.csv"
table(10000:0,`id`time`v`q,[SYMBOL,TIMESTAMP,DOUBLE,DOUBLE])
//建表结构
login(`admin,`123456)
dbPath1="dfs://dzDatabase"
db1=database(dbPath1,VALUE,`IBM`MSFT`GM`C`FB`GOOG`V`F`XOM`AMZN`TSLA`PG`S)
tb1=db1.createPartitionedTable(trades,`dz,`id)
//mr所需函数
def divideImport(tb, mutable dz)
{
tdata1=select * from tb 
append!(dz, tdata1)
}
//将数据源切分成100M
schema=table(`id`time`v`q as name,`SYMBOL`TIMESTAMP`DOUBLE`DOUBLE as type)
ds=textChunkDS(dataFilePath,100,,schema)
mr(ds=ds, mapFunc=divideImport{,tb1}, parallel=false);
select count(*) from loadTable("dfs://dzDatabase", "dz")
请先 登录 后评论