作者:yunjinqi   类别:    日期:2023-10-17 09:05:33   阅读:458 次   消耗积分:0 分
读取JSON文件 逐行分隔的JSON文件可以通过TableReader读取为一个完整的Arrow表,也可以通过StreamingReader流式传输为RecordBatches。这两种阅读器都需要表示输入文件的arr...
作者:yunjinqi   类别:    日期:2023-10-17 09:00:32   阅读:434 次   消耗积分:0 分
读取和写入CSV文件 Arrow提供了一个快速的CSV阅读器,允许摄取外部数据以创建Arrow表或Arrow RecordBatches的流。另请参见 CSV读取器/写入器API参考。读取CSV文件 CSV文件...
作者:yunjinqi   类别:    日期:2023-10-16 21:11:42   阅读:427 次   消耗积分:0 分
读写Parquet文件 另请参见 Parquet读取器和写入器API参考。Parquet格式是一种高效的复杂数据的列式存储格式。Parquet C++实现是Apache Arrow项目的一部分,并受益于与Arrow...
作者:yunjinqi   类别:    日期:2023-10-16 20:40:46   阅读:427 次   消耗积分:0 分
读写ORC文件 Apache ORC项目提供了一个标准的开源列式存储格式,用于数据分析系统。最初是为了在Apache Hadoop中使用,随后被Apache Drill、Apache Hive、Apache Impala和A...
作者:yunjinqi   类别:    日期:2023-10-16 20:34:29   阅读:401 次   消耗积分:0 分
Arrow C++提供了用于Arrow IPC格式的读取器和写入器,它们包装了底层的输入/输出,通过IO接口进行处理。对于读取,还提供了一种事件驱动的API,可以异步地将任意数据传递到I...
作者:yunjinqi   类别:    日期:2023-10-16 20:31:11   阅读:422 次   消耗积分:0 分
Arrow提供了一系列的C++接口,抽象了输入/输出操作的具体细节。它们操作无类型二进制数据流。这些抽象用于各种目的,如读取CSV或Parquet数据,传输IPC流等。另请参见输入/输...
作者:yunjinqi   类别:    日期:2023-10-16 20:27:13   阅读:418 次   消耗积分:0 分
Gandiva是一个运行时表达式编译器,使用LLVM生成用于在Arrow记录批次上进行计算的高效本机代码。Gandiva仅处理投影和过滤操作;对于其他转换,请参见Compute Functions(计算...
作者:yunjinqi   类别:    日期:2023-10-16 20:11:40   阅读:397 次   消耗积分:0 分
条件这些函数根据给定的条件选择两个输入之一(或不作选择)。(1) 此函数的行为类似于SQL中的"case when"语句或开关-情况。输入是一个"条件"值,它是一个包含布尔值的结构,...
作者:yunjinqi   类别:    日期:2023-10-16 09:28:31   阅读:411 次   消耗积分:0 分
计算函数通用计算 APIAPI 函数和函数注册表 函数表示对可能具有不同类型的输入进行计算操作。在内部,一个函数由一个或多个“核”实现,具体取决于具体的输入类型(例如,一...
作者:yunjinqi   类别:    日期:2023-10-15 20:50:11   阅读:480 次   消耗积分:0 分
虽然数组和分块数组代表同质值的一维序列,但数据通常呈现为异构数据的二维集合(如数据库表、CSV 文件等)。Arrow 提供了几种抽象,以便方便且高效地处理此类数据。字段 字...
上一页   1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20   21   22   23   24   25   26   27   28   29   30   31   32   33   34   35   36   37   38   39   下一页