作者:yunjinqi   类别:    日期:2023-10-17 19:27:04   阅读:482 次   消耗积分:0 分
Arrow Flight是一种用于高效传输Flight数据的RPC框架,可通过网络进行数据传输。另请参阅Flight协议文档 包括如何在概念上使用Flight的Flight协议文档。Flight API文档 列出...
作者:yunjinqi   类别:    日期:2023-10-17 19:14:17   阅读:441 次   消耗积分:0 分
读写分区数据 到目前为止,我们一直在处理包含平坦目录和文件的数据集。很多情况下,数据集将具有一个或多个经常进行筛选的列。与其读取然后筛选数据,通过将文件组织成嵌套...
作者:yunjinqi   类别:    日期:2023-10-17 09:32:29   阅读:448 次   消耗积分:0 分
Tabular Datasets 另请参阅 数据集 API 参考警告arrow::dataset 命名空间是实验性的,尚未保证稳定 API。Arrow Datasets 库提供了与表格数据、可能超出内存范围以及多文件数...
作者:yunjinqi   类别:    日期:2023-10-17 09:05:33   阅读:485 次   消耗积分:0 分
读取JSON文件 逐行分隔的JSON文件可以通过TableReader读取为一个完整的Arrow表,也可以通过StreamingReader流式传输为RecordBatches。这两种阅读器都需要表示输入文件的arr...
作者:yunjinqi   类别:    日期:2023-10-17 09:00:32   阅读:458 次   消耗积分:0 分
读取和写入CSV文件 Arrow提供了一个快速的CSV阅读器,允许摄取外部数据以创建Arrow表或Arrow RecordBatches的流。另请参见 CSV读取器/写入器API参考。读取CSV文件 CSV文件...
作者:yunjinqi   类别:    日期:2023-10-16 21:11:42   阅读:453 次   消耗积分:0 分
读写Parquet文件 另请参见 Parquet读取器和写入器API参考。Parquet格式是一种高效的复杂数据的列式存储格式。Parquet C++实现是Apache Arrow项目的一部分,并受益于与Arrow...
作者:yunjinqi   类别:    日期:2023-10-16 20:40:46   阅读:454 次   消耗积分:0 分
读写ORC文件 Apache ORC项目提供了一个标准的开源列式存储格式,用于数据分析系统。最初是为了在Apache Hadoop中使用,随后被Apache Drill、Apache Hive、Apache Impala和A...
作者:yunjinqi   类别:    日期:2023-10-16 20:34:29   阅读:423 次   消耗积分:0 分
Arrow C++提供了用于Arrow IPC格式的读取器和写入器,它们包装了底层的输入/输出,通过IO接口进行处理。对于读取,还提供了一种事件驱动的API,可以异步地将任意数据传递到I...
作者:yunjinqi   类别:    日期:2023-10-16 20:31:11   阅读:445 次   消耗积分:0 分
Arrow提供了一系列的C++接口,抽象了输入/输出操作的具体细节。它们操作无类型二进制数据流。这些抽象用于各种目的,如读取CSV或Parquet数据,传输IPC流等。另请参见输入/输...
作者:yunjinqi   类别:    日期:2023-10-16 20:27:13   阅读:453 次   消耗积分:0 分
Gandiva是一个运行时表达式编译器,使用LLVM生成用于在Arrow记录批次上进行计算的高效本机代码。Gandiva仅处理投影和过滤操作;对于其他转换,请参见Compute Functions(计算...
上一页   1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20   21   22   23   24   25   26   27   28   29   30   31   32   33   34   35   36   37   38   39   下一页