作者:yunjinqi   类别:    日期:2023-10-17 19:39:15   阅读:111 次   消耗积分:0 分
线程管理 另请参阅线程管理 API 参考线程池 许多 Arrow C++ 操作会将工作分配到多个线程以充分利用底层硬件并行性。例如,当读取 Parquet 文件时,我们可以并行解码每个列...
作者:yunjinqi   类别:    日期:2023-10-17 19:35:45   阅读:127 次   消耗积分:0 分
Arrow C++的GDB扩展 默认情况下,当要求打印C++对象的值时,GDB会显示其成员变量的内容。然而,对于C++对象,这通常不会产生非常有用的输出,因为C++类 tend倾向于将其实现...
作者:yunjinqi   类别:    日期:2023-10-17 19:27:04   阅读:113 次   消耗积分:0 分
Arrow Flight是一种用于高效传输Flight数据的RPC框架,可通过网络进行数据传输。另请参阅Flight协议文档 包括如何在概念上使用Flight的Flight协议文档。Flight API文档 列出...
作者:yunjinqi   类别:    日期:2023-10-17 19:14:17   阅读:104 次   消耗积分:0 分
读写分区数据 到目前为止,我们一直在处理包含平坦目录和文件的数据集。很多情况下,数据集将具有一个或多个经常进行筛选的列。与其读取然后筛选数据,通过将文件组织成嵌套...
作者:yunjinqi   类别:    日期:2023-10-17 09:32:29   阅读:102 次   消耗积分:0 分
Tabular Datasets 另请参阅 数据集 API 参考警告arrow::dataset 命名空间是实验性的,尚未保证稳定 API。Arrow Datasets 库提供了与表格数据、可能超出内存范围以及多文件数...
作者:yunjinqi   类别:    日期:2023-10-17 09:05:33   阅读:130 次   消耗积分:0 分
读取JSON文件 逐行分隔的JSON文件可以通过TableReader读取为一个完整的Arrow表,也可以通过StreamingReader流式传输为RecordBatches。这两种阅读器都需要表示输入文件的arr...
作者:yunjinqi   类别:    日期:2023-10-17 09:00:32   阅读:109 次   消耗积分:0 分
读取和写入CSV文件 Arrow提供了一个快速的CSV阅读器,允许摄取外部数据以创建Arrow表或Arrow RecordBatches的流。另请参见 CSV读取器/写入器API参考。读取CSV文件 CSV文件...
作者:yunjinqi   类别:    日期:2023-10-16 21:11:42   阅读:110 次   消耗积分:0 分
读写Parquet文件 另请参见 Parquet读取器和写入器API参考。Parquet格式是一种高效的复杂数据的列式存储格式。Parquet C++实现是Apache Arrow项目的一部分,并受益于与Arrow...
作者:yunjinqi   类别:    日期:2023-10-16 20:40:46   阅读:103 次   消耗积分:0 分
读写ORC文件 Apache ORC项目提供了一个标准的开源列式存储格式,用于数据分析系统。最初是为了在Apache Hadoop中使用,随后被Apache Drill、Apache Hive、Apache Impala和A...
作者:yunjinqi   类别:    日期:2023-10-16 20:34:29   阅读:94 次   消耗积分:0 分
Arrow C++提供了用于Arrow IPC格式的读取器和写入器,它们包装了底层的输入/输出,通过IO接口进行处理。对于读取,还提供了一种事件驱动的API,可以异步地将任意数据传递到I...
上一页   1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20   21   22   23   24   25   26   27   28   29   30   31   32   33   34   35   36   37   38   39   下一页