All Posts

Java / Gandiva on Windows

Apache Arrow の Issue を watch していたら、Gandiva が Windows 環境でも動くようになっていたので、開発環境を構築しました。 C++ Development Setup Gandiva は C++ で開発されているので、まず C++

Hadoop / Spark Conference 2019 Japan

3⁄14 に開催された Hadoop / Spark Conference 2019 Japan に行ってきました。参加したセッションの内容と感想を書いてみました。 Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって 「Hadoop

Failed to generate Javadoc on JDK11

JDK11 で Javadoc の生成に失敗することがありました。 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-javadoc-plugin:3.0.1:jar (attach-javadocs) on project sqlline: MavenReportException: Error while generating Javadoc: [ERROR] Exit code: 1 - Picked up JAVA_TOOL_OPTIONS: -XX:+UseContainerSupport [ERROR] javadoc: error - The code being documented uses modules but the packages defined in https://docs.oracle.com/javase/8/docs/api/ are in the unnamed module. [ERROR] [ERROR] Command line was:

sqlline の実行環境を jlink で作成する

JDBC 経由で DB に接続したい時に、sqlline という SQL コマンドラインツールを使っています。このツールは既に fatjar や Docker Image でも提供されているのですが、J

parquet-cli-java

dev@parquet.apache.org で、parquet-mr の古いモジュールの廃止案が出ています。廃止対象の中には Parquet ファイルの情報を出力する Command Line Tool の parquet-tools も含まれています。 [DISCUSS] Remove old

Parquet ColumnIndex

もうすぐリリースされる parquet-1.11.0 には、ColumnIndex という機能が追加されています。 ColumnIndex Layout to Support Page Skipping そこで、この ColumnIndex について調べてみました。 これまで

『リーン開発の現場』を読んだ

昨年から Scrum 開発のプロジェクトに参加している。その中で色々と思うことがあり、他のプロジェクトでの採用事例や実際に行われているプラクティスを知り

Rust で書かれた Query Engine のコードを眺めた

dev@arrow.apache.org を見てたら、Rust で Query Engine を書いている話が出ていた。これは Apache Arrow の Commiter である Andy Grove が作っている DataFusion というプロジェクト。 https://github.com/andygrove/datafusion The current code supports single-threaded execution of limited SQL queries (projection, selection, and

『Efficient Data Transfer Mechanisms on Analytics Data Processing System』を読んだ

Calcite の Adapter を書いている中で、それぞれのRelNode(Scan/Filter/Aggregation …) の結果(タプル)の生成と、それに使用される

Serialize/Deserialize With Apache Arrow

Apache Arrow Apache Arrow is an in-memory columnar data format across various systems such as Apache Spark, Impala, Apache Drill. Arrow have a columnar data represent format - Value Vectors. There are various types of value vectors depending on the data type. In this post, I serialize NullableIntVector to a file and deserialize from it. Sample Code Getting Started The arrow-vector module is already in maven repos. pom.xml: 1<dependencies> 2 <!