تم إصدار Hardwood كمكتبة مفتوحة المصدر مصممة لتحسين قراءة ملفات Apache Parquet داخل بيئات JVM. تم إطلاقه بواسطة Gunnar Morling، وهو يهدف إلى توفير بديل أسرع وأبسط لتطبيق Apache Parquet Java التقليدي، والذي غالبًا ما يقدم تبعية كبيرة ويعمل على قارئ أساسي ذي خيط واحد. يعالج الخشب الصلب هذه القيود من خلال توفير بديل شبه صفري يستخدم فك ترميز الصفحات متعدد الخيوط لتحقيق أقصى استفادة من وحدة المعالجة المركزية. بعد مرور خمسة أشهر على إنشائه في أوائل عام 2026، وصل إلى الإصدار 1.0 ويوفر الآن إمكانات القراءة، مع التخطيط لدعم الكتابة للإصدارات المستقبلية.

يؤكد تصميم Hardwood على اتباع نهج معياري للوصول إلى البيانات. وهو يوفر واجهتي برمجة تطبيقات متميزتين لتناسب المتطلبات الهندسية المختلفة: واجهة برمجة تطبيقات قارئ الصفوف المنظمة للوصول إلى السجلات للأغراض العامة وواجهة برمجة تطبيقات قارئ الأعمدة الموجهة نحو الدُفعات المخصصة لأحمال العمل التحليلية عالية الإنتاجية. على عكس التطبيقات التقليدية التي تعالج البيانات بشكل تسلسلي، ينشر الخشب الصلب فك تشفير صفحات الباركيه عبر جميع مراكز وحدة المعالجة المركزية المتاحة، مما يقلل من زمن الوصول المرتبط عادةً بمعالجة الصفحات التسلسلية.

رمز قارئ الصف:


try (ParquetFileReader fileReader = ParquetFileReader.open(
        InputFile.of(path));

    RowReader rowReader = fileReader.rowReader()) {

    while (rowReader.hasNext()) {
        rowReader.next();

        long id = rowReader.getLong("id");
        String name = rowReader.getString("name");
        LocalDate birthDate = rowReader.getDate("birth_date");
        Instant createdAt = rowReader.getTimestamp("created_at");
    }
}

تم تصميم المكتبة بملف تعريف التبعية الإلزامي صفر لتقليل مخاطر هجمات سلسلة التوريد وتعارضات المسار الطبقي. ولتحقيق ذلك، فإنه يستخدم الحد الأدنى من تجريد التسجيل الخاص بـ Java والمتوفر منذ الإصدار 9، مما يتجنب بشكل فعال تبعيات التسجيل الخارجية. يتم توفير وظائف إضافية، مثل دعم خوارزميات ضغط محددة مثل LZ4 وGZip أو خدمات تخزين الكائنات مثل S3، من خلال التبعيات الاختيارية التي يمكن للمستخدمين سحبها حسب الحاجة.

كما أنه ينفذ التقييم المسند الأمثل. من خلال استخدام التقييم بدون فروع، والتقييم دفعة واحدة في كل مرة أثناء عمليات الفحص التي تمت تصفيتها، يقلل النظام من التوقعات الخاطئة لفرع وحدة المعالجة المركزية، وهو عامل حاسم للأداء في معالجة البيانات التحليلية الحديثة.

بالإضافة إلى المكتبة نفسها، يتضمن المشروع أداة واجهة سطر الأوامر (CLI) المصممة للمطورين ومهندسي البيانات. يتميز سطر الأوامر هذا بواجهة مستخدم تفاعلية قائمة على النص (TUI) تسمح للمستخدمين بفحص مخططات ملفات Parquet والبيانات التعريفية دون كتابة تعليمات برمجية معيارية أو إشراك أطر معالجة بيانات ثقيلة. تعمل هذه الأداة كأداة تشخيصية للتحقق من سلامة الملف وبنيته أثناء دورة حياة التطوير.

تشير النتائج المعيارية إلى أن الخشب الصلب يحقق تحسينات كبيرة في الإنتاجية مقارنة بالتطبيقات القياسية. في عمليات مسح مجموعات البيانات المسطحة التي تحتوي على 8 وحدات معالجة مركزية افتراضية، حقق القارئ إنتاجية قدرها 16.5 مليون صف في الثانية. تُعزى ميزة الأداء إلى حد كبير إلى قدرة المكتبة على التوسع باستخدام الأجهزة المتاحة. في التكوين أحادي الترابط، يكون الأداء مقيدًا بفك التشفير المتسلسل؛ ومع ذلك، فإن النهج متعدد الخيوط يسمح للنظام بتشبع عرض النطاق الترددي للإدخال/الإخراج ووحدة المعالجة المركزية للجهاز المضيف بشكل أكثر فعالية. يعد الخشب الصلب بفوائد كبيرة لبيئات JVM من خلال تصميمه المعياري، والأداء العالي، وفك التشفير متعدد الخيوط، وملف تعريف التبعية الإلزامي الصفري الذي يبسط إدارة التبعية.

إلى جانب مبادره، جونار مورلينج، اجتذب المشروع بالفعل 20 مساهمًا مفتوح المصدر، بما في ذلك المساهمين المخضرمين من مجال جافا، مثل أندريس ألميراي وبرونو بورخيس. كانت التعليقات العامة من المجتمع الأوسع إيجابية في الغالب، حيث طلب المستخدمون المحتملون أيضًا إمكانات الكتابة على الباركيه. يعد هذا التحسين بالفعل جزءًا من خريطة الطريق القادمة ومن المتوقع أن يكون متاحًا قريبًا.

يمثل Hardwood 1.0 علامة بارزة في معالجة بيانات JVM عالية الأداء، بعد أن تقدم من البداية إلى أول إصدار مستقر له في خمسة أشهر فقط. استخدم المشروع البرمجة بمساعدة الذكاء الاصطناعي أثناء التطوير، على الرغم من أن عمليات التصميم ومراجعة التعليمات البرمجية ظلت تحت الملكية البشرية. من خلال تقديم بنية خالية من التبعية ومحرك فك تشفير مبتكر متعدد الخيوط، يوفر المشروع بديلاً خفيف الوزن ولكنه قوي لتطبيقات الباركيه التقليدية. بفضل تصميمه المعياري وخريطة طريق واضحة لدعم الكتابة في المستقبل، تم وضع Hardwood ليصبح أداة أساسية لمهندسي البيانات الذين يسعون إلى تحقيق أقصى قدر من كفاءة الموارد في أعباء العمل التحليلية.



شاركها.
اترك تعليقاً