پرش به مطلب اصلی

عملیات روی داده

در این مرحله، بخش Transform ابزار ETL پیاده‌سازی می‌شود. بدین منظور، امکان طراحی پایپلاین (Pipeline) در اختیار کاربر قرار می‌گیرد تا بتواند عملیات‌های پردازشی مورد نیاز خود را روی داده‌های بارگذاری‌شده اعمال نموده و در هر مرحله، خروجی تولیدشده را مشاهده کند.

Application

در این فاز، صفحاتی پیاده‌سازی شوند که به کاربر امکان طراحی پایپلاین و مشاهده فهرست پایپلاین‌های طراحی‌شده قبلی را بدهد. در صفحه طراحی پایپلاین:

  • کاربر می‌تواند از پلاگین‌های فیلتر و تجمیع‌سازی استفاده کند
  • امکان چینش عملیات‌ها به هر ترتیب و تعدادی وجود دارد
  • عملیات‌ها روی یک منبع داده مشخص (از پیش بارگذاری‌شده) اجرا می‌شوند
  • با کلیک روی هر پلاگین، پیش‌نمایشی از خروجی داده‌ها نمایش داده می‌شود

برای پردازش داده‌ها:

  • به‌جای اجرای کوئری مستقیم روی پایگاه‌داده، از پردازشگرهای اوپن‌سورس مانند Apache Spark استفاده شود
  • کدهای SparkSQL به‌صورت دینامیک تولید شوند

خروجی

صفحه فهرست پایپلاین‌ها:

  • دسترسی کاربر به فهرست پایپلاین‌ها پس از صفحه داده‌ها
  • قابلیت‌های مدیریتی:
    • مشاهده پایپلاین‌های طراحی‌شده
      • تغییر نام
      • حذف
      • ویرایش پایپلاین‌های موجود
      • طراحی پایپلاین جدید

صفحه طراحی پایپلاین:

الف) گردش کار:
  1. انتخاب منبع داده
  2. افزودن پلاگین‌ها به ترتیب مورد نیاز
ب) رفتار پلاگین‌ها:
  • فیلترها: قابل تغییر بدون تأثیر بر ساختار داده
  • تجمیع‌سازها: تغییردهنده ساختار داده (تغییر نام/نوع ستون‌ها)
    • ستون‌های تغییر یافته: حذف از مراحل بعدی
    • ستون‌های بدون تغییر: حفظ در مراحل بعدی
ج) سیستم پیش‌نمایش:
  • کلیک روی پلاگین:
    • نمایش منوی تنظیمات پلاگین
    • نمایش خروجی همان پلاگین در پیش‌نمایش
  • بستن منو:
    • مخفی‌شدن منوی تنظیمات
    • نمایش خروجی آخرین پلاگین در پیش‌نمایش

Platform

در این مرحله نیاز است ابزار Spark در اختیار تیم‌های توسعه قرار بگیرد و زیرساخت‌های observability نیز فراهم شوند تا وضعیت هر محصول در محیط عملیاتی قابل پایش باشد.

خروجی

  1. استقرار Spark:

ابزار Spark با رعایت استانداردهای امنیتی مستقر شده

در دسترس تیم‌های توسعه قرار بگیرد

  1. پیاده‌سازی Observability:

زیرساخت observability مبتنی بر استاندارد OpenTelemetry مستقر شود و با هماهنگی تیم‌های توسعه به محصولات متصل گردد