عملیات روی داده
در این مرحله، بخش Transform ابزار ETL پیادهسازی میشود. بدین منظور، امکان طراحی پایپلاین (Pipeline) در اختیار کاربر قرار میگیرد تا بتواند عملیاتهای پردازشی مورد نیاز خود را روی دادههای بارگذاریشده اعمال نموده و در هر مرحله، خروجی تولیدشده را مشاهده کند.
Application
در این فاز، صفحاتی پیادهسازی شوند که به کاربر امکان طراحی پایپلاین و مشاهده فهرست پایپلاینهای طراحیشده قبلی را بدهد. در صفحه طراحی پایپلاین:
- کاربر میتواند از پلاگینهای فیلتر و تجمیعسازی استفاده کند
- امکان چینش عملیاتها به هر ترتیب و تعدادی وجود دارد
- عملیاتها روی یک منبع داده مشخص (از پیش بارگذاریشده) اجرا میشوند
- با کلیک روی هر پلاگین، پیشنمایشی از خروجی دادهها نمایش داده میشود
برای پردازش دادهها:
- بهجای اجرای کوئری مستقیم روی پایگاهداده، از پردازشگرهای اوپنسورس مانند Apache Spark استفاده شود
- کدهای SparkSQL بهصورت دینامیک تولید شوند
خروجی
صفحه فهرست پایپلاینها:
- دسترسی کاربر به فهرست پایپلاینها پس از صفحه دادهها
- قابلیتهای مدیریتی:
- مشاهده پایپلاینهای طراحیشده
- تغییر نام
- حذف
- ویرایش پایپلاینهای موجود
- طراحی پایپلاین جدید
- مشاهده پایپلاینهای طراحیشده
صفحه طراحی پایپلاین:
الف) گردش کار:
- انتخاب منبع داده
- افزودن پلاگینها به ترتیب مورد نیاز
ب) رفتار پلاگینها:
- فیلترها: قابل تغییر بدون تأثیر بر ساختار داده
- تجمیعسازها: تغییردهنده ساختار داده (تغییر نام/نوع ستونها)
- ستونهای تغییر یافته: حذف از مراحل بعدی
- ستونهای بدون تغییر: حفظ در مراحل بعدی
ج) سیستم پیشنمایش:
- کلیک روی پلاگین:
- نمایش منوی تنظیمات پلاگین
- نمایش خروجی همان پلاگین در پیشنمایش
- بستن منو:
- مخفیشدن منوی تنظیمات
- نمایش خروجی آخرین پلاگین در پیشنمایش
Platform
در این مرحله نیاز است ابزار Spark در اختیار تیمهای توسعه قرار بگیرد و زیرساختهای observability نیز فراهم شوند تا وضعیت هر محصول در محیط عملیاتی قابل پایش باشد.
خروجی
- استقرار Spark:
ابزار Spark با رعایت استانداردهای امنیتی مستقر شده
در دسترس تیمهای توسعه قرار بگیرد
- پیادهسازی Observability:
زیرساخت observability مبتنی بر استاندارد OpenTelemetry مستقر شود و با هماهنگی تیمهای توسعه به محصولات متصل گردد