Munculnya komputasi awan, jaring data mesh, dan terutama rumah danau data semuanya mencerminkan upaya besar-besaran untuk mengadopsi arsitektur yang akan mengimbangi eksponensial data yang terus tumbuh.
Namun industri masih mencari alternatif baru. Sementara solusi seperti data lakehouse biasanya memanfaatkan mesin pemrosesan sumber terbuka dan format tabel untuk tata kelola data dan peningkatan kinerja, beberapa vendor telah berinovasi dengan alat intelijen bisnis baru yang melengkapi arsitektur metadata dengan penambahan penting lapisan semantik terkelola.
Inilah arti dari penawaran yang baru ditambahkan ini, dan hasil penataan data di sekitarnya. Artinya untuk masa depan analisis data.
Sudah Seberapa Jauh Kita?
Munculnya gudang data pada tahun 1980-an merupakan perkembangan penting untuk penyimpanan data perusahaan – menyimpan data di satu lokasi membuatnya lebih mudah diakses, memungkinkan pengguna untuk menanyakan data mereka dengan lebih mudah, dan membantu perusahaan dalam mengintegrasikan data di seluruh organisasi mereka.
Sayangnya, "kemudahan yang lebih besar" sering mengorbankan kualitas. Memang, sementara gudang data membuat data lebih mudah untuk disimpan dan diakses, itu tidak membuatnya lebih mudah untuk memindahkan data secara efisien, terkadang antrian transfer akan sangat panjang sehingga kueri yang dipermasalahkan akan kedaluwarsa saat teknisi menyelesaikannya.
Selanjutnya, banyak variasi gudang data baru telah muncul. Namun sifat yang melekat dari struktur gudang data berarti bahwa bahkan dengan rekonfigurasi, tidak cukup dapat dilakukan untuk mengurangi jaringan pipa yang terlalu padat atau untuk menjaga agar insinyur yang bekerja terlalu keras tidak hanya mengejar ekor mereka.
Itulah mengapa inovator data sebagian besar telah berpaling dari gudang data sama sekali, yang menyebabkan munculnya danau data dan rumah danau. Solusi ini dirancang tidak hanya untuk penyimpanan data, tetapi juga dengan mempertimbangkan pembagian dan sinkronisasi data, tidak seperti gudang pendahulu mereka, data lake tidak terhambat oleh vendor lock-in, tantangan duplikasi data, atau komplikasi sumber kebenaran tunggal.
Dengan demikian, standar industri baru lahir di awal tahun 2000-an.
Namun secepat industri merangkul danau data, ledakan data baru sekali lagi melampaui standar industri baru ini. Untuk mencapai infrastruktur yang diperlukan untuk transfer data yang memadai dan manajemen file format terbuka yang dapat digunakan, lapisan semantik–struktur seperti tabel yang meningkatkan kinerja dan penjelasan saat melakukan analitik–harus diintegrasikan ke dalam penyimpanan data.
Cetak Biru Arsitektur Lapisan Semantik
Meskipun lapisan semantik telah ada selama bertahun-tahun sebagai format tabel standar terbuka, sebagian besar aplikasinya tetap statis. Secara tradisional, lapisan ini adalah alat yang dikonfigurasikan oleh para insinyur untuk menerjemahkan data organisasi ke dalam istilah bisnis yang lebih lugas. Tujuannya adalah untuk membuat "katalog data" yang mengkonsolidasikan lapisan data yang seringkali kompleks menjadi bahasa yang mudah digunakan dan akrab.
Sekarang, pembuat format tabel terbuka Apache Iceberg dan Apache Hudi mengusulkan pendekatan baru "merancang" arsitektur metadata di mana lapisan semantik dikelola oleh mereka, menghasilkan peningkatan kinerja pemrosesan dan tingkat kompresi serta biaya penyimpanan cloud yang lebih rendah.
Apa makna sebenarnya?
Konsepnya mirip dengan bagaimana vendor data lakehouse memanfaatkan mesin pengolah sumber terbuka. Arsitektur lapisan semantik mengambil format tabel sumber terbuka yang sama dan memberikan izin kepada vendor solusi untuk menyediakan manajemen eksternal penyimpanan data organisasi, menghilangkan kebutuhan untuk konfigurasi pengkodean manual sambil meningkatkan kinerja dan ukuran penyimpanan.
Proses pembuatan arsitektur lapisan semantik ini berjalan sebagai berikut:
- Danau data awan organisasi terhubung ke perangkat lunak lapisan semantik terkelola (yaitu, memberikan izin kepada vendor untuk mengelola penyimpanan mereka);
- Data yang sekarang dikelola, disimpan dalam format tabel, dihubungkan dengan mesin pemroses sumber terbuka atau gudang data dengan kemampuan tabel eksternal;
- Sekarang, jalur pipa data dapat dikonfigurasi sehingga terus meningkatkan kualitas wawasan data saat data tumbuh dan menghubungkan setiap tabel terkelola dengan logika bisnis yang dapat ditindaklanjuti.
Format tabel terkenal sulit untuk dikonfigurasi, sehingga peningkatan kinerja baru-baru ini merupakan tren penting yang harus diperhatikan dalam industri analitik. Format tabel belum digunakan secara luas hingga saat ini, dan banyak perusahaan masih kekurangan infrastruktur atau kemampuan untuk mendukungnya. Oleh karena itu, ketika data lakehouse mendapatkan popularitas dan momentum, perusahaan harus meningkatkan kemampuan format tabel mereka jika ingin mengimbanginya.
Dengan revolusi AI generatif pada kita, alat seperti Databricks Dolly 2.0 sudah dapat dilatih tentang arsitektur data lakehouse persis seperti ini, dan langkah AI baru-baru ini hanyalah permulaan dari apa yang dapat ditawarkan teknologi ini.
Data ke Bawah
Semakin penting bagi perusahaan yang bergantung pada data untuk menemukan cara agar tetap berada di depan kurva.
Masa depan arsitektur data lakehouse kemungkinan akan memisahkan lapisan semantik dari mesin pemrosesan sebagai dua komponen independen dan dapat dengan mudah dimanfaatkan sebagai fitur berbayar untuk meningkatkan kinerja dan kompresi. Kami juga dapat mengharapkan format tabel untuk mendukung jumlah format file yang lebih beragam, tidak hanya data kolom dan terstruktur.
Dengan berfokus pada aspek tunggal dari konsep data lakehouse (yaitu, mensimulasikan "gudang"), perusahaan dapat secara signifikan meningkatkan keseluruhan kinerja arsitektur metadata mereka.
Karena kemampuan untuk berbuat lebih banyak dengan data Anda berarti data Anda akan berbuat lebih banyak untuk Anda.
'Opini' 카테고리의 다른 글
10 Scam Paling Terkenal yang Pernah Menghebohkan (0) | 2024.02.12 |
---|---|
Apa itu Rasio Emas dan Bagaimana Mengetahuinya? (0) | 2023.09.01 |
Melindungi Data Anda di Era SSD: Ini Yang Perlu Anda Ketahui (0) | 2023.06.07 |