Arsitektur Data Warehouse
Sistem data warehouse memiliki 2 pola arsitektur (Rainardi, 2008) yaitu:
1) Arsitektur aliran data, dan
2) Arsitektur sistem.
Arsitektur aliran data adalah mengenai cara penyimpanan data dikelola dalam data warehouse dan cara mengelola aliran data dari sumber ke pengguna melalui penyimpanan data. Adapun sistem arsitektur adalah mengenai konfigurasi fisik server, jaringan, software, penyimpanan, dan klien.
2.1.1 Arsitektur Aliran Data
Arsitektur aliran data adalah konfigurasi dari penyimpanan data dalam sistem data warehouse, termasuk didalamnya cara aliran data dari sumber data melalui penyimpanan data melalui aplikasi yang digunakan oleh pengguna. Termasuk juga cara mengontrol, membuat log, memonitor aliran data, sebagaimana mekanisme dalam menjamin kualitas data dalam penyimpanan data.
Ada beberapa macam penyimpanan data (data store) yaitu:
1. Penyimpanan data yang berhubungan dan dipakai oleh pengguna.
2. Penyimpanan data yang hanya dapat digunakan oleh data warehouse untuk integrasi, pembersihan, logging dan persiapan data.
3. Penyimpanan data yang dapat digunakan oleh pengguna juga data warehouse berupa hybrid data store.
Berdasarkan format datanya, penyimpanan data (data store) dapat diklasifikasikan menjadi 4 tipe yaitu :
1. Sebuah tahap dalam internal data store, digunakan untuk tranformasi data dan persiapan data dari sumber data.
2. Normalized data store (NDS) yaitu data store internal dari satu atau lebih database relational yang dinormalisasi. Relational disini berarti database memiliki entity yang saling berhubungan dalam hubungan parent-child antaranya. Normalisasi berarti database dengan sedikit atau tidak ada redundansi.
3. Operational data store (ODS), yaitu hybrid data store yang membentuk satu atau lebih database relational yang dinormalisasi, mengandung juga data transaksi.
4. Dimensional data store (DDS), yaitu data yang digunakan pengguna untuk kebutuhan analisis dalam form dimensional.
Beberapa aplikasi seperti MySQL juga membentuk sebuah Multi Dimensional Database (MDB) dan database relational. MDB adalah bentuk basis data yang disimpan dalam cell dengan posisi tertentu yang didefinisikan oleh sebuah nomer variabel yang disebut sebagai dimensi. Dalam pembangunan data warehouse akan selalu terdapat proses Extract, transform dan load (ETL) terhadap sumber data primer.
Pada gambar diatas adalah proses aliran data dari sumber data kemudian melalui beberapa proses dari Operational Data Store (ODS) kemudian ditransformasi menjadi Dimensional Data Store (DDS) dan kemudian menjadi Multidimensional Database (MDB).
Bila pada gambar sebelumnya tidak dilakukan pengontrolan dan audit terhadap data, maka pada alternatif arsitektur kali ini memasukkan proses kontrol dan audit untuk mengecek data-data yang masih salah. Selain itu juga untuk memastikan adanya Data Quality (DQ) maka setiap proses pembuatan meta data dan sebelum proses ETL masuk ke firewall untuk memastikan kualitas data yang masuk.
2.1.2 Arsitektur Sistem
Setelah melakukan perancangan arsitektur aliran data maka pada proses selanjutnya adalah membuat perancangan arsitektur sistem datawarehouse. Arsitektur sistem perancangan datawarehouse ini terdiri dari server, jaringan, software, sistem penyimpanan dan klien. Dalam perancangan arsitektur sistem ini diperlukan pengetahuan mengenai hardware (khususnya mengenai server), jaringan (khususnya berhubungan dengan keamanan jaringan), tempat penyimpanan (khususnya storage area network (SAN)), dan redundant array of inexpensive disks (RAID)) .
Pada gambar diatas adalah contoh rancangan arsitektur jaringan data warehouse dengan server MySQL yang diintegrasikan dengan Server Oracle, Informatica dan DAS. Beberapa keuntungan penggunaan MySQL sebagai datawarehouse adalah kemampuan MySQL untuk penggunaan storage engine dari pihak ketiga yang spesialiasi pada teknologi datawarehouse seperti KickFire. Selain itu, MySQL memungkinkan penggunaan open source dalam proses ETL dan reporting tools dalam business intelligent. Secara keseluruhan, penggunaan MySQL dalam datawarehousing tidak dipungut biaya atau gratis.
Storage engine pada MySQL yang mendukung data warehousing (Sarma, 2010) adalah:
1. Storage engine interal berupa MyISAM, Archive dan Memory.
2. Storage engine dari pihak ketiga seperti KickFire, BrightHouse dan NitroEDB. Proses ETL pada datawarehousing dengan MySQL dapat menggunakan berbagai macam vendor komersial baik yang berorientasi niche player maupun visioner.
Beberapa vendor yang menawarkan proses ETL pada MySQL (Sarma, 2010) adalah:
1. Oracle. 2. Microsoft. 3. IBM. 4. Iway Software 5. Embarcadero Technology. 6. Computer Associates 7. SAS 8. Data junction. 9. Cognos. 10. Sagent. 11. DataMirror. 12. Hummingbird. 13. Acta Technology. 14. Ab Initio Software. 15. Evolutionary Technologies International. 16. Informatica. 17. Ascential Software.
Sumber:
1. Rainardi, V. (2008). Building a Data Warehouse With Examples in SQL Server. New York, USA: Apress Publishing.
2. Sarma, T. C. (2010). Building Scalable & High Performance Datamarts with MySQL. MySQL Conference and Expo. MySQL AB & O'Reilly Media, Inc.
1) Arsitektur aliran data, dan
2) Arsitektur sistem.
Arsitektur aliran data adalah mengenai cara penyimpanan data dikelola dalam data warehouse dan cara mengelola aliran data dari sumber ke pengguna melalui penyimpanan data. Adapun sistem arsitektur adalah mengenai konfigurasi fisik server, jaringan, software, penyimpanan, dan klien.
2.1.1 Arsitektur Aliran Data
Arsitektur aliran data adalah konfigurasi dari penyimpanan data dalam sistem data warehouse, termasuk didalamnya cara aliran data dari sumber data melalui penyimpanan data melalui aplikasi yang digunakan oleh pengguna. Termasuk juga cara mengontrol, membuat log, memonitor aliran data, sebagaimana mekanisme dalam menjamin kualitas data dalam penyimpanan data.
Ada beberapa macam penyimpanan data (data store) yaitu:
1. Penyimpanan data yang berhubungan dan dipakai oleh pengguna.
2. Penyimpanan data yang hanya dapat digunakan oleh data warehouse untuk integrasi, pembersihan, logging dan persiapan data.
3. Penyimpanan data yang dapat digunakan oleh pengguna juga data warehouse berupa hybrid data store.
Berdasarkan format datanya, penyimpanan data (data store) dapat diklasifikasikan menjadi 4 tipe yaitu :
1. Sebuah tahap dalam internal data store, digunakan untuk tranformasi data dan persiapan data dari sumber data.
2. Normalized data store (NDS) yaitu data store internal dari satu atau lebih database relational yang dinormalisasi. Relational disini berarti database memiliki entity yang saling berhubungan dalam hubungan parent-child antaranya. Normalisasi berarti database dengan sedikit atau tidak ada redundansi.
3. Operational data store (ODS), yaitu hybrid data store yang membentuk satu atau lebih database relational yang dinormalisasi, mengandung juga data transaksi.
4. Dimensional data store (DDS), yaitu data yang digunakan pengguna untuk kebutuhan analisis dalam form dimensional.
Beberapa aplikasi seperti MySQL juga membentuk sebuah Multi Dimensional Database (MDB) dan database relational. MDB adalah bentuk basis data yang disimpan dalam cell dengan posisi tertentu yang didefinisikan oleh sebuah nomer variabel yang disebut sebagai dimensi. Dalam pembangunan data warehouse akan selalu terdapat proses Extract, transform dan load (ETL) terhadap sumber data primer.
Pada gambar diatas adalah proses aliran data dari sumber data kemudian melalui beberapa proses dari Operational Data Store (ODS) kemudian ditransformasi menjadi Dimensional Data Store (DDS) dan kemudian menjadi Multidimensional Database (MDB).
Bila pada gambar sebelumnya tidak dilakukan pengontrolan dan audit terhadap data, maka pada alternatif arsitektur kali ini memasukkan proses kontrol dan audit untuk mengecek data-data yang masih salah. Selain itu juga untuk memastikan adanya Data Quality (DQ) maka setiap proses pembuatan meta data dan sebelum proses ETL masuk ke firewall untuk memastikan kualitas data yang masuk.
2.1.2 Arsitektur Sistem
Setelah melakukan perancangan arsitektur aliran data maka pada proses selanjutnya adalah membuat perancangan arsitektur sistem datawarehouse. Arsitektur sistem perancangan datawarehouse ini terdiri dari server, jaringan, software, sistem penyimpanan dan klien. Dalam perancangan arsitektur sistem ini diperlukan pengetahuan mengenai hardware (khususnya mengenai server), jaringan (khususnya berhubungan dengan keamanan jaringan), tempat penyimpanan (khususnya storage area network (SAN)), dan redundant array of inexpensive disks (RAID)) .
Pada gambar diatas adalah contoh rancangan arsitektur jaringan data warehouse dengan server MySQL yang diintegrasikan dengan Server Oracle, Informatica dan DAS. Beberapa keuntungan penggunaan MySQL sebagai datawarehouse adalah kemampuan MySQL untuk penggunaan storage engine dari pihak ketiga yang spesialiasi pada teknologi datawarehouse seperti KickFire. Selain itu, MySQL memungkinkan penggunaan open source dalam proses ETL dan reporting tools dalam business intelligent. Secara keseluruhan, penggunaan MySQL dalam datawarehousing tidak dipungut biaya atau gratis.
Storage engine pada MySQL yang mendukung data warehousing (Sarma, 2010) adalah:
1. Storage engine interal berupa MyISAM, Archive dan Memory.
2. Storage engine dari pihak ketiga seperti KickFire, BrightHouse dan NitroEDB. Proses ETL pada datawarehousing dengan MySQL dapat menggunakan berbagai macam vendor komersial baik yang berorientasi niche player maupun visioner.
Beberapa vendor yang menawarkan proses ETL pada MySQL (Sarma, 2010) adalah:
1. Oracle. 2. Microsoft. 3. IBM. 4. Iway Software 5. Embarcadero Technology. 6. Computer Associates 7. SAS 8. Data junction. 9. Cognos. 10. Sagent. 11. DataMirror. 12. Hummingbird. 13. Acta Technology. 14. Ab Initio Software. 15. Evolutionary Technologies International. 16. Informatica. 17. Ascential Software.
Sumber:
1. Rainardi, V. (2008). Building a Data Warehouse With Examples in SQL Server. New York, USA: Apress Publishing.
2. Sarma, T. C. (2010). Building Scalable & High Performance Datamarts with MySQL. MySQL Conference and Expo. MySQL AB & O'Reilly Media, Inc.
Komentar
Posting Komentar