Rumah Perangkat keras Setrika besar, ketemu data besar: membebaskan data mainframe dengan hadoop dan spark

Setrika besar, ketemu data besar: membebaskan data mainframe dengan hadoop dan spark

Anonim

Oleh Staf Techopedia, 2 Juni 2016

Takeaway: Ekosistem Hadoop digunakan pada mainframe untuk memproses data besar dengan cepat dan efisien.

Anda saat ini belum masuk. Silakan masuk atau daftar untuk melihat video.

Eric Kavanagh: Baiklah hadirin, ini jam empat Eastern pada hari Kamis, dan hari ini berarti sudah waktunya untuk Hot Technologies. Ya memang, nama saya Eric Kavanagh. Saya akan menjadi moderator Anda untuk seminar web hari ini. Ini hal yang bagus, kawan, "Big Iron, Meet Big Data" - Saya sangat suka tajuk utama - "Membebaskan Data Mainframe dengan Hadoop dan Spark." Kita akan berbicara tentang pertemuan lama yang baru. Wow! Kami membahas berbagai hal yang telah kami bicarakan dalam 50 tahun terakhir di perusahaan IT. Spark memenuhi mainframe, aku menyukainya.

Ada satu hal tentang dirimu yang benar-benar dan cukup tentang aku. Tahun ini panas. Kami berbicara tentang topik hangat dalam seri ini karena kami benar-benar berusaha membantu orang memahami disiplin ilmu tertentu, ruang tertentu. Apa artinya memiliki, misalnya, platform analitik? Apa artinya membebaskan data besar dari mainframe? Apa artinya semua ini? Kami mencoba untuk membantu Anda memahami jenis teknologi tertentu, di mana mereka masuk ke dalam campuran dan bagaimana Anda dapat memanfaatkannya.

Kami memiliki dua analis hari ini dan tentu saja Tendü Yogurtçu of Syncsort. Dia visioner di ruang kita, sangat senang memilikinya online hari ini, dengan Dez Blanchfield dan Dr. Robin Bloor kita sendiri. Saya akan mengucapkan beberapa kata cepat. Salah satunya adalah, kalian, Anda memainkan peran besar dalam proses ini, jadi tolong jangan malu mengajukan beberapa pertanyaan bagus. Kami ingin menghubungi mereka selama komponen T&J di webcast, yang biasanya di akhir acara. Dan yang harus saya katakan adalah kami memiliki banyak konten yang bagus, jadi saya senang mendengar apa yang dikatakan anak-anak ini. Dan dengan itu, saya akan menyerahkannya kepada Dez Blanchfield. Dez, lantai milikmu, bawa pergi.

Dez Blanchfield: Terima kasih, Eric, dan terima kasih semuanya telah hadir hari ini. Jadi saya menjadi sangat bersemangat ketika saya mendapat kesempatan untuk berbicara tentang salah satu hal favorit saya di dunia, mainframe. Mereka tidak mendapatkan banyak cinta hari ini. Pandangan saya adalah mainframe adalah platform big data asli. Beberapa akan berpendapat bahwa mereka adalah satu-satunya komputer pada saat itu dan itu adalah titik yang adil untuk dibuat, tetapi selama lebih dari 60 tahun sekarang mereka benar-benar telah menjadi ruang mesin dari data besar yang akhir-akhir ini menjadi populer. Dan saya akan membawa Anda pada sebuah perjalanan kecil tentang mengapa saya percaya itu adalah masalahnya.

Kami telah melihat perjalanan di tumpukan perangkat keras teknologi dalam konteks pergeseran mainframe dari gambar yang Anda lihat di layar sekarang. Ini adalah mainframe FACOM lama, salah satu favorit saya. Kami telah bergerak melalui fase besi besar, akhir tahun sembilan puluhan dan booming dot-com. Ini adalah Sun Microsystems E10000. Benda ini adalah monster absolut pada 96 CPU. Awalnya 64 tetapi bisa ditingkatkan pada 96 CPU. Setiap CPU dapat menjalankan 1.024 utas. Setiap utas bisa pada tingkat aplikasi pada saat yang sama. Itu hanya mengerikan dan benar-benar mendukung ledakan dot-com. Ini semua unicorn besar seperti yang kita sebut, sekarang kita jalankan, dan bukan hanya perusahaan besar, beberapa situs web besar.

Dan kemudian kami berakhir dengan model PC komoditas yang umum ini. Kami hanya mengikat banyak mesin murah bersama-sama dan kami menciptakan sebuah cluster dan kami mendekati tantangan besi besar dan apa yang menjadi data besar terutama dalam bentuk proyek Hadoop yang berasal dari mesin pencari open source, Nutch. Dan kami pada dasarnya menciptakan kembali mainframe dan banyak CPU kecil yang direkatkan dan dapat bertindak seperti L-paths dan dalam bentuk menjalankan pekerjaan yang terpisah atau bagian dari pekerjaan dan mereka cukup efektif dalam banyak hal. Lebih murah jika Anda memulai dari yang lebih kecil, tetapi selalu banyak dari kelompok besar ini menjadi lebih mahal daripada mainframe.

Pandangan saya tentang hal-hal ini adalah bahwa dalam terburu-buru dari dot-com booming ke apa yang menjadi Web 2.0 dan sekarang mengejar unicorn, kami lupa bahwa ada platform ini masih memberi daya banyak sistem kritis-misi terbesar kami di luar sana. Ketika kita berpikir tentang apa yang berjalan pada platform mainframe di luar sana. Sangat banyak data besar, terutama data pekerja keras, tetapi tentu saja data besar. Perusahaan tradisional dan sistem pemerintah seperti perbankan dan manajemen kekayaan serta asuransi pada khususnya, kita semua gunakan setiap hari.

Pemesanan maskapai dan sistem manajemen penerbangan, khususnya manajemen penerbangan di mana waktu nyata sangat penting. Hampir setiap negara bagian dan pemerintah federal pada suatu waktu memiliki mainframe dan selalu banyak yang memilikinya. Ritel dan manufaktur. Beberapa perangkat lunak lama yang baru saja ada dan tidak pernah hilang. Hanya terus memperkuat lingkungan manufaktur dan tentu saja ritel pada skala. Sistem medis. Sistem pertahanan, tentu saja sistem pertahanan.

Beberapa minggu terakhir ini saya telah membaca banyak artikel tentang fakta bahwa beberapa sistem kendali rudal masih berjalan di mainframe lama yang mereka perjuangkan untuk menemukan bagiannya. Mereka mencari tahu cara meningkatkan ke mainframe baru. Sistem transportasi dan logistik. Ini mungkin tidak terdengar seperti topik seksi, tetapi ini adalah topik yang kami tangani setiap hari. Dan beberapa lingkungan telekomunikasi yang sangat besar masih berjalan di platform mainframe.

Ketika Anda berpikir tentang tipe data yang ada di sana, semuanya penting untuk misi. Mereka adalah platform yang sangat penting dan platform yang kami terima setiap hari dan dalam banyak hal memungkinkan kehidupan. Jadi siapa yang masih menggunakan mainframe dan siapa orang-orang yang memegang platform besar ini dan menyimpan semua data ini? Yah, seperti yang saya katakan di sini, saya percaya mudah dibodohi oleh pergeseran media dari besi besar ke rak-rak kluster biasa atau PC murah atau mesin x86, dengan berpikir bahwa mainframe mati dan pergi. Tetapi data mengatakan mainframe tidak pernah hilang dan sebenarnya ada di sini untuk tinggal.

Penelitian yang saya lakukan bersama di sini dalam beberapa minggu terakhir telah menunjukkan bahwa 70 persen dari perusahaan, terutama perusahaan besar, data sebenarnya masih berada pada mainframe dari beberapa bentuk. Tujuh puluh satu persen dari Fortune 500 masih menjalankan sistem bisnis inti pada mainframe di suatu tempat. Bahkan, di sini di Australia, kami memiliki sejumlah organisasi yang memiliki pusat data di tengah kota. Ini adalah komputer bawah tanah yang sebenarnya secara efektif, dan jumlah mainframe hanya berjalan di sana, berdetak dan dengan senang hati melakukan pekerjaan mereka. Dan sangat sedikit orang yang tahu bahwa berjalan di sekitar jalan, tepat di bawah kaki mereka di satu bagian tertentu dari kota ada pusat data besar ini diisi dengan mainframe. Sembilan puluh dua dari 100 bank di seluruh dunia, 100 bank teratas, masih menjalankan sistem perbankan pada mainframe. Dua puluh tiga dari 25 rantai ritel teratas di seluruh dunia menggunakan mainframe untuk tetap menjalankan sistem manajemen ritel mereka di platform EIP dan BI.

Yang cukup menarik, 10 dari 10 perusahaan asuransi teratas masih menjalankan platform mereka di mainframe, dan mereka benar-benar memberi daya layanan cloud mereka di mainframe. Jika Anda menggunakan antarmuka web atau aplikasi seluler di suatu tempat yang memiliki antarmuka middleware, yang sebenarnya berbicara dengan sesuatu yang sangat berat dan besar di bagian belakang.

Saya menemukan lebih dari 225 agen pemerintah negara bagian dan lokal di seluruh dunia masih menggunakan platform mainframe. Saya yakin ada banyak alasan untuk itu. Mungkin mereka tidak memiliki anggaran untuk mempertimbangkan besi baru tetapi itu adalah jejak besar dari lingkungan yang sangat besar yang berjalan pada mainframe dengan beberapa data yang sangat penting. Dan seperti yang saya sebutkan sebelumnya, sebagian besar negara masih menjalankan sistem pertahanan utama mereka pada mainframe. Saya yakin dalam banyak hal mereka mencoba untuk pergi ke sana tetapi di sana Anda pergi.

Pada 2015 IDC menjalankan survei dan 350 CIO yang disurvei melaporkan bahwa mereka masih memiliki dan mengelola besi besar dalam bentuk mainframe. Dan saya tersadar bahwa kemungkinan lebih dari jumlah cluster Hadoop skala besar saat ini beroperasi di seluruh dunia dalam produksi - sebuah stat kecil yang menarik di sana. Saya akan pergi ke depan dan memvalidasi itu, tapi itu adalah angka yang besar. Tiga ratus lima puluh CIO melaporkan bahwa mereka memiliki satu atau lebih mainframe yang masih dalam produksi.

Tahun lalu, 2015, IBM memberi kami Z13 yang perkasa, iterasi ke- 13 dari platform mainframe mereka. Media menjadi liar tentang hal ini karena mereka terkejut bahwa IBM masih membuat mainframe. Ketika mereka mengangkat tudung dan melihat apa yang ada di bawah benda itu, mereka menyadari bahwa itu sebenarnya setara dengan hampir setiap platform modern yang membuat kami bersemangat dalam bentuk data besar, Hadoop dan tentu saja cluster. Benda ini menjalankan Spark dan sekarang Hadoop secara asli. Anda dapat menjalankan ribuan mesin Linux di atasnya dan itu tampak dan terasa seperti cluster lainnya. Itu mesin yang cukup mencengangkan.

Sejumlah organisasi mengambil hal-hal ini dan sebenarnya saya melakukan beberapa data tentang berapa banyak mesin ini mengambil. Sekarang saya memiliki pandangan bahwa terminal teks 3270 telah digantikan oleh browser web dan aplikasi seluler untuk beberapa waktu dan ada banyak data yang mendukungnya. Saya pikir sekarang kita memasuki era di mana kita menyadari bahwa mainframe ini tidak akan hilang dan ada sejumlah besar data pada mereka. Dan apa yang kami lakukan sekarang hanyalah menambahkan apa yang saya sebut alat analisis yang tidak ada gunanya. Ini bukan aplikasi yang dibuat khusus. Ini adalah hal-hal yang dipesan satu kali. Ini adalah hal-hal yang secara harfiah dapat Anda beli dalam kotak kemasan dan pasang ke mainframe Anda dan lakukan beberapa analisis.

Seperti yang saya katakan sebelumnya, mainframe sudah ada selama lebih dari 60 tahun, pada kenyataannya. Ketika kita berpikir tentang berapa lama itu, itu lebih lama dari karir karir profesional TI yang sebenarnya. Dan bahkan mungkin sebagian dari hidup mereka, bahkan. Pada tahun 2002 IBM menjual 2.300 mainframe. Pada 2013 itu tumbuh menjadi 2.700 mainframe. Itu 2.700 penjualan mainframe dalam satu tahun pada 2013. Saya tidak bisa mendapatkan data yang akurat pada 2015 tapi saya membayangkan itu semakin dekat dengan 3.000 unit terjual setahun di 2015, 2013. Dan saya berharap dapat mengkonfirmasi itu.

Dengan dirilisnya Z13, iterasi ke- 13 dari platform mainframe, yang saya pikir harganya sekitar 1, 2 atau 1, 3 miliar dolar untuk dikembangkan dari awal, IBM, inilah mesin yang terlihat dan terasa sama seperti kluster lain yang kami miliki hari ini, dan secara native menjalankan Hadoop dan Spark. Dan tentu saja dapat dihubungkan dari analitik lain dan alat data besar atau selalu terhubung ke salah satu cluster Hadoop Anda yang ada atau yang baru. Saya memiliki pandangan ini bahwa memasukkan platform mainframe dalam strategi big data Anda adalah suatu keharusan. Jelas, jika Anda memiliki satu, Anda memiliki banyak data dan Anda ingin mencari cara untuk mendapatkannya di sana. Dan mereka dibiarkan mengumpulkan debu dalam banyak cara, secara mental dan emosional sejauh dunia bisnis berjalan, tetapi mereka ada di sini untuk tinggal.

Konektivitas dan antarmuka untuk semua alat analisis Anda ke data yang di-host mainframe harus menjadi bagian penting dari perusahaan Anda dan khususnya paket data besar pemerintah. Dan selalu sekarang perangkat lunak memperhatikan mereka, memperhatikan mereka dengan seksama dan menyadari apa yang ada di dalam hal-hal ini dan menghubungkan pikiran yang mulai mendapatkan sedikit wawasan dan sedikit perasaan untuk apa yang sebenarnya ada di bawah tenda. Dan dengan itu saya akan menyerahkan kepada rekan tersayang saya, Dr. Robin Bloor dan dia akan menambah perjalanan kecil itu. Robin, bawa pergi.

Robin Bloor: Baiklah, terima kasih. Oke, yah karena Dez telah menyanyikan lagu mainframe, saya akan masuk ke apa yang saya pikir sedang terjadi dalam hal dunia mainframe lama dan dunia Hadoop baru. Saya kira pertanyaan besar di sini adalah, bagaimana Anda mengelola semua data itu? Bukan pendapat saya bahwa mainframe sedang ditantang sehubungan dengan kemampuan data besarnya - kemampuan data besarnya sangat, seperti yang ditunjukkan Dez, sangat mampu. Sebenarnya Anda bisa meletakkan cluster Hadoop di atasnya. Di mana ia ditantang adalah dalam hal ekosistemnya dan saya akan sedikit menguraikannya.

Inilah beberapa posisi mainframe. Ini memiliki biaya masuk yang tinggi dan apa yang sebenarnya terjadi di masa lalu, sejak pertengahan '90 -an ketika popularitas mainframe mulai menurun, cenderung kehilangan ujung bawahnya, orang-orang yang telah membeli mainframe murah dan itu tidak benar-benar sangat ekonomis bagi orang-orang itu. Tapi yang lebih tinggi sebenarnya di mid-range dan high-range mainframe yang sebenarnya, dan benar-benar terbukti, komputasi yang sangat murah.

Itu, harus dikatakan, diselamatkan oleh Linux karena Linux diimplementasikan pada mainframe memungkinkan tentu saja untuk menjalankan semua aplikasi Linux. Banyak aplikasi Linux pergi ke sana sebelum data besar bahkan sebuah kata, atau dua kata kurasa. Ini sebenarnya platform yang cukup bagus untuk cloud pribadi. Karena itu ia dapat berpartisipasi dalam penyebaran cloud hybrid. Salah satu masalah adalah keterampilan mainframe kurang. Keterampilan mainframe yang ada sebenarnya menua dalam arti bahwa orang meninggalkan industri untuk pensiun tahun demi tahun dan mereka baru saja digantikan dalam hal jumlah orang. Jadi itu masalah. Tapi itu masih komputasi murah.

Daerah di mana ia ditantang tentu saja adalah masalah Hadoop ini. Itu gambar Doug Cutting dengan gajah Hadoop asli. Ekosistem Hadoop adalah - dan akan tetap - ekosistem big data yang dominan. Ini menawarkan skala yang lebih baik daripada mainframe benar-benar dapat mencapai dan itu biaya yang lebih rendah sebagai penyimpan data jauh. Ekosistem Hadoop berkembang. Cara terbaik untuk berpikir semacam ini adalah sekali platform perangkat keras tertentu dan lingkungan operasi dengan itu menjadi dominan, maka ekosistem menjadi hidup. Dan itu terjadi dengan mainframe IBM. Nah, kemudian terjadi dengan Digital VAX, terjadi dengan server Sun, terjadi dengan Windows, terjadi dengan Linux.

Dan apa yang terjadi adalah Hadoop, yang saya selalu pikirkan, atau suka pikirkan, sebagai semacam lingkungan terdistribusi untuk data, ekosistemnya berkembang dengan kecepatan yang luar biasa. Maksud saya jika Anda hanya menyebutkan berbagai kontribusi mengesankan yang bersifat open source, Spark, Flink, Kafka, Presto, dan kemudian Anda menambahkan ke dalam beberapa database, kemampuan NoSQL dan SQL yang sekarang duduk di Hadoop. Hadoop adalah ekosistem paling aktif yang sebenarnya ada di luar sana, tentunya dalam komputasi korporat. Tetapi jika Anda ingin memperlakukannya sebagai database, itu tidak ada perbandingan saat ini dengan apa yang saya anggap sebagai database nyata, terutama di ruang data warehouse. Dan itu menjelaskan sampai batas tertentu keberhasilan sejumlah database NoSQL besar yang tidak berjalan di Hadoop seperti CouchDB dan sebagainya.

Sebagai danau data, ia memiliki ekosistem yang jauh lebih kaya daripada platform lainnya dan tidak akan tergeser dari situ. Ekosistemnya bukan hanya ekosistem sumber terbuka. Sekarang ada sejumlah anggota perangkat lunak dramatis yang memiliki produk yang secara fundamental dibangun untuk Hadoop atau telah diimpor ke Hadoop. Dan mereka baru saja menciptakan ekosistem yang tidak ada yang bisa bersaing dengannya dalam hal luasnya. Dan itu berarti benar-benar menjadi platform untuk inovasi big data. Tapi menurut saya itu masih belum matang dan kita bisa berdiskusi panjang tentang apa yang ada dan tidak, katakanlah, secara operasional matang dengan Hadoop tapi saya pikir kebanyakan orang yang melihat area khusus ini sadar betul bahwa Hadoop adalah dekade di belakang mainframe dalam hal kemampuan operasional.

Danau data yang berkembang. Danau data adalah platform dengan definisi apa pun dan jika Anda berpikir akan ada lapisan data dalam komputasi perusahaan sekarang, sangat mudah untuk memikirkannya dalam hal basis data tetap ditambah danau data yang membentuk lapisan data. Aplikasi danau data banyak dan beragam. Saya punya diagram di sini yang baru saja melewati berbagai data pertengkaran hal-hal yang perlu dilakukan jika Anda menggunakan Hadoop sebagai area pementasan atau Hadoop dan Spark sebagai area pementasan. Dan Anda sudah memiliki semuanya - aliran data, pembersihan data, manajemen metadata, penemuan metadata - dapat digunakan untuk ETL itu sendiri tetapi seringkali mengharuskan ETL untuk memasukkan datanya. Manajemen data master, definisi data bisnis, manajemen layanan data apa yang terjadi di Hadoop, manajemen siklus hidup data, dan ETL dari Hadoop, dan juga Anda punya aplikasi analisis langsung yang dapat Anda jalankan di Hadoop.

Dan itulah mengapa itu menjadi sangat kuat dan di mana itu telah diterapkan dan diimplementasikan dengan sukses, biasanya ia memiliki sekurang-kurangnya kumpulan aplikasi semacam ini yang berjalan di atasnya. Dan sebagian besar aplikasi itu, terutama yang telah saya bahas, mereka tidak tersedia di mainframe sekarang. Tapi Anda bisa menjalankannya di mainframe, di cluster Hadoop yang berjalan di partisi mainframe.

Danau data menjadi, menurut pendapat saya, area pementasan alami untuk analisis database cepat dan untuk BI. Ini menjadi tempat di mana Anda mengambil data, apakah itu data perusahaan atau data eksternal, mengacaukannya sampai, katakanlah, cukup bersih untuk digunakan dan terstruktur dengan baik untuk digunakan dan kemudian Anda meneruskannya. Dan semua ini masih dalam masa pertumbuhan.

Idenya, menurut pendapat saya, tentang koeksistensi mainframe / Hadoop, hal pertama adalah bahwa perusahaan besar tidak mungkin meninggalkan mainframe. Bahkan, indikasi yang saya lihat baru-baru ini menyiratkan bahwa ada peningkatan investasi di mainframe. Tapi mereka juga tidak akan mengabaikan ekosistem Hadoop. Saya melihat angka 60 persen dari perusahaan besar menggunakan Hadoop bahkan jika banyak dari mereka sebenarnya hanya membuat prototipe dan bereksperimen.

Masalahnya kemudian adalah, "Bagaimana Anda membuat dua hal ini hidup berdampingan?" Karena mereka perlu berbagi data. Data yang dibawa ke danau data yang mereka butuhkan untuk ditransfer ke mainframe. Data yang ada di mainframe mungkin perlu pergi ke danau data atau melalui danau data untuk bergabung dengan data lain. Dan itu akan terjadi. Dan itu berarti membutuhkan kemampuan transfer data / ETL cepat. Kecil kemungkinan beban kerja akan dibagikan secara dinamis di, katakanlah, lingkungan mainframe atau dengan sesuatu di lingkungan Hadoop. Ini akan menjadi data yang dibagikan. Dan sebagian besar data pasti akan berada di Hadoop hanya karena itu adalah platform termurah untuk itu. Dan pemrosesan analitik ujung-ke-ujung mungkin juga akan berada di sana.

Singkatnya, pada akhirnya kita perlu berpikir dalam hal lapisan data perusahaan, yang bagi banyak perusahaan akan mencakup mainframe. Dan lapisan data itu perlu dikelola secara proaktif. Kalau tidak, keduanya tidak akan hidup berdampingan dengan baik. Saya bisa mengoper bola kembali kepada Anda Eric.

Eric Kavanagh: Sekali lagi, Tendü Saya baru saja menjadikan Anda presenter, jadi bawa pergi.

Tendü Yogurtçu: Terima kasih, Eric. Terima kasih sudah menerima saya. Hai semuanya. Saya akan berbicara tentang pengalaman Syncsort dengan pelanggan sehubungan dengan bagaimana kita melihat data sebagai aset dalam organisasi diratakan dari mainframe ke data besar pada platform analitik. Dan saya berharap bahwa kita juga akan memiliki waktu di akhir sesi untuk memiliki pertanyaan dari penonton karena itu benar-benar bagian paling berharga dari webcast ini.

Hanya untuk orang yang tidak tahu apa yang dilakukan Syncsort, Syncsort adalah perusahaan perangkat lunak. Kami telah ada sebenarnya lebih dari 40 tahun. Dimulai dari sisi mainframe dan produk kami merentang dari mainframe ke Unix ke platform big data, termasuk Hadoop, Spark, Splunk, baik di lokasi maupun di cloud. Fokus kami selalu pada produk data, pemrosesan data, dan produk integrasi data.

Strategi kami sehubungan dengan data besar dan Hadoop telah benar-benar menjadi bagian dari ekosistem sejak hari pertama. Sebagai pemilik vendor yang telah benar-benar fokus pada pemrosesan data dengan mesin yang sangat ringan, kami berpikir bahwa ada peluang besar untuk berpartisipasi dalam Hadoop menjadi platform pemrosesan data dan menjadi bagian dari arsitektur data warehouse generasi mendatang untuk organisasi. Kami telah menjadi kontributor proyek-proyek Apache open-source sejak 2011, dimulai dengan MapReduce. Telah masuk sepuluh besar untuk Hadoop Versi 2, dan berpartisipasi sebenarnya dalam beberapa proyek juga termasuk paket Spark, beberapa konektor kami diterbitkan dalam paket Spark.

Kami memanfaatkan mesin pengolah data kami yang sangat ringan yang sepenuhnya metadata berbasis file, dan duduk sangat baik dengan sistem file terdistribusi seperti Sistem File Terdistribusi Hadoop. Dan kami memanfaatkan warisan kami pada mainframe, keahlian kami dengan algoritma saat kami mengeluarkan produk big data kami. Dan kami bermitra sangat erat dengan vendor besar, pemain besar di sini termasuk Hortonworks, Cloudera, MapR, Splunk. Hortonworks baru-baru ini mengumumkan bahwa mereka akan menjual kembali produk kami untuk ETL onboarding dengan Hadoop. Dengan Dell dan Cloudera kami memiliki kemitraan yang sangat dekat yang juga menjual kembali produk ETL kami sebagai bagian dari alat data besar mereka. Dan dengan Splunk sebenarnya, kami menerbitkan telemetri mainframe dan data keamanan di dasbor Splunk. Kami memiliki kemitraan yang erat.

Apa yang ada dalam pikiran setiap eksekutif tingkat C? Itu benar-benar, "Bagaimana cara memanfaatkan aset data saya?" Semua orang berbicara tentang data besar. Semua orang berbicara tentang Hadoop, Spark, platform komputer berikutnya yang dapat membantu saya menciptakan kelincahan bisnis dan membuka aplikasi transformatif baru. Peluang masuk ke pasar baru. Setiap eksekutif berpikir, "Apa strategi data saya, apa inisiatif data saya, dan bagaimana saya memastikan bahwa saya tidak tetap berada di belakang pesaing saya, dan saya masih berada di pasar ini dalam tiga tahun ke depan?" Kami lihat ini ketika kami berbicara dengan pelanggan kami, saat kami berbicara dengan basis pelanggan global kami, yang cukup besar, seperti yang dapat Anda bayangkan, karena kami telah ada untuk sementara waktu.

Ketika kami berbicara dengan semua organisasi ini, kami juga melihat ini di tumpukan teknologi dalam gangguan yang terjadi dengan Hadoop. Ini benar-benar untuk memenuhi permintaan ini tentang data sebagai aset. Memanfaatkan semua aset data yang dimiliki organisasi. Dan kita telah melihat arsitektur data warehouse perusahaan berevolusi sehingga Hadoop sekarang adalah pusat baru dari arsitektur data modern. Dan sebagian besar pelanggan kami, apakah itu layanan keuangan, apakah itu asuransi, perusahaan ritel, inisiatif biasanya kami temukan bahwa Hadoop sebagai layanan atau data sebagai layanan. Karena semua orang berusaha membuat aset data tersedia untuk klien eksternal atau klien internal mereka. Dan di beberapa organisasi kami melihat inisiatif seperti hampir pasar data untuk klien mereka.

Dan salah satu langkah pertama untuk mencapai itu semua adalah dari menciptakan hub data perusahaan. Terkadang orang menyebutnya sebagai data lake. Membuat hub data perusahaan ini sebenarnya tidak semudah kedengarannya karena benar-benar memerlukan akses dan pengumpulan data apa pun di perusahaan. Dan data itu sekarang berasal dari semua sumber baru seperti sensor seluler serta database lama dan dalam mode batch dan dalam mode streaming. Integrasi data selalu menjadi tantangan, namun, dengan jumlah dan variasi sumber data dan gaya pengiriman yang berbeda, apakah itu batch atau streaming real-time, itu bahkan lebih menantang sekarang dibandingkan dengan lima tahun lalu, sepuluh tahun lalu. Kita terkadang menyebutnya sebagai, "Ini bukan ETL ayahmu lagi."

Jadi kita berbicara tentang aset data yang berbeda. Ketika perusahaan berusaha memahami data baru, data yang mereka kumpulkan dari perangkat seluler, apakah sensor di pabrik mobil atau itu adalah data pengguna untuk perusahaan game seluler, mereka sering perlu merujuk aset data paling kritis di perusahaan, yang merupakan informasi pelanggan, misalnya. Aset data paling kritis ini seringkali hidup di mainframe. Mengaitkan data mainframe dengan sumber-sumber baru yang muncul ini, dikumpulkan di cloud, dikumpulkan melalui ponsel, dikumpulkan pada jalur pembuatan perusahaan mobil Jepang, atau aplikasi internet hal-hal, harus memahami data baru ini dengan merujuk pada kumpulan data lama mereka. Dan kumpulan data lama tersebut sering berada di mainframe.

Dan jika perusahaan-perusahaan ini tidak dapat melakukan itu, tidak dapat memanfaatkan data mainframe maka ada peluang yang terlewatkan. Kemudian data sebagai layanan, atau memanfaatkan semua data perusahaan tidak benar-benar memanfaatkan aset yang paling penting dalam organisasi. Ada juga bagian data telemetri dan keamanan karena hampir semua data transaksional hidup di mainframe.

Bayangkan Anda pergi ke ATM, saya pikir salah satu peserta mengirim pesan kepada peserta di sini untuk melindungi sistem perbankan, ketika Anda menggesek kartu Anda bahwa data transaksional cukup banyak secara global pada mainframe. Dan mengamankan dan mengumpulkan data keamanan dan data telemetri dari mainframe dan menjadikannya tersedia melalui dashboard Splunk atau lainnya, Spark, SQL, menjadi lebih penting sekarang daripada sebelumnya, karena volume data dan beragamnya data.

Set keterampilan adalah salah satu tantangan terbesar. Karena di satu sisi Anda memiliki tumpukan data besar yang berubah dengan cepat, Anda tidak tahu proyek mana yang akan bertahan, proyek mana yang tidak akan bertahan, haruskah saya mempekerjakan pengembang Hive atau Pig? Haruskah saya berinvestasi di MapReduce atau Spark? Atau hal berikutnya, Flink, kata seseorang. Haruskah saya berinvestasi di salah satu platform komputer ini? Di satu sisi, mengikuti ekosistem yang berubah dengan cepat adalah sebuah tantangan, dan di sisi lain Anda memiliki sumber data warisan ini. Perangkat keterampilan baru tidak benar-benar cocok dan Anda mungkin memiliki masalah karena sumber daya itu mungkin benar-benar pensiun. Ada kesenjangan besar dalam hal keahlian orang-orang yang memahami tumpukan data lama tersebut dan yang memahami tumpukan teknologi yang muncul.

Tantangan kedua adalah tata kelola. Ketika Anda benar-benar mengakses semua data perusahaan di seluruh platform, kami memiliki pelanggan yang mengajukan kekhawatiran bahwa, “Saya tidak ingin data saya masuk. Saya tidak ingin data saya disalin di banyak tempat karena saya ingin menghindari banyak salinan sebanyak mungkin. Saya ingin memiliki akses ujung ke ujung tanpa mendarat di tengah sana. ”Mengatur data ini menjadi tantangan. Dan bagian lainnya adalah bahwa jika Anda mengakses data yang menghambat, jika Anda mengumpulkan sebagian besar data Anda di cloud dan mengakses dan merujuk data lama, bandwidth jaringan menjadi masalah, platform cluster. Ada banyak tantangan dalam hal memiliki inisiatif data besar ini dan platform analitik canggih dan belum memanfaatkan semua data perusahaan.

Apa yang Syncsort tawarkan adalah, kami disebut "hanya yang terbaik" bukan karena kami hanya yang terbaik tetapi pelanggan kami benar-benar menyebut kami sebagai yang terbaik dalam mengakses dan mengintegrasikan data mainframe. Kami mendukung semua format data dari mainframe dan membuatnya tersedia untuk analitik data besar. Baik itu di Hadoop atau Spark atau platform komputer berikutnya. Karena produk kami benar-benar melindungi kompleksitas platform komputer. Anda, sebagai pengembang, berpotensi berkembang di laptop, berfokus pada jalur pipa data dan apa saja persiapan datanya, langkah-langkah untuk membuat data ini dibuat untuk analisis, fase berikutnya, dan mengambil aplikasi yang sama di MapReduce atau mengambilnya aplikasi yang sama di dalam Spark.

Kami membantu pelanggan kami melakukan hal itu ketika BENANG menjadi tersedia dan mereka harus memindahkan aplikasi mereka dari MapReduce versi 1 ke BENANG. Kami membantu mereka melakukan hal yang sama dengan Apache Spark. Produk kami, rilis 9 baru berjalan dengan Spark juga dan dikirimkan dengan optimisasi dinamis yang akan mengisolasi aplikasi ini untuk kerangka kerja komputer masa depan.

Jadi kami telah mengakses data mainframe, apakah itu file VSAM, apakah itu DB2, atau apakah itu data telemetri, seperti catatan SMF atau Log4j atau syslog, yang perlu divisualisasikan melalui dasbor Splunk. Dan saat melakukan itu, karena organisasi dapat memanfaatkan keahlian data engineer atau ETL yang ada, waktu pengembangan berkurang secara signifikan. Bahkan dengan Dell dan Cloudera, ada patokan independen yang disponsori, dan patokan itu berfokus pada waktu pengembangan yang diperlukan jika Anda melakukan pengodean tangan atau menggunakan alat lain seperti Syncsort, dan pengurangan itu sekitar 60, 70 persen dalam waktu pengembangan . Menjembatani ketrampilan membuat celah lintas kelompok, melintasi host file data tersebut, dan juga host file data tersebut dalam hal orang.

Biasanya tim big data, atau tim ingest data, atau tim yang ditugaskan untuk mengembangkan data ini sebagai arsitektur layanan, tidak perlu berbicara dengan tim mainframe. Mereka ingin meminimalkan interaksi itu hampir di banyak organisasi. Dengan menutup celah itu kami telah maju. Dan bagian terpenting adalah mengamankan seluruh proses. Karena dalam perusahaan ketika Anda berurusan dengan data sensitif semacam ini ada banyak persyaratan.

Dalam industri yang sangat diatur seperti asuransi dan perbankan, pelanggan kami bertanya, mereka berkata, “Anda menawarkan akses data mainframe ini dan itu hebat. Bisakah Anda juga menawarkan saya membuat format rekaman yang dikodekan EBCDIC ini disimpan dalam format aslinya sehingga saya dapat memenuhi persyaratan audit saya? ”Jadi kami membuat Hadoop dan Apache Spark memahami data mainframe. Anda dapat menyimpan data dalam format rekaman aslinya, melakukan pemrosesan dan meratakan platform komputer distributor, dan jika Anda perlu mengembalikannya, Anda dapat menunjukkan catatan tidak berubah dan format catatan tidak berubah, Anda dapat mematuhi persyaratan peraturan .

Dan sebagian besar organisasi, karena mereka menciptakan hub data atau danau data, mereka juga mencoba melakukan ini dengan satu klik untuk dapat memetakan metadata dari ratusan skema dalam database Oracle ke Hive tables atau ORC atau file Parket menjadi perlu. Kami mengirimkan alat dan kami menyediakan alat untuk menjadikan ini akses data satu langkah, pekerjaan penghasil otomatis atau pergerakan data, dan pekerjaan penghasil otomatis untuk membuat pemetaan data.

Kami berbicara tentang bagian konektivitas, kepatuhan, tata kelola, dan pemrosesan data. Dan produk kami tersedia baik di lokasi maupun di cloud, yang membuatnya sangat sederhana karena perusahaan tidak perlu memikirkan apa yang akan terjadi dalam satu atau dua tahun ke depan jika saya memutuskan untuk sepenuhnya menggunakan cloud publik versus hybrid lingkungan, karena beberapa cluster mungkin berjalan di lokasi atau di cloud. Dan produk kami tersedia baik di Amazon Marketplace, di EC2, Elastic MapReduce dan juga ke wadah Docker.

Hanya untuk menyelesaikan, jadi kita punya cukup waktu untuk tanya jawab, ini benar-benar tentang mengakses, mengintegrasikan dan mematuhi tata kelola data, namun membuat semua ini lebih sederhana. Dan sementara membuat ini lebih sederhana, "desain sekali dan gunakan di mana saja" dalam arti sebenarnya karena kontribusi open-source kami, produk kami berjalan secara native dalam aliran data Hadoop dan secara asli dengan Spark, mengisolasi organisasi dari ekosistem yang berubah dengan cepat. Dan menyediakan pipa data tunggal, antarmuka tunggal, baik untuk batch dan streaming.

Dan ini juga membantu organisasi kadang-kadang mengevaluasi kerangka kerja ini, karena Anda mungkin ingin benar-benar membuat aplikasi dan hanya berjalan di MapReduce versus Spark dan lihat sendiri, ya, Spark punya janji ini dan memberikan semua kemajuan pada algoritma iteratif yang bekerja untuk pembelajaran mesin terbaik dan aplikasi analitik prediktif bekerja dengan Spark, dapatkah saya juga melakukan streaming dan beban kerja batch saya pada kerangka kerja komputer ini? Anda dapat menguji berbagai platform komputer menggunakan produk kami. Dan optimasi dinamis apakah Anda berjalan di server mandiri, di laptop Anda, di Google Cloud versus Apache Spark, benar-benar merupakan proposisi nilai besar bagi pelanggan kami. Dan itu benar-benar didorong oleh tantangan yang mereka miliki.

Saya hanya akan membahas salah satu studi kasus. Ini adalah Perusahaan Asuransi Jiwa Guardian. Dan inisiatif Guardian adalah benar-benar memusatkan aset data mereka dan membuatnya tersedia untuk klien mereka, mengurangi waktu persiapan data dan mereka mengatakan bahwa semua orang berbicara tentang persiapan data mengambil 80 persen dari keseluruhan pipa pemrosesan data dan mereka mengatakan itu sebenarnya mengambil sekitar 75 hingga 80 persen untuk mereka dan mereka ingin mengurangi persiapan data, waktu transformasi, waktu-ke-pasar untuk proyek-proyek analitik. Buat kelincahan itu saat mereka menambahkan sumber data baru. Dan membuat akses data terpusat tersedia untuk semua klien mereka.

Solusi mereka, termasuk produk Syncsort, adalah saat ini mereka memiliki pasar data mirip Amazon Marketplace yang didukung oleh data lake, yang pada dasarnya adalah Hadoop, dan basis data NoSQL. Dan mereka menggunakan produk kami untuk membawa semua aset data ke danau data, termasuk DB2 pada mainframe, termasuk file VSAM pada mainframe, dan basis data sumber data warisan serta sumber data baru. Dan sebagai akibatnya mereka telah memusatkan aset data yang dapat digunakan kembali yang dapat dicari, diakses, dan tersedia untuk klien mereka. Dan mereka benar-benar dapat menambahkan sumber data baru dan melayani klien mereka jauh lebih cepat dan lebih efisien daripada sebelumnya. Dan inisiatif analitik bahkan lebih maju di sisi prediksi juga. Jadi saya akan berhenti sebentar dan saya harap ini bermanfaat dan jika Anda memiliki pertanyaan untuk saya mengenai topik terkait, silakan, silakan.

Eric Kavanagh: Tentu, dan Tendü, saya hanya akan memasukkan satu. Saya mendapat komentar dari seorang penonton yang hanya mengatakan, "Saya suka ini 'desain sekali, sebarkan di mana saja.'" Bisakah Anda menggali bagaimana itu benar? Maksud saya, apa yang telah Anda lakukan untuk mengaktifkan kelincahan semacam itu dan apakah ada pajak? Seperti ketika kita berbicara tentang virtualisasi, misalnya, selalu ada sedikit pajak pada kinerja. Beberapa orang mengatakan dua persen, lima persen, 10 persen. Apa yang telah Anda lakukan untuk mengaktifkan desain sekali, gunakan di mana saja - bagaimana Anda melakukannya dan apakah ada pajak yang terkait dengannya dalam hal kinerja?

Tendü Yogurtçu: Tentu, terima kasih. Tidak, karena tidak seperti beberapa vendor lain, kami tidak benar-benar menghasilkan Hive atau Babi atau kode lain yang bukan asli mesin kami. Di sinilah kontribusi open-source kami memainkan peran besar, karena kami telah bekerja sama dengan vendor Hadoop, Cloudera, Hortonworks, dan MapR dengan sangat dekat dan karena kontribusi open-source kami, engine kami sebenarnya berjalan secara asli sebagai bagian dari aliran, sebagai bagian dari aliran Hadoop, sebagai bagian dari Spark.

Apa yang menerjemahkan juga, kami memiliki optimasi dinamis ini. Ini adalah sesuatu yang datang karena pelanggan kami ditantang dengan kerangka kerja komputer. Ketika mereka akan berproduksi dengan beberapa aplikasi, mereka kembali, mereka berkata, “Saya hanya menstabilkan cluster Hadoop saya, menstabilkan pada MapReduce YARN Versi 2, MapReduce Versi 2, dan orang-orang berbicara bahwa MapReduce sudah mati, Spark adalah hal berikutnya, dan beberapa orang mengatakan Flink akan menjadi hal berikutnya, bagaimana saya akan mengatasinya? "

Dan tantangan itu benar-benar menjadi sangat jelas bagi kami, kami berinvestasi untuk memiliki optimasi dinamis yang kami sebut sebagai eksekusi cerdas. Pada saat run time, ketika pekerjaan, ketika pipa data ini dikirimkan, berdasarkan pada cluster, apakah itu Spark, apakah itu MapReduce atau server mandiri Linux, kami memutuskan bagaimana menjalankan pekerjaan ini, secara asli di mesin kami, sebagai bagian dari itu Alur data Hadoop atau Spark. Tidak ada overhead karena semuanya dilakukan melalui optimasi dinamis yang kami miliki dan semuanya juga dilakukan karena engine kami terintegrasi secara native karena kontribusi open-source kami. Apakah itu menjawab pertanyaan Anda?

Eric Kavanagh: Ya, itu bagus. Dan saya ingin memunculkan satu pertanyaan lagi di sana, dan kemudian Dez, mungkin kami akan menarik Anda dan Robin juga. Saya baru saja mendapat komentar lucu dari salah satu peserta kami. Saya akan membacanya karena itu benar-benar sangat bernoda. Dia menulis, "Tampaknya dalam sejarah hal-hal HEBAT" - mengerti? Seperti IoT - "adalah bahwa semakin Anda mencoba untuk 'menyederhanakan' sesuatu yang benar-benar kompleks, lebih sering daripada tidak sederhana tampaknya melakukan hal-hal, lebih banyak tali gantung disediakan. Pikirkan permintaan basis data, ledakan, multi-threading, dll. ”Bisakah Anda mengomentari paradoks yang ia rujuk ini? Kesederhanaan versus kompleksitas, dan pada dasarnya apa yang sebenarnya terjadi di bawah selimut?

Tendü Yogurtçu: Tentu. Saya pikir itu poin yang sangat valid. Ketika Anda menyederhanakan hal-hal dan melakukan optimasi ini, dengan cara di bawah selimut, seseorang perlu mengambil kerumitan itu dari apa yang perlu terjadi, bukan? Jika Anda melumpuhkan sesuatu atau jika Anda memutuskan bagaimana menjalankan pekerjaan tertentu sehubungan dengan kerangka kerja komputer, jelas ada beberapa bagian dari pekerjaan yang didorong apakah itu di sisi pengguna, pengkodean menu, atau itu di optimasi mesin. Ada bagian dari itu, dengan menyederhanakan pengalaman pengguna ada manfaat besar dalam hal dapat memanfaatkan keahlian yang ada di perusahaan.

Dan Anda dapat mengurangi paradoks itu, mengurangi tantangan itu, "Ya, tapi saya tidak memiliki kendali atas semua yang terjadi di bawah penutup, di bawah kap mesin itu, " dengan memaparkan hal-hal kepada pengguna yang lebih maju jika mereka ingin memiliki kontrol semacam itu. Dengan juga berinvestasi dalam beberapa jenis kemudahan servis. Mampu menawarkan lebih banyak metadata operasional, lebih banyak data operasional, seperti dalam contoh yang diberikan peserta ini, untuk kueri SQL serta dengan mesin berjalan. Saya harap jawaban itu.

Eric Kavanagh: Ya itu kedengarannya bagus. Dez, bawa pergi.

Dez Blanchfield: Saya benar-benar ingin mendapatkan sedikit lebih banyak wawasan tentang jejak Anda dalam kontribusi open-source dan perjalanan yang telah Anda ambil dari pengalaman tradisional lama Anda dalam mainframe dan dunia hak milik dan kemudian beralih ke berkontribusi pada open source dan bagaimana hal itu terjadi. Dan hal lain yang saya ingin pahami adalah pandangan Anda melihat bahwa bisnis, bukan hanya departemen TI, tetapi bisnis sekarang mengambil berkaitan dengan hub data atau danau data seperti yang dikatakan orang sekarang dan apakah mereka melihat tren ini hanya satu danau data terkonsolidasi atau apakah kita melihat danau data terdistribusi dan orang-orang menggunakan alat untuk menggabungkannya?

Tendü Yogurtçu: Tentu. Untuk yang pertama, itu adalah perjalanan yang sangat menarik, sebagai perusahaan perangkat lunak pemilik, salah satu yang pertama setelah IBM. Namun, sekali lagi, semuanya dimulai dengan pelanggan penginjil kami memandang Hadoop. Kami memiliki perusahaan data seperti ComScore, mereka adalah salah satu yang pertama mengadopsi Hadoop karena mereka mengumpulkan data digital di seluruh dunia dan tidak dapat menyimpan data selama 90 hari kecuali mereka menginvestasikan kotak data warehouse bernilai sepuluh juta dolar di lingkungan Hidup. Mereka mulai melihat Hadoop. Dengan itu kami mulai juga melihat Hadoop.

Dan ketika kami membuat keputusan dan mengakui bahwa Hadoop benar-benar akan menjadi platform data masa depan, kami juga sampai pada pemahaman bahwa kami tidak akan dapat memiliki permainan dalam hal ini, permainan yang sukses dalam hal ini, kecuali jika kami adalah bagian dari ekosistem. Dan kami bekerja sangat erat dengan vendor Hadoop, dengan Cloudera, Hortonworks, MapR, dll. Kami mulai benar-benar berbicara dengan mereka karena kemitraan menjadi sangat penting untuk memvalidasi nilai yang dapat diberikan vendor dan juga memastikan bahwa kami dapat bersama-sama pergi ke perusahaan dan menawarkan sesuatu yang lebih bermakna. Itu membutuhkan banyak pembangunan hubungan karena kami tidak dikenal dengan proyek open-source Apache, namun kami mendapat dukungan besar dari vendor Hadoop ini, saya harus mengatakan.

Kami mulai bekerja bersama dan melihat hub, bagaimana kami dapat memberikan nilai tanpa perangkat lunak pemilik kami. Itu penting. Ini bukan hanya tentang menempatkan beberapa API di mana produk Anda dapat berjalan, itu untuk dapat mengatakan bahwa saya akan berinvestasi dalam hal ini karena saya percaya Hadoop akan menjadi platform masa depan, jadi dengan berinvestasi pada sumber yang ingin kami buat yakin itu matang dan menjadi perusahaan siap. Kami benar-benar dapat mengaktifkan beberapa kasus penggunaan yang tidak tersedia sebelum kontribusi kami. Itu akan menguntungkan seluruh ekosistem dan kita dapat mengembangkan kemitraan itu dengan sangat erat.

Butuh cukup banyak waktu. Kami mulai berkontribusi pada 2011, dan 2013, 21 Januari - Saya ingat tanggal itu karena tanggal itu kontribusi terbesar kami dilakukan yang berarti bahwa kami sekarang dapat memiliki produk kami secara umum tersedia sejak saat itu - butuh beberapa waktu untuk mengembangkan hubungan tersebut, menunjukkan nilainya, mitra menjadi mitra desain dengan vendor dan dengan penglaju dalam komunitas open-source. Tapi itu sangat menyenangkan. Sangat bermanfaat sebagai perusahaan bagi kami untuk menjadi bagian dari ekosistem itu dan mengembangkan kemitraan yang hebat.

Pertanyaan kedua tentang data hub / data lake, saya pikir ketika kita melihat data ini sebagai implementasi layanan di sebagian besar kasus, ya, mungkin cluster, secara fisik satu atau beberapa cluster, tetapi lebih konseptual daripada menjadi satu tempat itu untuk semua data. Karena di beberapa organisasi kami melihat penyebaran cluster besar di lokasi, namun mereka juga memiliki cluster, misalnya, di cloud publik karena beberapa data yang dikumpulkan dari bagian online benar-benar disimpan di cloud. Mampu memiliki pipa data tunggal yang benar-benar dapat Anda manfaatkan, dan menggunakannya sebagai hub data tunggal, danau data tunggal, menjadi penting. Tidak hanya tempat fisik saja, tetapi memiliki pusat data dan danau data melintasi cluster, melintasi geografi, dan mungkin di lokasi dan cloud akan menjadi sangat kritis, saya pikir. Terutama bergerak maju. Tahun ini kami mulai melihat semakin banyak penyebaran cloud. Luar biasa. Paruh pertama tahun ini sejauh ini kami telah melihat banyak penyebaran cloud.

Eric Kavanagh: Oke, keren. Dan Robin, apakah Anda punya pertanyaan? Saya tahu kami hanya memiliki beberapa menit lagi.

Robin Bloor: Oke, saya bisa bertanya padanya. Hal pertama yang terpikir oleh saya adalah bahwa ada banyak kegembiraan tentang Kafka dan saya tertarik pada pendapat Anda tentang Kafka dan bagaimana Anda mengintegrasikan dengan cara orang menggunakan Kafka?

Tendü Yogurtçu: Tentu. Ya, Kafka menjadi sangat populer. Di antara pelanggan kami, kami melihat bahwa menjadi semacam lapisan transportasi data dan melihat bahwa data tersebut adalah bus, cukup banyak. Sebagai contoh, salah satu pelanggan kami sebenarnya menggunakan jenis data konsumsi yang didorong ke dalam Kafka ini di antara banyak, seperti ribuan pengguna online dan mampu mengklasifikasikannya dan mendorongnya.

Sekali lagi, Kafka adalah bus data ke konsumen yang berbeda dari data ini. Klasifikasi beberapa pengguna tingkat lanjut versus pengguna yang tidak terlalu maju dan lakukan sesuatu yang berbeda untuk bergerak maju dalam jalur pipa data tersebut. Bagaimana kami berintegrasi dengan Kafka pada dasarnya, produk kami DMX-h menjadi konsumen yang dapat diandalkan, konsumen yang sangat efisien, dapat diandalkan untuk Kafka. Itu bisa membaca data dan ini tidak ada bedanya dengan membaca data dari sumber data lain untuk kita. Kami memberi pengguna kemampuan untuk mengontrol jendela baik dalam hal persyaratan waktu yang mereka miliki atau jumlah pesan yang mungkin mereka konsumsi dari bus Kafka. Dan kemudian kita juga bisa melakukan pengayaan data itu karena melalui produk kami dan didorong kembali ke Kafka. Kami telah menguji ini. Kami telah membandingkannya di situs pelanggan. Juga disertifikasi oleh Confluent. Kami bekerja sama dengan para Confluent dan kinerjanya sangat tinggi dan mudah digunakan. Sekali lagi, ada perubahan API tetapi Anda tidak perlu khawatir karena produk benar-benar memperlakukan itu hanya sebagai sumber data lain, sumber data streaming. Sangat menyenangkan bekerja dengan produk kami dan Kafka, sebenarnya.

Robin Bloor: Oke, saya punya pertanyaan lain yang hanya semacam pertanyaan bisnis umum tapi saya sudah lama kenal Syncsort dan Anda selalu memiliki reputasi dan memberikan perangkat lunak yang sangat cepat untuk ETL dan dunia mainframe. Apakah ini masalahnya bahwa sebagian besar bisnis Anda sekarang ditransfer ke Hadoop? Apakah ini terjadi bahwa dalam satu atau lain cara Anda telah menyebar jenis bisnis Anda secara dramatis dari dunia mainframe?

Tendü Yogurtçu: Produk mainframe kami masih berjalan 50 persen dari mainframe secara global. Jadi kami memiliki lini produk mainframe yang sangat kuat di samping apa yang kami lakukan pada data besar dan ujung Hadoop. Dan kami masih berada di sebagian besar proyek penyederhanaan atau optimisasi TI karena ada satu ujung yang Anda ingin dapat memanfaatkan data mainframe Anda di platform Multex data besar dan memanfaatkan semua data perusahaan, namun ada juga beban kerja transaksional yang sangat penting yang masih terus berjalan pada mainframe dan kami menawarkan para pelanggan cara untuk benar-benar membuat aplikasi tersebut lebih efisien, berjalan di mesin zIIP sehingga mereka tidak mengkonsumsi sebanyak siklus pemrosesan dan MIPS, menjadikannya hemat biaya.

Kami terus berinvestasi dalam produk mainframe dan benar-benar bermain di ruang ini di mana orang-orang beralih dari mainframe besar ke data besar dan menjangkau lini produk juga di seluruh platform tersebut. Jadi kami tidak perlu menggeser seluruh bisnis ke satu sisi, kami terus memiliki bisnis yang sangat sukses di kedua sisi. Dan akuisisi adalah fokus besar bagi kami juga. Seiring berkembangnya manajemen data dan ruang pemrosesan data untuk platform big data ini, kami juga berkomitmen untuk melakukan beberapa akuisisi gratis.

Robin Bloor: Ya saya rasa saya tidak bisa menanyakan kepada Anda apa itu karena Anda tidak diizinkan memberi tahu saya. Saya tertarik pada apakah Anda telah melihat banyak implementasi Hadoop atau Spark sebenarnya di mainframe atau apakah itu hal yang sangat langka.

Tendü Yogurtçu: Kami belum melihat. Masih ada lagi pertanyaan tentang itu. Saya pikir Hadoop pada mainframe tidak masuk akal karena jenis struktur intinya. Namun Spark pada mainframe cukup berarti dan Spark sangat baik dengan pembelajaran mesin dan analitik prediktif dan mampu memiliki beberapa aplikasi dengan data mainframe benar-benar, saya pikir, cukup bermakna. Kami belum melihat ada yang melakukan itu, namun ini benar-benar kasus penggunaan mengemudi hal-hal ini. Jika use case Anda sebagai perusahaan lebih membawa data mainframe itu dan berintegrasi dengan set data lainnya dalam platform big data, itu satu cerita. Itu membutuhkan mengakses data mainframe dari platform Multex big data karena Anda tidak mungkin membawa set data Anda dari sistem terbuka dan dipanggil kembali ke mainframe. Namun, jika Anda memiliki beberapa data mainframe yang ingin Anda jelajahi dan lakukan sedikit penemuan eksplorasi data, terapkan beberapa AI canggih dan analitik lanjutan, maka Spark mungkin merupakan cara yang baik untuk pergi dan menjalankan mainframe seperti itu.

Eric Kavanagh: Dan ada satu pertanyaan lagi dari audiensi, sebenarnya dua lagi. Saya akan memberi Anda pertanyaan tim tag, maka kami akan menyelesaikannya. Salah satu peserta bertanya, "Apakah IBM mengintegrasikan kontribusi open-source Anda pada ekosistem cloud publiknya, dengan kata lain, Bluemix?" Dan peserta lain membuat poin yang sangat bagus, mencatat bahwa Syncsort bagus untuk menjaga besi besar tetap hidup bagi mereka yang sudah memilikinya, tetapi jika perusahaan melepaskan mainframe baru demi apa yang ia sebut CE, cloud segalanya, itu kemungkinan akan menurun, tetapi perhatikan bahwa Anda benar-benar pandai memindahkan data dengan mem-bypass sistem operasi hingga satu gigabyte per detik. Bisakah Anda berbicara tentang kekuatan inti Anda, seperti yang ia sebutkan, dan apakah IBM mengintegrasikan barang-barang Anda ke Bluemix?

Tendü Yogurtçu: Dengan IBM, kami sudah bermitra dengan IBM dan kami melakukan diskusi untuk layanan cloud data mereka yang menawarkan produk. Kontribusi open-source kami terbuka untuk semua orang yang ingin memanfaatkannya. Beberapa konektivitas mainframe juga tersedia dalam paket Spark, jadi bukan hanya IBM. Siapa pun dapat memanfaatkannya. Di Bluemix kami belum melakukan sesuatu yang spesifik tentang itu. Dan apakah Anda keberatan mengulangi pertanyaan kedua?

Eric Kavanagh: Ya, pertanyaan kedua adalah tentang area inti fungsionalitas Anda selama bertahun-tahun, yang benar-benar menangani kemacetan ETL dan jelas itu sesuatu yang masih akan Anda lakukan sebagai mainframe, well, secara teoritis menjauh, meskipun Dez's Titik masih jenis goyang dan bergulir di sana. Tetapi peserta hanya mencatat bahwa Syncsort sangat baik dalam memindahkan data dengan mem-bypass sistem operasi dan hingga satu gigabyte per detik. Bisakah Anda mengomentari itu?

Tendü Yogurtçu: Ya, bahwa efisiensi sumber daya secara keseluruhan telah menjadi kekuatan kami dan skalabilitas dan kinerja adalah kekuatan kami. Kami tidak berkompromi, menyederhanakan memiliki banyak arti, kami tidak berkompromi dari itu. Ketika orang mulai berbicara tentang Hadoop pada 2014, misalnya, banyak organisasi yang tidak benar-benar melihat kinerja pada awalnya. Mereka berkata, "Oh, jika sesuatu terjadi, saya dapat menambahkan beberapa node lagi dan saya akan baik-baik saja, kinerja bukan persyaratan saya."

Sementara kami berbicara tentang memiliki kinerja terbaik karena kami sudah berjalan secara asli, kami bahkan tidak memiliki beberapa cegukan awal yang Hive miliki dengan beberapa pekerjaan MapReduce dan overhead dengan memulai mereka. Orang-orang mengatakan kepada kami, "Oh, itu bukan kekhawatiran saya, jangan khawatir tentang itu saat ini."

Ketika kami tiba di 2015, lanskap telah berubah karena beberapa pelanggan kami telah melebihi penyimpanan yang mereka miliki di kluster produksi mereka. Menjadi sangat penting bagi mereka untuk melihat apa yang dapat ditawarkan Syncsort. Jika Anda mengambil beberapa data dari database atau mainframe dan menulis ke dalam format Parket di cluster, apakah Anda mendarat dan panggung dan melakukan transformasi lain atau hanya melakukan transformasi dalam pesawat dan mendarat file format target, buat perbedaan karena Anda menyimpan dari penyimpanan, Anda menghemat dari bandwidth jaringan, Anda menghemat dari beban kerja pada cluster karena Anda tidak menjalankan pekerjaan tambahan. Kekuatan-kekuatan yang kita mainkan dalam hal sangat sadar, kita merasakan efisiensi sumber daya di bawah kulit kita, tampaknya.

Begitulah cara kami menggambarkannya. Ini sangat penting bagi kami. Kami tidak menerima begitu saja. Kami tidak pernah menerima begitu saja sehingga kami akan terus menjadi kuat dengan leverage di Apache Spark atau kerangka kerja komputer berikutnya. Itu akan terus menjadi fokus kami. Dan dalam hal bagian pergerakan data dan bagian akses data, pasti itu salah satu kekuatan kami dan kami mengakses data DB2 atau VSAM pada mainframe dalam konteks Hadoop atau Spark.

Eric Kavanagh: Ya, itu cara yang bagus untuk mengakhiri webcast, kawan. Terima kasih banyak atas waktu dan perhatiannya. Terima kasih kepada Anda, Tendu dan Syncsort, karena datang ke ruang pengarahan dan melangkah ke babak, seperti yang mereka katakan. Banyak pertanyaan bagus dari hadirin. Lingkungan yang selalu bergerak di luar sana, kawan. Kami akan mengarsipkan Teknologi Panas ini seperti yang kami lakukan dengan semua yang lain. Anda dapat menemukan kami di insideanalysis.com dan di techopedia.com. Biasanya naik sekitar satu hari. Dan dengan itu, kami akan mengucapkan selamat tinggal, kawan. Terima kasih banyak. Kami akan segera berbicara dengan Anda. Hati hati. Sampai jumpa.

Setrika besar, ketemu data besar: membebaskan data mainframe dengan hadoop dan spark