Rumah Database Kekuatan saran: bagaimana katalog data memberdayakan analis

Kekuatan saran: bagaimana katalog data memberdayakan analis

Anonim

Oleh Staf Techopedia, 22 Juni 2016

Takeaway: Host Rebecca Jozwiak membahas keunggulan katalog data dengan Dez Blanchfield, Robin Bloor dan David Crawford.

Anda harus mendaftar untuk acara ini untuk melihat video. Daftar untuk melihat videonya.

Rebecca Jozwiak: Hadirin sekalian, halo dan selamat datang di Hot Technologies 2016. Hari ini kita sudah mendapatkan, "Kekuatan Saran: Bagaimana Katalog Data Memberdayakan Analis." Saya adalah host Anda Rebecca Jozwiak, mengisi host kami yang biasa Eric Kavanagh hari ini, saat dia bepergian keliling dunia, jadi terima kasih telah bergabung dengan kami. Tahun ini panas, tidak hanya panas di Texas di mana saya berada, tetapi panas di semua tempat. Ada ledakan dari semua jenis teknologi baru yang keluar. Kami punya IoT, streaming data, adopsi cloud, Hadoop terus menjadi dewasa dan diadopsi. Kami memiliki otomatisasi, pembelajaran mesin, dan semua hal ini tentu saja digarisbawahi oleh data. Dan perusahaan menjadi semakin banyak data yang didorong oleh hari. Dan tentu saja, intinya adalah untuk mengarah pada pengetahuan, dan penemuan dan, Anda tahu, membuat keputusan yang lebih baik. Tetapi untuk benar-benar mendapatkan nilai terbaik dari data, itu harus mudah dicapai. Jika Anda menyimpannya dalam keadaan terkunci, atau dikubur, atau ada di benak beberapa orang di perusahaan, itu tidak akan banyak bermanfaat bagi perusahaan secara keseluruhan.

Dan saya agak berpikir tentang katalog data dan berpikir tentang perpustakaan, di mana dulu di mana Anda pergi jika Anda perlu menemukan sesuatu, jika Anda perlu meneliti suatu topik, atau mencari beberapa informasi, Anda pergi ke perpustakaan, dan tentu saja Anda pergi ke katalog kartu, atau wanita pemarah yang bekerja di sana. Tapi itu juga menyenangkan untuk berkeliling, jika Anda hanya ingin melihat, dan yakin Anda mungkin menemukan sesuatu yang rapi, Anda mungkin menemukan beberapa fakta menarik yang tidak Anda ketahui, tetapi jika Anda benar-benar perlu mencari sesuatu, dan Anda tahu apa yang Anda cari, Anda memerlukan katalog kartu, dan tentu saja yang setara dengan perusahaan adalah katalog data, yang dapat membantu menyinari semua data bagi pengguna kami untuk memperkaya, menemukan, berbagi, mengonsumsi, dan benar-benar membantu orang mendapatkan data lebih cepat dan lebih mudah.

Jadi hari ini kita memiliki Dez Blanchfield, ilmuwan data kita sendiri, dan kita memiliki Dokter Robin Bloor, kepala analis kita sendiri, kita mendapatkan David Crawford dari Alation, yang akan berbicara tentang kisah katalogisasi data perusahaannya, tetapi pertama-tama kita akan memimpin dengan Dez. Dez, saya mengoper bola kepada Anda dan lantai milik Anda.

Dez Blanchfield: Terima kasih, terima kasih sudah menerima saya hari ini. Ini adalah masalah yang saya sangat tertarik, karena hampir setiap organisasi yang saya temui dalam pekerjaan saya sehari-hari, saya menemukan masalah yang sama persis dengan yang kami bicarakan secara singkat di olok-olok pertunjukan, dan itu adalah bahwa sebagian besar organisasi yang telah berkecimpung dalam bisnis selama lebih dari beberapa tahun memiliki sejumlah besar data yang terkubur di sekitar organisasi, format yang berbeda, dan sebenarnya saya memiliki klien yang memiliki kumpulan data yang kembali ke Lotus Notes, basis data yang masih berjalan di beberapa case sebagai pseudo internets mereka, dan mereka, semua menghadapi tantangan ini untuk benar-benar menemukan di mana data mereka, dan bagaimana mendapatkan akses ke sana, siapa yang memberikan akses kepadanya, kapan memberikan akses kepada mereka, dan dan bagaimana hanya katalog, dan cara membawanya ke tempat di mana setiap orang dapat: A) mengetahui apa yang ada dan apa yang ada di dalamnya, dan B), cara mendapatkan akses ke sana dan menggunakannya. Dan salah satu tantangan terbesar tentu saja menemukannya, tantangan besar lainnya adalah mengetahui apa yang ada di sana dan bagaimana mengaksesnya.

Saya mungkin tahu bahwa saya punya lusinan database, tetapi saya tidak benar-benar tahu apa yang ada di sana atau bagaimana mencari tahu apa yang ada di sana, dan selalu seperti yang kita temukan sekarang dalam data pra-pertunjukan, Anda cenderung untuk berjalan di sekitar kantor dan mengajukan pertanyaan, dan berteriak di dinding kubus dan mencoba dan mencari tahu, sering pengalaman saya, Anda bahkan mungkin menemukan Anda berkeliaran ke meja depan, resepsi, dan bertanya apakah ada yang tahu siapa Anda akan berbicara dengan. Cukup sering, itu tidak selalu orang-orang TI karena mereka tidak mengetahui kumpulan data karena seseorang baru saja menciptakannya, dan itu bisa menjadi sesuatu yang sederhana seperti - cukup sering kita akan menemukan proyek semacam itu yang berdiri di lingkungan IT dan manajer proyek menggunakan spreadsheet untuk semua hal, dan mendapatkan sejumlah besar informasi berharga seputar aset dan konteks dan nama, dan kecuali Anda tahu proyek itu dan Anda mengenal orang itu, Anda tidak akan dapat menemukan informasi itu. Itu tidak tersedia, dan Anda harus mendapatkan file asli itu.

Ada frasa yang telah dipermainkan sekitar mengenai data dan saya tidak selalu setuju dengan itu, tapi saya pikir itu membuang-buang kecil yang lucu dan itu adalah bahwa sejumlah orang berpikir bahwa data adalah minyak baru, dan saya yakin kita akan membahasnya dalam beberapa aspek juga, nanti hari ini. Tetapi yang saya perhatikan, tentu saja yang menjadi bagian dari transformasi itu, adalah bahwa organisasi bisnis yang telah belajar untuk menilai data mereka telah memperoleh keuntungan yang signifikan atas pesaing mereka.

Ada sebuah makalah yang menarik oleh IBM, sekitar lima atau enam tahun yang lalu, dan mereka mensurvei sekitar 4.000 perusahaan di Australia, dan mereka mengambil semua informasi, semua data kinerja, semua data keuangan, dan menyatukannya dalam panci mendidih dan kemudian mengirimnya ke Australian School of Economics, dan mereka benar-benar memulai tren yang sama di sini, dan itu adalah bahwa perusahaan yang memanfaatkan teknologi selalu memperoleh keunggulan kompetitif seperti rekan-rekan dan pesaing mereka sehingga pesaing mereka hampir tidak pernah mengejar, dan saya pikir itulah masalahnya sekarang dengan data yang telah kita lihat apa yang orang sebut transformasi digital di mana organisasi yang telah dengan jelas menemukan cara menemukan data yang mereka punya, untuk membuat data itu tersedia, dan membuatnya tersedia dalam beberapa bahan yang sangat mudah dikonsumsi. fashion untuk organisasi, tanpa harus selalu tahu mengapa organisasi mungkin membutuhkannya, dan mendapatkan keuntungan signifikan dibandingkan pesaing.

Saya punya beberapa contoh di slide ini, yang bisa Anda lihat. Satu baris saya adalah, adalah bahwa gangguan skala besar di hampir setiap sektor industri, dalam pandangan saya, sedang didorong oleh data, dan jika tren saat ini adalah sesuatu untuk dilewati, pandangan saya adalah kita baru benar-benar mendapatkan dimulai karena ketika merek lama akhirnya sadar apa artinya ini dan memasuki permainan, mereka akan memasuki permainan dengan harga grosir. Ketika semacam pengecer besar yang memiliki banyak data mulai menerapkan beberapa analisis historis pada data tersebut, jika mereka tahu itu ada, maka beberapa pemain online akan mendapatkan sedikit panggilan bangun.

Tetapi dengan sebagian besar dari merek-merek ini, maksud saya, kami memiliki Uber yang merupakan perusahaan taksi terbesar di dunia. Mereka tidak memiliki taksi, jadi apa yang membuat mereka jadi ajaib, apa data mereka? Airbnb, penyedia akomodasi terbesar, kami memiliki WeChat, perusahaan telepon terbesar di dunia, tetapi mereka tidak memiliki infrastruktur aktual, dan tidak ada handset, tidak ada saluran telepon. Alibaba, pengecer terbesar di planet ini, tetapi mereka tidak memiliki inventaris apa pun. Facebook, perusahaan media terbesar di dunia. Saya pikir pada hitungan terakhir mereka memiliki 1, 4 miliar pengguna data aktif sekarang, yang merupakan angka yang membingungkan. Itu tidak berada di dekat - saya pikir seseorang mengklaim bahwa seperempat planet ini sebenarnya ada di sana setiap hari, namun di sini adalah penyedia konten yang sebenarnya tidak membuat konten, semua data yang mereka layani tidak dibuat oleh mereka, itu dibuat oleh pelanggan mereka, dan kita semua tahu model ini.

SocietyOne, yang Anda mungkin atau mungkin belum pernah dengar, itu adalah merek lokal, saya pikir di beberapa negara itu adalah bank yang benar-benar melakukan pinjaman peer-to-peer, jadi dengan kata lain, itu tidak punya uang. Yang dilakukannya hanyalah mengelola transaksi dan data berada di bawahnya. Netflix, kita semua sangat, sangat akrab dengan itu. Ada satu kalimat yang menarik di sini. Ketika Netflix secara hukum dapat digunakan di Australia, ketika diumumkan secara resmi, Anda tidak harus menggunakan VPN untuk mendapatkannya, banyak orang di seluruh dunia cenderung - jika Anda tidak bisa mendapatkannya di area lokal Anda - ketika Netfix diluncurkan di Australia, ini meningkatkan bandwidth internasional pada tautan internet kami hingga 40 persen, sehingga hampir dua kali lipat penggunaan internet di Australia dalam semalam, hanya dengan satu aplikasi, satu aplikasi yang di-hosting cloud yang tidak melakukan apa-apa selain bermain dengan data. Itu hanya statistik yang membingungkan.

Dan tentu saja, kita semua akrab dengan Apple dan Google, tetapi ini adalah bisnis perangkat lunak terbesar di planet ini, namun mereka tidak benar-benar menulis aplikasi. Apa yang konsisten dengan semua organisasi ini? Ya, itu data, dan mereka tidak sampai di sana karena mereka tidak tahu di mana data mereka, dan mereka tidak tahu cara membuat katalognya.

Apa yang kami temukan sekarang adalah bahwa ada seluruh kelas aset baru ini yang disebut sebagai data, dan perusahaan sadar akan hal itu. Tetapi mereka tidak selalu memiliki alat dan pengetahuan serta karenanya untuk memetakan semua data itu, untuk membuat katalog semua data itu dan membuatnya tersedia, tetapi kami telah menemukan bahwa perusahaan yang hampir tidak memiliki aset fisik telah memperoleh nilai pasar yang tinggi di mencatat waktu melalui kelas aset data baru ini. Seperti yang saya katakan, beberapa pemain lama sekarang bangun untuk ini dan tentu saja mengeluarkannya.

Saya penggemar berat melakukan sedikit perjalanan, jadi dalam delapan belas ratusan, akhir delapan belas ratusan, dan Anda akan lebih akrab dengan ini di pasar AS, ternyata menjalankan sensus setiap tahun atau lebih, saya pikir mereka menjalankannya setiap sepuluh tahun pada saat itu, tetapi jika Anda akan menjalankan sensus setiap tahun, Anda bisa memerlukan waktu hingga delapan atau sembilan tahun untuk benar-benar melakukan analisis data. Ternyata kumpulan data itu kemudian ditinggalkan di kotak-kotak di tempat-tempat di kertas, dan hampir tidak ada yang bisa menemukannya. Mereka terus memompa laporan-laporan ini, tetapi data aktual sangat sulit didapat, kami memiliki situasi yang serupa dengan momen penting dunia lain, sekitar tahun 1940-an, dengan Perang Dunia Kedua, dan hal ini adalah Bom Taman Bletchley yang dieja dengan BOMBE, dan itu adalah alat analisis angka-angka besar yang akan melalui set data kecil dan menemukan sinyal di dalamnya, dan digunakan untuk membantu memecahkan kode melalui Enigma.

Hal ini sekali lagi, pada dasarnya adalah perangkat yang dirancang, tidak banyak untuk katalog, tetapi untuk menandai dan memetakan data, dan memungkinkan untuk mengambil pola dan menemukannya di dalam kumpulan data, dalam hal ini, memecahkan kode, menemukan kunci dan frasa dan menemukan mereka secara teratur di set data, dan jadi kami telah melalui perjalanan ini menemukan hal-hal dalam data, dan mengarah ke katalog data.

Dan kemudian hal-hal ini muncul, rak-rak mesin berbiaya rendah yang besar ini, hanya mesin-mesin yang tidak tersedia. Dan kami melakukan beberapa hal yang sangat menarik, dan salah satu hal yang kami lakukan dengan mereka adalah kami membangun kelompok biaya yang sangat rendah yang dapat mulai mengindeks planet ini, dan sangat terkenal merek-merek besar ini yang telah datang dan pergi, tetapi mungkin Google adalah rumah paling umum merek yang kita semua pernah dengar - itu menjadi kata kerja aktual, dan Anda tahu Anda berhasil ketika merek Anda menjadi kata kerja. Tetapi apa yang Google ajarkan kepada kami, tanpa disadari, mungkin di dunia bisnis, adalah bahwa mereka mampu mengindeks seluruh planet ke tingkat tertentu, dan membuat katalog data yang ada di seluruh dunia, dan membuatnya tersedia dengan sangat mudah, formulir yang mudah digunakan dalam formula satu-baris kecil, halaman web dengan hampir tidak ada di dalamnya, dan Anda mengetik kueri Anda, ia pergi dan menemukannya karena mereka sudah menjelajahi planet, mengindeksnya dan membuatnya mudah tersedia.

Dan yang kami perhatikan adalah, “Tunggu dulu, kami tidak melakukan ini di organisasi - mengapa begitu? Mengapa kita memiliki organisasi yang dapat memetakan seluruh planet dan mengindeksnya, merayapi dan mengindeksnya, dan membuatnya tersedia, kita dapat mencarinya, lalu klik pada benda untuk pergi dan menemukannya, kenapa kita belum melakukan itu secara internal? ”Jadi ada banyak rak kecil dari mesin di seluruh dunia sekarang yang melakukan itu untuk intranet dan menemukan sesuatu, tetapi mereka masih benar-benar hanya memahami ide melampaui web tradisional halaman, atau server file.

Alih-alih sekarang memasukkan katalog data generasi berikut ini dalam banyak hal, menemukan akses data melalui catatan post-it dan percakapan pendingin air sebenarnya bukan metode yang tepat untuk penemuan dan katalogisasi data lagi, dan pada kenyataannya, saya tidak pernah berpikir itu pernah sungguh. Kita tidak bisa lagi memimpin seluruh tantangan itu kepada orang-orang hanya lewat catatan, dan memposting catatan, dan mengobrol tentang hal itu. Kami baik dan benar-benar di luar area sekarang di mana pendekatan generasi berikutnya untuk katalogisasi data telah datang dan pergi. Kita harus merangkulnya. Jika ini adalah masalah yang mudah, kita akan sudah menyelesaikannya dengan banyak cara sebelumnya, tapi saya pikir itu bukan masalah yang mudah, hanya mengindeks dan memanggil data hanya satu bagian dari itu, mengetahui apa yang ada di data dan membangun metadata di sekitar apa yang kami temukan, dan kemudian membuatnya tersedia dalam bentuk yang mudah dan dapat dikonsumsi, terutama untuk swalayan dan analitik. Ini masih masalah yang dipecahkan, tetapi banyak bagian dari teka-teki dalam lima tahun yang baik dan benar-benar dipecahkan dan tersedia.

Seperti kita ketahui, data katalog manusia adalah resep kegagalan karena kesalahan manusia adalah salah satu mimpi terburuk yang kita hadapi dalam pemrosesan data, dan saya secara teratur berbicara tentang topik ini di mana dalam pandangan saya, manusia yang mengisi formulir kertas mungkin merupakan mimpi terburuk kita berurusan dengan big data dan analytics, untuk terus-menerus memperbaiki hal-hal yang mereka lakukan, bahkan ke hal-hal sederhana seperti tanggal dan bidang, orang meletakkannya dalam format yang salah.

Tapi seperti yang saya katakan, kita telah melihat mesin pencari internet mengindeks dunia setiap hari, jadi sekarang kita membuatnya dengan gagasan bahwa itu dapat dilakukan pada set data bisnis dalam proses penemuan, dan alat dan sistem sekarang tersedia saat Anda akan belajar hari ini. Jadi triknya, menurut saya, adalah memilih alat yang tepat, alat terbaik untuk pekerjaan itu. Dan lebih tepat lagi, menemukan bagian yang tepat untuk membantu Anda memulai jalan ini. Dan saya percaya kita akan mendengarnya hari ini, tetapi sebelum kita melakukannya, saya akan pindah ke kampus saya, Robin Bloor dan mendengar pendapatnya tentang topik itu. Robin, bisakah aku melewatimu?

Robin Bloor: Ya, tentu saja Anda bisa. Mari kita lihat apakah ini berhasil, oh ya itu berhasil. Oke, aku datang dari arah yang berbeda dari Dez, tapi aku akan berakhir di tempat yang sama. Ini tentang menghubungkan ke data, jadi saya hanya berpikir saya akan berjalan melalui kenyataan menghubungkan ke data, poin demi poin benar-benar.

Ada fakta bahwa data lebih terfragmentasi daripada sebelumnya. Volume data tumbuh secara fenomenal, tetapi dalam kenyataannya, berbagai sumber data juga tumbuh pada tingkat yang luar biasa, dan karenanya data menjadi semakin terfragmentasi sepanjang waktu. Tetapi karena aplikasi analitik khususnya - tetapi itu bukan satu-satunya aplikasi - kami telah mendapatkan alasan yang sangat bagus untuk terhubung ke semua data ini, jadi kami terjebak di tempat yang sulit, kami terjebak di dunia data yang terfragmentasi, dan ada peluang dalam data sebagaimana Dez menyebutnya, minyak baru.

Tentang data, yah, dulu tinggal di disk berputar, baik dalam sistem file atau database. Sekarang ia hidup dalam lingkungan yang jauh lebih bervariasi, ia hidup dalam sistem file tetapi juga hidup dalam instance Hadoop saat ini, atau bahkan instance Spark. Ia hidup di beberapa spesies basis data. Belum lama ini, kami semacam menstandardisasi beberapa basis data relasional, Anda tahu itu keluar jendela dalam lima tahun terakhir, karena ada kebutuhan untuk basis data dokumen, dan ada kebutuhan untuk basis data grafik, jadi Anda tahu, permainan memiliki berubah. Jadi itu hidup di disk berputar, tetapi sekarang hidup di SSD. Jumlah terbaru SSD - pasti unit SSD terbaru keluar dari Samsung - dua puluh gigabita, yang sangat besar. Sekarang tinggal di memori, dalam arti bahwa salinan data utama bisa di memori, daripada di disk, kami tidak terbiasa membangun sistem seperti itu; kita lakukan sekarang. Dan itu hidup di awan. Yang berarti ia dapat hidup dalam semua hal ini, di cloud, Anda tidak perlu tahu di mana awan itu berada, Anda hanya akan memiliki alamatnya.

Hanya untuk memahami masalahnya, Hadoop sejauh ini, gagal sebagai penyimpan data yang dapat diperluas. Kami berharap itu akan menjadi penyimpanan data skala besar yang dapat diperluas, dan itu hanya akan menjadi satu sistem file untuk semuanya, dan itu akan terjadi - pelangi akan muncul di langit, pada dasarnya, dan unicorn akan menari-nari, dan tidak ada yang terjadi. Yang berarti kita berakhir dengan masalah transportasi data, dan kadang-kadang tidak ada kebutuhan untuk transportasi data, tetapi juga kesulitan. Data benar-benar memiliki gravitasi saat ini, setelah Anda masuk ke data multi-terabyte, mengambilnya dan membuangnya, jenis penyebab latensi muncul di jaringan Anda, atau muncul di berbagai tempat. Jika Anda ingin memindahkan data, waktu adalah faktor. Hampir selalu, saat ini, ada batasan berapa banyak waktu yang Anda miliki untuk mendapatkan satu hal, satu data dari satu tempat ke tempat lain. Dulu ada apa yang kami anggap sebagai windows batch, ketika mesin itu menganggur, dan tidak peduli berapa banyak data yang Anda miliki, Anda bisa membuangnya dan itu semua akan berhasil. Ya sudah pergi, kita hidup di dunia yang jauh lebih nyata. Oleh karena itu waktu adalah faktor. Segera setelah Anda ingin memindahkan data, jadi jika data memiliki gravitasi, Anda mungkin tidak bisa memindahkannya.

Manajemen data adalah faktor dalam arti bahwa Anda benar-benar harus mengelola semua data ini, Anda tidak mendapatkannya secara gratis, dan replikasi mungkin diperlukan untuk benar-benar mendapatkan data untuk melakukan pekerjaan yang perlu dilakukan, karena mungkin tidak di mana pun Anda meletakkannya. Mungkin tidak memiliki sumber daya yang cukup untuk melakukan pemrosesan data secara normal. Jadi data direplikasi, dan data direplikasi lebih dari yang Anda bayangkan. Saya pikir seseorang mengatakan kepada saya sejak lama bahwa rata-rata data direplikasi setidaknya dua setengah kali. ESB atau Kafka menyajikan opsi untuk aliran data, tetapi saat ini menuntut arsitektur. Saat ini Anda benar-benar perlu berpikir dengan satu atau lain cara, tentang apa sebenarnya artinya membuang data. Oleh karena itu, untuk mengakses data di mana itu, biasanya lebih disukai, selama, tentu saja, Anda bisa mendapatkan kinerja yang Anda butuhkan ketika Anda benar-benar pergi untuk data dan itu tergantung pada konteksnya. Jadi ini adalah situasi yang sulit. Dalam hal kueri data, kami dulu dapat berpikir dalam hal SQL, kami telah benar-benar muncul sekarang, Anda tahu, berbagai bentuk kueri, SQL ya, tapi berdekatan, juga kueri grafik, Spark hanyalah satu contoh dari melakukan grafik, karena juga kita perlu melakukan pencarian teks, lebih dari yang pernah kita lakukan, juga jenis pencarian regex, yang benar-benar rumit pencarian untuk pola, dan pencocokan pola asli, semua hal ini sebenarnya menggelegak. Dan semuanya berguna karena memberi Anda apa yang Anda cari, atau mereka bisa mendapatkan apa yang Anda cari.

Kueri sekarang mencakup banyak data, jadi tidak selalu melakukan itu, dan seringkali kinerjanya mengerikan jika Anda melakukannya. Jadi, itu tergantung pada keadaan, tetapi orang berharap untuk dapat meminta data dari berbagai sumber data, sehingga federasi data dari satu atau lain jenis menjadi lebih dan lebih baru. Virtualisasi data, yang merupakan cara berbeda untuk melakukannya, tergantung pada kinerjanya, juga sangat umum. Permintaan data sebenarnya merupakan bagian dari suatu proses, bukan keseluruhan proses. Layak untuk menunjukkan bahwa jika Anda benar-benar melihat kinerja analitik, analitik yang sebenarnya bisa memakan waktu yang jauh lebih lama daripada pengumpulan data, karena itu tergantung pada keadaan, tetapi kueri data merupakan kebutuhan mutlak jika Anda ingin melakukan jenis analitik pada berbagai sumber data, dan itu hanya, Anda benar-benar benar-benar harus memiliki kemampuan yang menjangkau.

Jadi tentang katalog. Katalog ada karena suatu alasan, setidaknya kami mengatakan bahwa, Anda tahu, itu, kami memiliki direktori, dan kami memiliki skema dalam database, dan kami memiliki setiap katalog dan kami memiliki ke mana pun Anda pergi, Anda akan menemukan satu tempat dan kemudian Anda akan benar-benar menemukan bahwa ada semacam katalog, dan katalog global terpadu adalah ide yang jelas bagus. Tetapi sangat sedikit perusahaan yang memiliki hal seperti itu. Saya ingat, kembali pada tahun dua ribu - tahun dua ribu panik - saya ingat bahwa komunis bahkan tidak dapat menjabarkan berapa banyak executable yang mereka miliki, tidak peduli berapa banyak penyimpanan data yang mereka miliki, dan mungkin itu yang terjadi sekarang, Anda tahu, bahwa sebagian besar perusahaan tidak secara aktif tahu dalam arti global, data apa yang mereka miliki. Tetapi jelas menjadi semakin diperlukan untuk benar-benar memiliki katalog global, atau setidaknya memiliki gambaran global tentang apa yang sedang terjadi karena pertumbuhan sumber data, dan pertumbuhan aplikasi yang terus-menerus, dan khususnya diperlukan untuk analitik, karena Anda juga dalam satu cara, dan ada masalah lain di sini seperti garis silsilah dan masalah dengan data, dan itu diperlukan untuk keamanan, banyak aspek tata kelola data, jika Anda benar-benar tidak tahu data apa yang Anda dapatkan, idenya bahwa Anda akan memerintah itu tidak masuk akal. Jadi, dalam hal itu, semua data yang dikatalogkan dalam beberapa cara hanyalah fakta. Pertanyaannya adalah apakah katalog tersebut koheren, dan sebenarnya apa yang dapat Anda lakukan dengannya. Jadi saya akan meneruskan kembali ke Rebecca.

Rebecca Jozwiak: Oke, terima kasih Robin. Selanjutnya kami mendapatkan David Crawford dari Alation, David, saya akan meneruskan dan memberikan bola kepada Anda, dan Anda bisa mengambilnya.

David Crawford: Terima kasih banyak. Saya sangat menghargai kalian memiliki saya di acara ini. Saya pikir saya akan memulai ini, jadi saya pikir peran saya di sini, adalah untuk mengambil beberapa teori itu dan melihat bagaimana teori itu benar-benar diterapkan, dan hasil yang dapat kami kendalikan pada pelanggan nyata sehingga Anda dapat melihat beberapa di slide, saya ingin berbicara tentang hasil apa yang akan dapat kita lihat dalam perbaikan yang mungkin analitik. Jadi untuk memotivasi diskusi, kita akan berbicara tentang bagaimana mereka sampai di sana. Jadi saya beruntung bisa bekerja cukup dekat dengan banyak orang yang benar-benar pintar, para pelanggan ini, dan saya hanya ingin menunjukkan beberapa yang telah benar-benar dapat mengukur, dan berbicara tentang bagaimana memiliki katalog data telah memengaruhi analis mereka. alur kerja. Dan untuk tinggal sebentar di depan, saya pikir salah satu hal yang kita lihat berubah, dengan katalog data ayat solusi termediasi sebelumnya dan salah satu cara hubungan yang benar-benar berpikir tentang solusi yang kami kumpulkan, adalah mulai dari analis dan bekerja mundur. Untuk mengatakan, mari kita buat ini tentang memungkinkan produktivitas analis. Bertentangan dengan kepatuhan yang adil, atau yang bertentangan dengan hanya memiliki inventaris, kami membuat alat yang membuat analis lebih produktif.

Jadi, ketika saya berbicara dengan seorang ilmuwan data di perusahaan jasa keuangan Square, ada seorang lelaki, Nick, yang memberi tahu kami bagaimana caranya, ia dulu membutuhkan waktu beberapa jam untuk menemukan kumpulan data yang tepat untuk memulai laporan, sekarang ia dapat lakukan dalam hitungan detik menggunakan pencarian di pangsa pasar, kami berbicara dengan CTO mereka yang menarik analisnya yang menggunakan Square, permisi, menggunakan Alation, untuk mencari tahu apa, manfaat apa yang mereka lihat, dan mereka melaporkan 50 persen peningkatan produktivitas, dan bahwa, salah satu pengecer top dunia, eBay, mereka punya lebih dari seribu orang yang melakukan analisis SQL secara teratur, dan saya bekerja cukup dekat dengan Deb Says di sana, siapa proyeknya manajer dalam tim alat data mereka, dan dia menemukan bahwa ketika querier mengadopsi Alation, mengadopsi katalog, mereka melihat dua kali lipat kecepatan menulis pertanyaan baru terhadap database.

Jadi ini adalah hasil nyata, ini adalah orang yang benar-benar menerapkan katalog di organisasi mereka, dan saya ingin membawa Anda melalui apa yang diperlukan untuk mengatur. Bagaimana katalog dibuat di sebuah perusahaan, dan mungkin yang paling penting untuk dikatakan, adalah bahwa banyak yang terjadi secara otomatis, jadi Dez berbicara tentang sistem, mempelajari sistem, dan itulah yang dilakukan oleh katalog data modern. Jadi mereka menginstal Alation di pusat data mereka dan kemudian mereka menghubungkannya ke berbagai sumber metadata di lingkungan data mereka. Saya akan sedikit fokus pada basis data dan alat BI - dari keduanya kita akan mengekstrak metadata teknis, tentang apa yang ada. Benar, lalu meja apa? Laporan apa? Apa definisi laporan? Jadi mereka mengekstrak metadata teknis itu, dan halaman katalog secara otomatis dibuat untuk setiap objek di dalam sistem itu, dan kemudian, mereka juga mengekstrak dan melapisi di atas metadata teknis itu, mereka melapisi di atas data penggunaan. Itu terutama dilakukan dengan membaca log kueri dari database, dan ini adalah sumber informasi yang sangat menarik. Jadi, setiap kali seorang analis menulis kueri, setiap kali alat pelaporan, apakah itu buatan sendiri, atau di luar rak, apakah alat pelaporan menjalankan kueri untuk memperbarui dasbor, ketika aplikasi menjalankan kueri untuk memasukkan data untuk beroperasi pada kumpulan data - semua hal tersebut ditangkap dalam log kueri basis data. Apakah Anda memiliki katalog atau tidak, mereka ditangkap di log kueri dengan database. Apa yang dapat dilakukan oleh katalog data, dan terutama yang dapat dilakukan katalog Alation, adalah membaca log tersebut, menanyakan pertanyaan di dalamnya, dan membuat grafik penggunaan yang sangat menarik berdasarkan log tersebut, dan kami mengikutinya untuk memberi informasi kepada pengguna di masa mendatang dari data tentang bagaimana pengguna data sebelumnya telah menggunakannya.

Jadi, kami menyatukan semua pengetahuan itu ke dalam katalog, dan hanya untuk membuat ini nyata, ini adalah integrasi yang sudah digunakan pada pelanggan, jadi, kami telah melihat Oracle, Teradata, Redshift, Vertica, dan banyak lainnya. database relasional. Di dunia Hadoop, ada sejumlah SQL di Hadoop, semacam relasional, meta store di atas sistem file Hadoop, Impala, Tez, Presto, dan Hive, kami juga telah melihat kesuksesan dengan penyedia cloud pribadi Hadoop seperti Altiscale, dan kami juga telah dapat terhubung ke server Tableau, server MicroStrategy dan mengindeks dashboard di sana, serta integrasi dengan alat charting sains data seperti Plotly.

Jadi, kami terhubung ke semua sistem ini, kami telah menghubungkan sistem ini ke pelanggan, kami telah menarik metadata teknis, kami telah menarik data penggunaan, dan kami semacam secara otomatis menyiapkan katalog data, tetapi dengan cara itu, kami memusatkan pengetahuan, tetapi hanya memusatkan hal-hal ke dalam katalog data, tidak dengan sendirinya memberikan dorongan produktivitas yang sangat hebat yang kita bicarakan dengan eBay, Square, dan pangsa pasar. Untuk melakukan itu, kita benar-benar perlu mengubah cara kita berpikir tentang memberikan pengetahuan kepada analis. Salah satu pertanyaan yang mereka minta untuk dipersiapkan untuk ini, adalah "Bagaimana katalog sebenarnya berdampak pada alur kerja seorang analis?"

Itulah yang kami habiskan sepanjang hari untuk memikirkan, dan untuk membicarakan tentang perubahan dalam pemikiran ini, tentang model push bait sebagai model penarik, saya ingin membuat analogi cepat tentang seperti apa dunia sebelum dan setelah membaca tentang Kindle. Jadi itu hanya pengalaman yang mungkin dimiliki sebagian dari Anda, ketika Anda membaca buku fisik, Anda menemukan kata, Anda tidak yakin Anda tahu bahwa definisi kata itu sangat baik, Anda mungkin dapat menebaknya dari konteks, tidak mungkin bahwa Anda akan bangkit dari sofa, berjalan ke rak buku Anda, menemukan kamus Anda, membersihkannya, dan membalik ke tempat yang tepat dalam daftar kata berdasarkan abjad untuk memastikan bahwa, ya Anda memiliki definisi yang tepat, dan Anda tahu nuansa itu. Jadi itu tidak benar-benar terjadi. Jadi Anda membeli aplikasi Kindle dan mulai membaca buku di sana, dan Anda melihat kata yang tidak sepenuhnya Anda yakini dan Anda menyentuh kata itu. Tiba-tiba, tepat di layar yang sama, adalah definisi kamus kata, dengan semua nuansa, penggunaan contoh yang berbeda, dan Anda menggesek sedikit, dan Anda mendapatkan artikel Wikipedia tentang topik itu, Anda menggesek lagi, Anda mendapatkan alat terjemahan yang dapat menerjemahkannya ke bahasa lain atau dari bahasa lain, dan tiba-tiba pengetahuan Anda tentang bahasa tersebut jauh lebih kaya, dan itu terjadi beberapa kali secara mengejutkan, dibandingkan ketika Anda harus pergi dan tarik sumber daya itu sendiri.

Jadi yang akan saya bahas adalah bahwa alur kerja untuk seorang analis dan cara seorang analis menangani dokumentasi data, sebenarnya sangat mirip dengan bagaimana seorang pembaca akan berinteraksi dengan kamus, apakah yang fisik, atau meskipun Kindle, dan apa yang kita, cara kita benar-benar melihat peningkatan produktivitas ini, bukanlah menumpahkan katalog, tetapi menghubungkannya ke alur kerja analis, dan karenanya, mereka meminta saya untuk melakukan demo di sini, dan saya ingin untuk menjadikan itu fokus presentasi ini. Tapi saya hanya ingin mengatur konteks untuk demo. Ketika kami berpikir tentang mendorong pengetahuan data kepada pengguna ketika mereka membutuhkannya, kami pikir tempat yang tepat untuk melakukan itu, tempat di mana mereka menghabiskan waktu dan di mana mereka melakukan analisis, adalah alat query SQL. Tempat Anda menulis dan menjalankan kueri SQL. Jadi kami membangun satu, dan kami membuatnya, dan hal yang benar-benar berbeda dari alat query lain adalah integrasi yang dalam dengan katalog data.

Jadi alat kueri kami disebut Alation Compose. Ini adalah alat permintaan berbasis web dan saya akan menunjukkannya kepada Anda dalam sedetik. Alat kueri berbasis web yang berfungsi di semua logo database yang Anda lihat pada slide sebelumnya. Apa yang akan saya coba tunjukkan secara khusus adalah cara informasi katalog diberikan kepada pengguna. Dan itu dilakukan melalui tiga cara yang berbeda. Itu dilakukan melalui intervensi, dan di situlah seseorang yang merupakan gubernur data, atau seorang penatalayan data, atau semacam administrator dengan cara tertentu, atau seorang manajer, dapat mengatakan, “Saya ingin menyortir selingan dengan catatan atau peringatan di alur kerja dan pastikan itu dikirimkan ke pengguna pada waktu yang tepat. "Jadi itu intervensi dan kami akan menunjukkannya.

Saran cerdas adalah cara di mana alat menggunakan semua pengetahuan agregat katalog untuk menyarankan objek dan bagian dari kueri saat Anda menulisnya. Hal yang paling penting untuk diketahui di sana adalah bahwa ia benar-benar memanfaatkan log kueri untuk melakukan itu, untuk menyarankan hal-hal berdasarkan penggunaan dan juga untuk menemukan bahkan bagian dari permintaan yang telah ditulis sebelumnya. Dan kami akan menunjukkan itu.

Dan kemudian preview. Pratinjau adalah, saat Anda mengetikkan nama suatu objek, kami menunjukkan kepada Anda segala sesuatu yang diketahui katalog, atau setidaknya hal-hal yang paling relevan yang diketahui oleh katalog tentang objek itu. Jadi sampel data, yang telah menggunakannya sebelumnya, nama logis dan deskripsi objek itu, semuanya mendatangi Anda saat Anda sedang menulisnya tanpa harus memintanya.

Jadi tanpa bicara lagi, saya akan ke demo, dan saya hanya akan menunggu sampai muncul. Apa yang akan saya tunjukkan di sini adalah alat kueri. Ini adalah antarmuka penulisan SQL khusus. Ini adalah antarmuka terpisah dari katalog, dalam arti tertentu. Dez dan Robin berbicara tentang katalog, dan saya melompati sedikit antarmuka katalog langsung ke bagaimana itu dibawa langsung untuk melayani alur kerja.

Saya hanya menunjukkan di sini tempat di mana saya dapat mengetik SQL, dan di bagian bawah Anda akan melihat bahwa kami semacam memiliki beberapa informasi yang muncul tentang objek yang kami referensi. Jadi saya hanya akan mulai mengetik kueri dan saya akan berhenti ketika saya mendapatkan salah satu dari intervensi ini. Jadi saya akan mengetik "pilih, " dan saya ingin tahun. Saya ingin namanya. Dan saya akan mencari beberapa data gaji. Jadi ini adalah kumpulan data pendidikan. Ini memiliki informasi tentang lembaga pendidikan tinggi, dan saya melihat gaji rata-rata fakultas yang ada di salah satu tabel ini.

Jadi saya benar-benar mengetik kata "gaji." Itu tidak persis atas nama kolom seperti itu. Kami menggunakan metadata logis dan metadata fisik untuk melakukan saran. Dan yang ingin saya tunjukkan di sini adalah kotak kuning ini yang muncul di sini. Dikatakan ada peringatan di kolom ini. Saya tidak pergi mencari itu, saya tidak mengambil kelas tentang cara menggunakan data ini dengan benar. Itu datang kepada saya, dan itu terjadi sebagai peringatan tentang perjanjian kerahasiaan yang berkaitan dengan data ini. Jadi ada beberapa aturan pengungkapan. Jika saya akan menanyakan data ini, saya akan mengambil data dari tabel ini, saya harus berhati-hati tentang bagaimana saya mengungkapkannya. Jadi, Anda memiliki kebijakan tata kelola di sini. Ada beberapa tantangan kepatuhan yang membuatnya jauh lebih mudah untuk mematuhi kebijakan ini ketika saya mengetahuinya pada saat saya sedang melihat data.

Jadi saya punya itu datang kepada saya, dan kemudian saya juga akan melihat biaya kuliah. Dan di sini kita melihat pratinjau ikut bermain. Di kolom biaya kuliah ini, saya melihat - ada kolom biaya kuliah di tabel institusi, dan saya melihat profilnya. Alation pergi dan mengambil data sampel dari tabel, dan dalam hal ini, itu menunjukkan kepada saya sesuatu yang sangat menarik. Ini menunjukkan kepada saya distribusi nilai-nilai, dan itu menunjukkan kepada saya bahwa nilai nol muncul 45 kali dalam sampel, dan lebih dari nilai lainnya. Jadi saya merasa bahwa kami mungkin kehilangan beberapa data.

Jika saya seorang analis tingkat lanjut, ini mungkin sudah menjadi bagian dari alur kerja saya. Terutama jika saya sangat teliti, di mana saya akan melakukan banyak pertanyaan profil sebelumnya. Setiap kali saya mendekati sepotong data baru, saya selalu berpikir tentang apa cakupan data kami. Tetapi jika saya baru dalam analisis data, jika saya baru dalam set data ini, saya mungkin berasumsi bahwa jika ada kolom, itu diisi sepanjang waktu. Atau saya mungkin berasumsi bahwa jika itu tidak diisi, itu bukan nol, itu nol atau sesuatu seperti itu. Tetapi dalam kasus ini, kami memiliki banyak nol, dan jika saya melakukan rata-rata, mereka mungkin akan salah, jika saya hanya berasumsi bahwa nol itu sebenarnya nol daripada data yang hilang.

Tetapi Alation, dengan membawa pratinjau ini ke dalam alur kerja Anda, semacam meminta Anda untuk melihat informasi ini dan bahkan memberikan semacam analis pemula kesempatan untuk melihat bahwa ada sesuatu yang perlu diperhatikan di sini tentang data itu. Jadi kami memiliki pratinjau itu.

Hal berikutnya yang akan saya lakukan adalah saya akan mencoba mencari tahu dari tabel apa untuk mendapatkan informasi ini. Jadi di sini kita melihat saran-saran cerdas. Sudah berjalan sepanjang waktu, tetapi khususnya di sini, saya bahkan belum mengetik apa-apa tapi itu akan menyarankan kepada saya tabel mana yang mungkin ingin saya gunakan untuk kueri ini. Dan hal yang paling penting untuk diketahui tentang hal ini adalah memanfaatkan statistik penggunaan. Jadi dalam lingkungan seperti, misalnya, eBay, di mana Anda memiliki ratusan ribu tabel dalam satu basis data, memiliki alat yang dapat menekan gandum dari sekam, dan menggunakan statistik penggunaan itu, sangat penting untuk membuat ini saran bernilai sesuatu.

Jadi ini akan menyarankan tabel ini. Ketika saya melihat pratinjau, kami sebenarnya menyorot tiga kolom yang telah saya sebutkan di kueri saya. Jadi saya tahu ada tiga, tapi tidak ada namanya. Saya perlu mendapatkan namanya, jadi saya akan bergabung. Ketika saya bergabung, sekarang saya memiliki pratinjau ini untuk membantu saya menemukan, di mana tabel dengan namanya. Jadi saya melihat bahwa yang ini memiliki nama dengan huruf besar yang diformat dengan baik. Tampaknya ada satu baris dengan nama untuk masing-masing institusi, jadi saya akan mengambilnya, dan sekarang saya perlu syarat bergabung.

Jadi, di sini yang dilakukan Alation adalah melihat kembali ke log kueri, melihat waktu sebelumnya bahwa dua tabel ini telah digabungkan, dan menyarankan berbagai cara untuk bergabung dengan mereka. Sekali lagi, ada beberapa intervensi. Jika saya melihat salah satunya, ada peringatan yang menunjukkan kepada saya bahwa ini hanya boleh digunakan untuk analisis agregat. Mungkin akan menghasilkan hal yang salah jika Anda mencoba melakukan sesuatu melalui institusi dengan institusi. Sedangkan yang ini, dengan ID OPE disahkan sebagai cara yang tepat untuk bergabung dengan dua tabel ini jika Anda menginginkan data tingkat universitas. Jadi saya melakukan itu, dan ini adalah permintaan singkat, tetapi saya telah menulis permintaan saya tanpa benar-benar memiliki wawasan tentang apa data itu. Saya tidak pernah benar-benar melihat diagram ER dari kumpulan data ini, tetapi saya sudah tahu banyak tentang data ini karena informasi yang relevan datang kepada saya.

Jadi itulah tiga jenis cara katalog, melalui alat kueri terintegrasi, secara langsung memengaruhi alur kerja saat Anda menulis kueri. Tetapi salah satu manfaat lain dari memiliki alat permintaan terintegrasi dengan katalog adalah bahwa, ketika saya menyelesaikan permintaan saya dan saya menyimpannya, saya dapat menempatkan judul seperti "Kuliah Institusi dan Gaji Fakultas, " dan kemudian saya memiliki tombol di sini bahwa memungkinkan saya untuk hanya menerbitkannya ke katalog. Menjadi sangat mudah bagi saya untuk memberi makan ini kembali. Bahkan jika saya tidak mempublikasikannya, itu ditangkap sebagai bagian dari log kueri, tetapi ketika saya menerbitkannya, itu benar-benar menjadi bagian dari cara tempat terpusat tempat semua pengetahuan data hidup.

Jadi jika saya mengklik Cari untuk semua permintaan di Alation, saya akan dibawa - dan di sini Anda akan melihat lebih banyak antarmuka katalog - Saya dibawa ke pencarian permintaan khusus yang menunjukkan cara untuk menemukan pertanyaan di seluruh seluruh organisasi. Dan Anda melihat bahwa permintaan saya yang baru diterbitkan ada di atas. Dan beberapa mungkin memperhatikan di sini, saat kami menangkap pertanyaan, kami juga menangkap penulis, dan kami semacam membangun hubungan ini antara saya sebagai penulis dan objek data yang sekarang saya ketahui. Dan saya ditetapkan sebagai ahli dalam permintaan ini dan pada objek data ini. Itu sangat membantu ketika orang perlu belajar tentang data, maka mereka bisa mencari orang yang tepat untuk belajar. Dan jika saya benar-benar baru dalam data, apakah saya seorang analis tingkat lanjut - sebagai seorang analis tingkat lanjut, saya mungkin akan melihat ini dan melihat banyak contoh yang akan membantu saya memulai set data baru. Sebagai seseorang yang mungkin tidak merasa sangat paham dengan SQL, saya dapat menemukan pertanyaan yang dibuat sebelumnya yang merupakan laporan yang dapat saya manfaatkan.

Inilah satu oleh Phil Mazanett tentang skor SAT median. Klik ini, dan saya mendapatkan semacam halaman katalog untuk permintaan itu sendiri. Itu berbicara tentang sebuah artikel yang ditulis yang referensi permintaan ini, jadi ada beberapa dokumentasi untuk saya baca jika saya ingin belajar bagaimana menggunakannya. Dan saya dapat membukanya di alat kueri dengan mengklik tombol Tulis, dan saya bisa menjalankannya sendiri di sini bahkan tanpa mengeditnya. Dan sebenarnya, Anda bisa melihat sedikit kemampuan pelaporan kami yang ringan, di mana, saat Anda menulis kueri, Anda bisa memasukkan variabel templat seperti ini dan itu menciptakan cara sederhana untuk membuat formulir untuk mengeksekusi kueri berdasarkan pada beberapa parameter.

Jadi itulah yang saya miliki untuk demo. Saya akan beralih kembali ke slide. Sekadar rekap, kami menunjukkan bagaimana seorang administrator, seorang pengatur data, dapat melakukan intervensi dengan menempatkan peringatan pada objek yang muncul di alat kueri, bagaimana Alation menggunakan pengetahuannya tentang penggunaan objek data untuk melakukan saran cerdas, bagaimana ia membawa dalam pembuatan profil dan kiat-kiat lain untuk meningkatkan alur kerja analis ketika mereka menyentuh objek tertentu, dan bagaimana semua jenis itu dimasukkan kembali ke dalam katalog ketika kueri baru ditulis.

Jelas saya seorang juru bicara atas nama perusahaan. Saya akan mengatakan hal-hal baik tentang katalog data. Jika Anda ingin mendengar langsung dari salah satu pelanggan kami, Kristie Allen di Safeway menjalankan tim analis dan memiliki kisah yang sangat keren tentang saat ketika ia harus benar-benar mengalahkan waktu untuk memberikan eksperimen pemasaran, dan bagaimana keseluruhannya Tim menggunakan Alation untuk berkolaborasi dan berbalik sangat cepat pada proyek itu. Jadi Anda dapat mengikuti tautan bit.ly ini untuk memeriksa cerita itu, atau jika Anda ingin mendengar sedikit tentang bagaimana Alation dapat membawa katalog data ke organisasi Anda, kami dengan senang hati menyiapkan demo yang dipersonalisasi. Terima kasih banyak.

Rebecca Jozwiak: Terima kasih banyak, David. Saya yakin Dez dan Robin punya beberapa pertanyaan sebelum saya beralih ke audiensi T&J. Dez, apakah kamu ingin pergi dulu?

Dez Blanchfield: Tentu saja. Saya suka ide konsep pertanyaan yang dipublikasikan ini dan menghubungkannya kembali ke sumber penulisannya. Saya sudah lama menjadi juara ide toko aplikasi in-house ini dan saya pikir ini adalah fondasi yang sangat bagus untuk membangunnya.

Saya datang untuk mendapatkan beberapa wawasan tentang beberapa organisasi yang Anda lihat melakukan ini, dan beberapa kisah sukses yang mungkin mereka miliki dengan seluruh perjalanan ini tidak hanya memanfaatkan alat dan platform Anda untuk menemukan data, tetapi juga kemudian mengubah sifat budaya dan perilaku internal mereka di sekitar. Sekarang memiliki semacam toko aplikasi in-house di mana Anda semacam unduh saja, konsep di mana mereka tidak bisa hanya menemukannya, tetapi mereka benar-benar dapat mulai mengembangkan komunitas kecil dengan para penjaga pengetahuan itu.

David Crawford: Ya, saya pikir kami terkejut. Kami percaya pada nilai berbagi kueri, baik dari masa lalu saya sebagai manajer produk di Adtech dan dari semua pelanggan yang telah kami ajak bicara, tapi saya masih terkejut melihat betapa seringnya itu salah satu hal pertama yang pelanggan bicarakan sebagai nilai yang mereka dapatkan dari Alation.

Saya sedang melakukan beberapa pengujian pengguna terhadap alat permintaan di salah satu pelanggan kami yang disebut Invoice2go, dan mereka memiliki manajer produk yang relatif baru, dan mereka berkata - dia benar-benar mengatakan kepada saya, tidak diminta selama pengujian pengguna, “Saya sebenarnya tidak akan sama sekali menulis SQL kecuali bahwa itu dibuat mudah oleh Alation. "Dan tentu saja, sebagai PM, saya agak pergi, " Apa maksudmu, bagaimana kita melakukan itu? "Dan dia berkata, " Yah, sungguh hanya karena saya bisa masuk dan saya bisa melihat semua pertanyaan yang ada. "Memulai dengan batu tulis kosong dengan SQL adalah hal yang sangat sulit untuk dilakukan, tetapi memodifikasi kueri yang ada di mana Anda dapat melihat hasil yang dikeluarkan dan Anda dapat mengatakan, "Oh, aku hanya butuh kolom tambahan ini, " atau, "Aku perlu memfilternya ke rentang tanggal tertentu, " itu hal yang jauh lebih mudah untuk dilakukan.

Kami telah melihat semacam peran tambahan ini, seperti manajer produk, mungkin orang-orang di ops penjualan, yang mulai mengambil, dan yang selalu ingin belajar SQL dan mulai mengambilnya dengan menggunakan katalog ini. Kami juga telah melihat bahwa banyak perusahaan telah mencoba melakukan semacam open source. Saya sudah mencoba untuk membangun hal-hal semacam ini secara internal, di mana mereka melacak pertanyaan dan membuatnya tersedia, dan ada beberapa jenis tantangan desain yang rumit untuk membuatnya berguna. Facebook telah memiliki alat internal yang mereka sebut HiPal yang menangkap semua pertanyaan yang ditulis di Hive, tetapi yang Anda temukan adalah, bahwa jika Anda tidak menyikut para pengguna dengan cara yang benar, Anda hanya berakhir dengan daftar pernyataan pilih yang sangat panjang. Dan sebagai pengguna yang mencoba mencari tahu apakah kueri berguna bagi saya atau jika ada gunanya, jika saya hanya melihat daftar panjang dari pernyataan pilih, itu akan membawa saya jauh lebih lama untuk mendapatkan sesuatu yang bernilai di sana daripada mulai dari awal. Kami berpikir cukup hati-hati tentang cara membuat katalog permintaan yang membawa hal-hal yang tepat ke depan dan menyediakannya dengan cara yang bermanfaat.

Dez Blanchfield: Saya pikir kita semua menjalani perjalanan ini dari usia yang sangat muda, hingga dewasa, dalam banyak hal. Banyak teknologi. Saya sendiri secara pribadi, saya telah mengalami hal yang sama, seperti, belajar memotong kode. Saya akan membaca majalah dan kemudian buku, dan saya akan belajar ke tingkat tertentu, dan kemudian saya harus pergi dan benar-benar mendapatkan lebih banyak pelatihan dan pendidikan di dalamnya.

Tetapi secara tidak sengaja saya menemukan bahwa bahkan ketika saya pergi dari mengajar diri sendiri dan membaca majalah dan membaca buku-buku dan memotong program orang lain dan pergi ke kursus tentang itu, saya masih belajar sebanyak mungkin dari melakukan kursus seperti saya hanya berbicara dengan yang lain orang yang memiliki pengalaman. Dan saya pikir ini adalah penemuan yang menarik bahwa, sekarang setelah Anda membawanya ke analisis data, pada dasarnya kita melihat paralel yang sama, bahwa manusia selalu cukup pintar.

Hal lain yang saya benar-benar ingin pahami adalah, pada tingkat yang sangat tinggi, banyak organisasi akan bertanya, "Berapa lama waktu yang dibutuhkan untuk sampai ke titik itu?" Apa titik kritis kerangka waktu ketika orang mendapatkan platform Anda terpasang dan mereka mulai menemukan jenis alat? Seberapa cepat orang-orang hanya melihat hal ini berubah menjadi momen "a-ha" yang sangat cepat di mana mereka menyadari bahwa mereka bahkan tidak mengkhawatirkan ROI lagi karena itu ada, tetapi sekarang mereka benar-benar mengubah cara mereka melakukan bisnis ? Dan mereka telah menemukan seni yang hilang dan mereka berharap mereka dapat melakukan sesuatu yang benar-benar menyenangkan.

David Crawford: Ya, saya bisa menyentuhnya sedikit. Saya pikir ketika kita menginstal, bahwa salah satu hal yang menyenangkan, salah satu hal yang disukai orang tentang katalog yang terhubung langsung ke sistem data, adalah bahwa Anda tidak mulai kosong di mana Anda harus mengisinya halaman demi halaman. Dan ini benar dari solusi data sebelumnya di mana Anda akan mulai dengan alat kosong dan Anda harus mulai membuat halaman untuk semua yang ingin Anda dokumentasikan.

Karena kami mendokumentasikan begitu banyak hal secara otomatis dengan mengekstraksi metadata, pada dasarnya dalam beberapa hari setelah perangkat lunak diinstal, Anda dapat memiliki gambaran lingkungan data Anda yang setidaknya 80 persen ada di alat. Dan kemudian saya pikir begitu orang mulai menulis pertanyaan dengan alat, mereka disimpan secara otomatis kembali ke katalog, dan mereka akan mulai muncul juga.

Saya tidak ingin terlalu bersemangat dalam menyatakannya. Saya pikir dua minggu adalah perkiraan konservatif yang cukup bagus, hingga sebulan. Dua minggu hingga sebulan, perkiraan konservatif untuk benar-benar berbalik dan merasa seperti Anda mendapatkan nilai darinya, seperti Anda mulai berbagi pengetahuan dan bisa pergi ke sana dan mencari tahu hal-hal tentang data Anda.

Dez Blanchfield: Sungguh mencengangkan, sungguh, ketika Anda memikirkannya. Fakta bahwa beberapa platform data besar yang Anda pengindeksan dan katalogisasi secara efektif kadang-kadang membutuhkan waktu hingga satu tahun untuk menerapkan dan menggunakan serta berdiri dengan benar.

Pertanyaan terakhir yang saya miliki untuk Anda sebelum saya serahkan ke Robin Bloor, adalah konektor. Salah satu hal yang langsung melompat ke arah saya adalah Anda jelas memiliki seluruh tantangan yang beres. Jadi ada beberapa pertanyaan dengan sangat cepat. Satu, seberapa cepat konektor diimplementasikan? Jelas Anda mulai dengan platform terbesar, seperti Oracle dan Teradatas dan sebagainya dan DB2s. Tapi seberapa sering Anda melihat konektor baru datang, dan waktu penyelesaian apa yang mereka ambil? Saya membayangkan Anda memiliki kerangka kerja standar untuk mereka. Dan seberapa dalam Anda masuk ke dalamnya? Misalnya, Oracle dan IBM di dunia, dan bahkan Tereadata, dan kemudian beberapa yang lebih populer dari platform open-source belakangan. Apakah mereka bekerja langsung dengan Anda? Apakah Anda menemukannya sendiri? Apakah Anda harus memiliki pengetahuan orang dalam pada platform tersebut?

Seperti apa rasanya mengembangkan semacam konektor, dan seberapa dalam Anda terlibat dalam kemitraan itu untuk memastikan konektor itu menemukan segala yang Anda bisa?

David Crawford: Ya, tentu, ini pertanyaan yang bagus. Saya pikir sebagian besar, kita dapat mengembangkan konektor. Kami tentu melakukannya ketika kami adalah startup yang lebih muda dan tidak memiliki pelanggan. Kita dapat mengembangkan koneksi tentunya tanpa memerlukan akses internal. Kami tidak pernah mendapatkan akses khusus ke sistem data yang tidak tersedia untuk umum, dan seringkali tanpa memerlukan informasi orang dalam. Kami memanfaatkan layanan metadata yang tersedia oleh sistem data itu sendiri. Seringkali itu bisa sangat rumit dan sulit untuk dikerjakan. Saya tahu SQL Server khususnya, cara mereka mengelola log kueri, ada beberapa konfigurasi yang berbeda dan itu adalah sesuatu yang benar-benar harus Anda kerjakan. Anda harus memahami nuansa dan kenop dan tombol untuk mengaturnya dengan benar, dan itu adalah sesuatu yang kami kerjakan dengan pelanggan sejak kami telah melakukannya beberapa kali sebelumnya.

Tetapi sampai batas tertentu, itu semacam API publik yang tersedia atau antarmuka publik yang tersedia yang kami manfaatkan. Kami memang memiliki kemitraan dengan beberapa perusahaan ini, yang sebagian besar merupakan alasan untuk sertifikasi, sehingga mereka merasa nyaman mengatakan bahwa kami bekerja dan juga mereka dapat memberikan kami sumber daya untuk pengujian, terkadang akses awal mungkin ke platform yang keluar untuk memastikan bahwa kami mengerjakan versi baru.

Untuk membalikkan koneksi baru, saya akan mengatakan lagi, mencoba bersikap konservatif, katakanlah enam minggu hingga dua bulan. Itu tergantung pada seberapa miripnya itu. Jadi beberapa karya Postgre terlihat sangat mirip dengan Redshift. Redshift dan Vertica membagikan banyak detail mereka. Jadi kita bisa memanfaatkan hal-hal itu. Tapi ya, enam minggu hingga dua bulan akan adil.

Kami juga memiliki API, sehingga - kami menganggap Alation sebagai platform metadata juga, jadi jika ada yang tidak tersedia untuk kami jangkau dan ambil secara otomatis, ada cara Anda dapat menulis konektor sendiri dan mendorongnya ke sistem kami sehingga bahwa semuanya masih terpusat di satu mesin pencari.

Dez Blanchfield: Fantastis. Saya menghargai itu. Jadi kita akan menyerahkannya kepada Robin, karena aku yakin dia juga punya banyak pertanyaan. Robin?

Rebecca Jozwiak: Robin mungkin bisu.

Dez Blanchfield: Anda membisu.

Robin Bloor: Ya, benar. Maaf, saya membisukan diri. Ketika Anda menerapkan ini, apa prosesnya? Saya agak penasaran karena bisa ada banyak data di banyak tempat. Jadi bagaimana cara kerjanya?

David Crawford: Ya, tentu. Kami masuk, pertama-tama ini semacam proses TI untuk memastikan server kami disediakan, memastikan bahwa koneksi jaringan tersedia, bahwa port terbuka sehingga kami benar-benar dapat mengakses sistem. Mereka semua sering tahu sistem apa yang ingin mereka mulai. Mengetahui bagian dalam sistem data, yang - dan kadang-kadang kita benar-benar akan membantu mereka. Kami akan membantu mereka melihat log kueri mereka untuk memahami siapa yang menggunakan apa dan berapa banyak pengguna yang mereka miliki di suatu sistem. Jadi kami akan membantu mencari tahu di mana - mereka sering, jika mereka memiliki ratusan atau ribuan orang yang mungkin masuk ke database, mereka sebenarnya tidak tahu di mana mereka masuk, sehingga kami bisa mencari tahu dari log kueri berapa banyak akun pengguna unik yang Anda miliki dan masuki dan lakukan permintaan di sini dalam sebulan atau lebih.

Jadi kita dapat mengambil keuntungan dari itu, tetapi seringkali hanya pada yang paling penting. Kami mengaturnya dan kemudian ada proses mengatakan, "Mari kita prioritaskan." Ada berbagai kegiatan yang dapat terjadi secara paralel. Saya akan fokus pada pelatihan untuk menggunakan alat kueri. Begitu orang mulai menggunakan alat kueri, pertama-tama, banyak orang menyukai kenyataan bahwa itu hanya satu antarmuka untuk semua sistem mereka yang berbeda. Mereka juga menyukai kenyataan bahwa itu berbasis web, tidak melibatkan pemasangan apa pun jika mereka tidak mau. Dari sudut pandang keamanan, mereka suka memiliki semacam titik masuk tunggal, dari sudut pandang jaringan, antara semacam jaringan TI perusahaan dan pusat data tempat sumber data produksi tinggal. Maka, mereka akan mengatur Alation sebagai alat kueri dan mulai menggunakan Tulis sebagai titik akses untuk semua sistem ini.

Jadi, begitu hal itu terjadi, apa yang kami fokuskan dalam pelatihan, adalah memahami apa saja perbedaan antara alat kueri berbasis web atau berbasis server versus yang Anda miliki di desktop, dan beberapa nuansa penggunaan bahwa. Dan pada saat yang sama yang akan kami coba lakukan adalah mengidentifikasi data yang paling berharga, sekali lagi mengambil keuntungan dari informasi log kueri, dan berkata, “Hei, Anda mungkin ingin masuk dan membantu orang-orang memahami ini. Mari kita mulai menerbitkan kueri representatif di tabel ini. ”Itu kadang-kadang cara paling efektif untuk membuat orang cepat-cepat berputar. Mari kita lihat riwayat kueri Anda sendiri, terbitkan hal-hal ini sehingga muncul sebagai kueri pertama. Ketika orang melihat halaman tabel, mereka bisa melihat semua pertanyaan yang menyentuh tabel itu, dan mereka bisa mulai dari sana. Dan kemudian mari kita mulai menambahkan judul dan deskripsi ke objek-objek ini sehingga mereka lebih mudah ditemukan dan dicari, sehingga Anda tahu beberapa nuansa cara menggunakannya.

Kami memastikan bahwa kami dapat melihat log kueri dengan seksama sehingga kami dapat menghasilkan silsilah. Salah satu hal yang kami lakukan adalah melihat melalui kueri log saat data bergerak dari satu tabel ke tabel lainnya, dan itu memungkinkan kami untuk menempatkan salah satu pertanyaan paling sering diajukan tentang tabel data, dari mana ini berasal? Bagaimana saya mempercayainya? Jadi apa yang bisa kita perlihatkan bukan hanya dari tabel mana asalnya, tetapi bagaimana tabel itu ditransformasikan sepanjang jalan. Sekali lagi, ini didukung oleh log kueri.

Jadi kami memastikan bahwa hal-hal itu telah diatur dan bahwa kami mendapatkan garis silsilah ke dalam sistem, dan kami menargetkan potongan metadata yang paling bernilai tinggi dan paling tinggi yang dapat kita bangun di halaman tabel, sehingga ketika Anda mencari, Anda menemukan sesuatu yang bermanfaat.

Robin Bloor: Oke. Pertanyaan lain - ada banyak pertanyaan dari penonton, jadi saya tidak ingin mengambil terlalu banyak waktu di sini - pertanyaan lain yang muncul dalam pikiran adalah, hanya poin rasa sakitnya. Banyak perangkat lunak dibeli karena orang, dalam satu atau lain cara, mengalami kesulitan dengan sesuatu. Jadi apa poin rasa sakit umum yang mengarahkan orang ke Alation?

David Crawford: Ya. Saya pikir ada beberapa, tapi saya pikir salah satu yang sering kita dengar adalah analis. “Saya akan perlu mempekerjakan 10, 20, 30 orang dalam waktu dekat yang harus menghasilkan wawasan baru dari data ini, bagaimana mereka akan naik dengan kecepatan?” Jadi, analis onboarding adalah sesuatu yang kita tentu saja menangani. Ada juga yang hanya membebaskan analis senior dari menghabiskan waktu mereka menjawab pertanyaan dari orang lain tentang data. Itu yang sangat sering juga. Dan keduanya pada dasarnya adalah masalah pendidikan.

Dan kemudian saya akan mengatakan tempat lain yang kita lihat orang mengadopsi Alation adalah ketika mereka ingin membuat lingkungan data baru bagi seseorang untuk bekerja. Mereka ingin mengiklankan dan memasarkan ini secara internal agar orang dapat memanfaatkannya. Maka menjadikan Alation sebagai ujung tombak lingkungan analitik baru itu sangat menarik. Itu punya dokumentasi, itu punya satu titik pengantar - satu titik akses ke sistem, dan itulah tempat lain di mana orang akan datang kepada kita.

Robin Bloor: Oke, saya akan meneruskan Anda ke Rebecca karena audiens berusaha untuk mendapatkan Anda.

Rebecca Jozwiak: Ya, kami memiliki banyak pertanyaan yang sangat bagus di sini. Dan David, yang ini ditujukan khusus untuk Anda. Itu dari seseorang yang tampaknya memiliki pengalaman dengan orang-orang semacam pertanyaan penyalahgunaan, dan dia semacam mengatakan bahwa semakin kita memberdayakan pengguna, semakin sulit untuk mengatur penggunaan sumber daya komputasi yang bertanggung jawab. Jadi bisakah Anda bertahan melawan penyebaran frasa kueri yang sesat tetapi umum?

David Crawford: Ya, saya melihat pertanyaan ini. Ini pertanyaan yang bagus - pertanyaan yang sering kita dapatkan. Saya telah melihat rasa sakitnya sendiri di perusahaan sebelumnya, di mana Anda perlu melatih pengguna. Misalnya, “Ini adalah tabel log, ada log yang akan kembali selama bertahun-tahun. Jika Anda akan menulis kueri di tabel ini, Anda benar-benar harus membatasi berdasarkan tanggal. ”Jadi, misalnya, itu adalah pelatihan yang saya lalui di perusahaan sebelumnya sebelum saya diberi akses ke database.

Kami memiliki beberapa cara untuk mengatasi hal ini. Saya akan mengatakan bahwa saya pikir data log kueri benar-benar bernilai unik untuk mengatasinya. Ini memberi wawasan lain versus apa yang dilakukan database secara internal dengan perencana kueri. Dan apa yang kami lakukan adalah, salah satu intervensi itu - kami memiliki intervensi manual yang saya tunjukkan, dan itu berguna, bukan? Jadi, pada gabungan tertentu, misalnya, Anda dapat mengatakan, "Mari kita hilangkan ini." Ini akan memiliki bendera merah besar ketika muncul di saran cerdas. Jadi itulah salah satu cara untuk mencoba menjangkau orang.

Hal lain yang kami lakukan adalah, otomatis pada intervensi waktu eksekusi. Itu benar-benar akan menggunakan parse tree dari query sebelum kita menjalankannya untuk melihat, apakah itu menyertakan filter tertentu atau beberapa hal lain yang kita lakukan di sana juga. Tetapi salah satu yang paling berharga dan paling sederhana untuk dijelaskan adalah, apakah itu termasuk filter? Jadi seperti contoh yang baru saja saya berikan, tabel log ini, jika Anda akan menanyakannya, harus memiliki rentang tanggal, Anda dapat menentukan di halaman tabel di sana bahwa Anda mengamanatkan filter rentang tanggal untuk diterapkan. Jika seseorang mencoba menjalankan kueri yang tidak termasuk filter itu, itu sebenarnya akan menghentikan mereka dengan peringatan besar, dan itu akan berkata, "Anda mungkin harus menambahkan beberapa SQL yang terlihat seperti ini ke permintaan Anda." Mereka dapat melanjutkan jika mereka ingin. Kami tidak akan benar-benar melarang mereka menggunakannya - ini adalah permintaan juga, itu harus, pada akhirnya, menjalankan kueri. Tetapi kami menempatkan penghalang yang cukup besar di depan mereka dan kami memberi mereka saran, saran konkret yang berlaku untuk memodifikasi kueri untuk meningkatkan kinerja mereka.

Kami sebenarnya juga melakukannya secara otomatis dalam beberapa kasus, lagi dengan mengamati log kueri. Jika kami melihat bahwa sebagian besar dari kueri di tabel ini memanfaatkan filter tertentu atau klausa gabungan tertentu, maka kami akan memunculkannya. Kami akan mempromosikannya ke intervensi. Sebenarnya, itu terjadi pada saya di set data internal. Kami memiliki data pelanggan dan kami memiliki ID pengguna, tetapi ID pengguna ditetapkan, karena jenisnya - kami memiliki ID pengguna di setiap pelanggan. Itu tidak unik, jadi Anda harus memasangkannya dengan ID klien untuk mendapatkan kunci bergabung yang unik. Dan saya sedang menulis permintaan dan saya mencoba untuk menganalisis sesuatu dan muncul dan berkata, "Hei, semua orang tampaknya bergabung dengan tabel ini dengan ID klien dan ID pengguna. Apakah Anda yakin tidak ingin melakukan itu? ”Dan itu benar-benar menghentikan saya dari melakukan analisis yang salah. Jadi ini berfungsi baik untuk keakuratan analisis maupun kinerja. Jadi begitulah cara kami mengatasi masalah itu.

Rebecca Jozwiak: Bagi saya itu tampaknya efektif. Anda bilang tidak perlu menghalangi orang untuk memonopoli sumber daya, tetapi semacam mengajari mereka bahwa apa yang mereka lakukan mungkin bukan yang terbaik, bukan?

David Crawford: Kami selalu berasumsi bahwa pengguna tidak jahat - memberi mereka niat terbaik - dan kami mencoba bersikap cukup terbuka dengan cara itu.

Rebecca Jozwiak: Oke. Inilah pertanyaan lain: “Apa perbedaan antara manajer katalog, seperti dengan solusi Anda, dan alat MDM? Atau apakah ia benar-benar mengandalkan prinsip yang berbeda dengan memperluas pilihan tabel kueri, sedangkan MDM akan melakukannya secara otomatis, tetapi dengan prinsip dasar yang sama untuk mengumpulkan metadata. "

David Crawford: Ya, saya pikir ketika saya melihat solusi MDM tradisional, perbedaan utamanya adalah filosofis. Ini semua tentang siapa pengguna itu. Seperti yang saya katakan di awal presentasi saya, Alation, saya pikir, ketika kami didirikan, kami didirikan dengan tujuan untuk memungkinkan analis untuk menghasilkan lebih banyak wawasan, untuk menghasilkan mereka lebih cepat, untuk lebih akurat dalam wawasan bahwa mereka menghasilkan. Saya tidak berpikir itu pernah menjadi tujuan dari solusi MDM tradisional. Solusi tersebut cenderung ditujukan kepada orang-orang yang perlu membuat laporan tentang data apa yang telah ditangkap ke SCC atau secara internal untuk beberapa jenis tujuan audit lainnya. Kadang-kadang memungkinkan analis, tetapi lebih sering, jika itu akan memungkinkan seorang praktisi dalam pekerjaan mereka, itu lebih memungkinkan untuk mengaktifkan arsitek data seperti DBA.

Ketika Anda memikirkan hal-hal dari sudut pandang seorang analis, saat itulah Anda mulai membuat alat kueri yang tidak akan pernah dilakukan oleh alat MDM. Saat itulah Anda mulai memikirkan kinerja serta keakuratan, serta memahami data apa yang terkait dengan kebutuhan bisnis saya. Semua hal itu adalah hal-hal yang muncul di benak kita ketika kita mendesain alat itu. Itu masuk ke algoritma pencarian kami, masuk ke tata letak halaman katalog dan kemampuan untuk menyumbangkan pengetahuan dari seluruh organisasi. Itu masuk ke fakta bahwa kami membangun alat permintaan dan bahwa kami membangun katalog langsung ke dalamnya, jadi saya pikir itu benar-benar berasal dari itu. Pengguna apa yang Anda pikirkan pertama kali?

Rebecca Jozwiak: Oke, bagus. Itu sangat membantu menjelaskannya. yang sangat ingin mendapatkan arsip karena dia harus pergi, tetapi dia benar-benar ingin pertanyaannya dijawab. Dia mengatakan telah disebutkan di awal bahwa ada beberapa bahasa, tetapi apakah SQL satu-satunya bahasa yang diungkit dalam komponen Tulis?

David Crawford: Ya, itu benar. Dan salah satu hal yang saya perhatikan, ketika saya menyaksikan ledakan berbagai jenis basis data, basis data dokumen, basis data grafik, dari toko-toko nilai utama, adalah bahwa mereka sangat kuat untuk pengembangan aplikasi. Mereka dapat melayani kebutuhan tertentu di sana dengan sangat baik, dengan cara yang lebih baik daripada yang bisa dilakukan oleh basis data relasional.

Tetapi ketika Anda membawanya kembali ke analisis data, ketika Anda membawanya kembali ke - ketika Anda ingin memberikan informasi itu kepada orang-orang yang akan melakukan pelaporan ad hoc atau menggali ad hoc ke dalam data, bahwa mereka selalu kembali ke relasional, setidaknya, antarmuka untuk manusia. Bagian dari itu hanya karena SQL adalah lingua franca dari analisis data, jadi itu artinya, bagi manusia, itu juga untuk alat yang berintegrasi. Saya pikir ini adalah alasan mengapa SQL pada Hadoop sangat populer dan ada banyak upaya untuk menyelesaikannya, karena pada akhirnya, itulah yang diketahui orang. Mungkin ada jutaan orang yang tahu cara menulis SQL, dan saya berani tidak jutaan yang tahu cara menulis kerangka kerja kerangka kerja pipa agregasi Mongo. Dan itu adalah bahasa standar yang digunakan untuk integrasi di berbagai platform yang sangat luas. Jadi semua itu mengatakan, kami sangat jarang diminta untuk keluar dari itu karena ini adalah antarmuka yang digunakan sebagian besar analis, dan itu adalah tempat di mana kami fokus, terutama di Compose, yang kami fokus pada penulisan SQL.

Saya akan mengatakan ilmu data adalah tempat di mana mereka menjelajah paling luar, jadi kami kadang-kadang mendapat pertanyaan tentang penggunaan Pig atau SAS. Ini adalah hal-hal yang pasti tidak kami tangani di Compose, dan kami ingin menangkapnya di katalog. Dan saya juga melihat R dan Python. Kami memiliki beberapa cara untuk membuat antarmuka yang dapat digunakan menggunakan kueri yang ditulis dalam Alation di dalam skrip R dan Python, jadi, karena sering kali ketika Anda seorang ilmuwan data dan Anda bekerja dalam bahasa skrip, Anda sumber data dalam database relasional. Anda mulai dengan query SQL dan kemudian Anda memprosesnya lebih lanjut dan membuat grafik di dalam R dan Python. Dan kami telah membuat paket yang dapat Anda impor ke dalam skrip yang menarik kueri atau hasil kueri dari Alation sehingga Anda dapat memiliki semacam alur kerja campuran di sana.

Rebecca Jozwiak: Oke, bagus. Saya tahu kami telah melewati sedikit waktu, saya hanya akan mengajukan satu atau dua pertanyaan lagi. Saya tahu Anda berbicara tentang semua sistem berbeda yang dapat Anda sambungkan, tetapi sejauh data yang dihosting secara eksternal dan data yang dihosting secara internal, dapatkah itu bersama-sama dicari ke dalam tampilan tunggal Anda, ke dalam satu platform Anda?

David Crawford: Tentu. Ada beberapa cara untuk melakukan itu. Maksudku, di-host secara eksternal, aku akan membayangkan, aku mencoba berpikir tentang apa artinya itu. Ini bisa berarti database bahwa seseorang hosting di AWS untuk Anda. Ini bisa berarti sumber data publik dari data.gov. Kami terhubung langsung ke database dengan masuk seperti aplikasi lain, dengan akun database, dan itulah cara kami mengekstrak metadata. Jadi jika kita memiliki akun dan kita memiliki port jaringan yang terbuka, kita dapat mencapainya. Dan ketika kita tidak memiliki hal-hal itu, kita memiliki sesuatu yang disebut sumber data virtual, yang memungkinkan Anda untuk mendorong dokumentasi, apakah secara otomatis, dengan menulis konektor Anda sendiri, atau dengan mengisinya dengan melakukan bahkan seperti unggahan CSV, untuk mendokumentasikan data bersama data internal Anda. Semua itu dimasukkan ke dalam mesin pencari. Ini menjadi referensi di dalam artikel dan dokumentasi lain dan percakapan di dalam sistem. Jadi itulah cara kami menangani saat kami tidak dapat terhubung secara langsung ke suatu sistem.

Rebecca Jozwiak: Oke, itu masuk akal. Saya hanya akan memberikan satu pertanyaan lagi kepada Anda. Satu peserta adalah bertanya, "Bagaimana seharusnya konten katalog data divalidasi, diverifikasi, atau dipelihara, saat sumber data diperbarui, saat sumber data diubah, dll."

David Crawford: Ya, ini adalah pertanyaan yang sering kami dapatkan, dan saya pikir salah satu hal yang kami - salah satu filosofi kami, seperti yang saya katakan, kami tidak percaya pengguna jahat. Kami berasumsi bahwa mereka berusaha menyumbangkan pengetahuan terbaik. Mereka tidak akan datang dan sengaja menyesatkan orang tentang data. Jika itu masalah di organisasi Anda, mungkin Alation bukan alat yang tepat untuk Anda. Tetapi jika Anda menganggap niat baik oleh pengguna, maka, kami menganggapnya sebagai sesuatu di mana, pembaruan masuk, dan kemudian biasanya yang kami lakukan adalah kami menempatkan penatalayan yang bertanggung jawab atas setiap objek data atau setiap bagian dari data. Dan kami dapat memberi tahu pelayan itu ketika perubahan metadata dibuat dan mereka bisa mengatasinya dengan cara itu. Mereka melihat pembaruan masuk, mereka memvalidasinya. Jika mereka tidak benar, mereka dapat kembali dan memodifikasinya dan menginformasikan, dan mudah-mudahan bahkan menjangkau pengguna yang menyumbangkan informasi dan membantu mereka belajar.

Jadi itulah cara utama kami berpikir untuk melakukannya. Saran semacam ini oleh kerumunan dan manajemen oleh pelayan, jadi kami memiliki beberapa kemampuan di sekitar itu.

Rebecca Jozwiak: Oke, bagus. Dan jika Anda bisa memberi tahu orang-orang bagaimana mereka bisa memulai dengan Alation, dan ke mana mereka pergi secara khusus untuk mendapatkan lebih banyak info. Saya tahu Anda membagikannya sedikit. Apakah itu tempat terbaik?

David Crawford: Alation.com/learnmore Saya pikir ini cara yang bagus untuk pergi. Untuk mendaftar demo, situs Alation.com memiliki banyak sumber daya yang bagus, buku putih pelanggan, dan berita tentang solusi kami. Jadi saya pikir itu adalah tempat yang bagus untuk memulai. Anda juga dapat mengirim email.

Rebecca Jozwiak: Oke, bagus. Dan saya tahu, hadirin, maaf jika saya tidak mendapatkan semua pertanyaan hari ini, tetapi jika tidak, mereka akan diteruskan ke David atau tim penjualannya atau seseorang di Alation, sehingga mereka pasti dapat membantu menjawab pertanyaan Anda dan membantu memahami apa yang dilakukan oleh Alation atau apa yang mereka lakukan yang terbaik.

Dan dengan itu, teman-teman, saya akan pergi dan menandatangani kami. Anda selalu dapat menemukan arsip di InsideAnalysis.com. Anda juga dapat menemukannya di Techopedia.com. Mereka cenderung memperbarui sedikit lebih cepat, jadi pasti periksa itu. Dan terima kasih banyak untuk David Crawford, Dez Blanchfield dan Robin Boor hari ini. Sudah webcast yang bagus. Dan dengan itu, saya akan mengucapkan selamat tinggal. Terima kasih semuanya. Sampai jumpa.

David Crawford: Terima kasih.

Kekuatan saran: bagaimana katalog data memberdayakan analis