Apa Perbedaan Antara Data Engineer, Data Analyst, dan Data Scientist?

4 mins read

Saya bekerja di SharpestMinds, sebuah startup data science mentorship, dan ada satu saran yang berulang kali saya berikan: para peserta sebaiknya berpikir sejak awal ingin jadi data scientistseperti apa mereka kelak. Hal ini sangat penting, karena data sciencebukan bidang ilmu yang telah terdefinisikan dengan baik.

Perusahaan tidak merekrut data scientist generik yang menguasai banyak aspek, tetapi individu dengan keahlian spesifik.

Ketika sebuah perusahaan merekrut seorang ilmuwan data, mereka sering kali memiliki masalah spesifik yang membutuhkan keahlian teknis dan materi tertentu.

Sebagai contoh, beberapa perusahaan menerapkan model sederhana hingga kumpulan data besar, beberapa menerapkan model kompleks hingga yang sederhana, beberapa perlu mengembangkan model datanya sambil beroperasi, dan beberapa tidak menggunakan model (konvensional) sama sekali.

Setiap kebutuhan mensyaratkan rangkaian keterampilan yang sama sekali berbeda, sehingga sangat aneh bila calon data scientist menerima saran secara umum (belajar bagaimana menggunakan Python, membangun beberapa proyek klasifikasi/regresi/pengelompokan, lalu mulai melamar pekerjaan).

Kita semua yang ada dalam industri ini yang punya andil pada masalah ini. Kita cenderung memasukkan terlalu banyak hal pada kategori “data science” dalam percakapan santai, artikel blog, dan presentasi. Membangun jalur pipa data yang kuat untuk produksi? Menemukan neural networkjenis baru? Itu tercakup dalam data science.

Hal ini tidak bisa dibiarkan, karena dapat menyebabkan banyak calon data scientistkehilangan fokus pada masalah tertentu, serta tak kunjung ahli dalam bidang apa pun. Ini bisa membuat kamu lebih sulit diperhatikan pasar yang memang sudah jenuh dengan generalis.

Sulit untuk menghindari menjadi generalis jika kamu tidak tahu di mana jenis masalah yang bisa kamu ikuti. Itulah mengapa saya mengumpulkan daftar lima jenis masalah ini yang sering disatukan di bawah tajuk data science.

1. Data Engineer

Uraian pekerjaan: kamu akan mengelola jalur pipa data untuk perusahaan yang menangani volume data besar. Itu berarti memastikan bahwa data kamu sedang dikumpulkan dan diambil secara efisien dari sumbernya ketika dibutuhkan, dibersihkan, dan diproses sebelumnya.

Mengapa ini penting: Jika kamu hanya pernah bekerja dengan set data yang relatif kecil (kurang dari 5 GB) dalam file .csv atau .txt, mungkin kamu akan sulit untuk memahami mengapa ada orang yang memiliki pekerjaan penuh waktu dan memelihara jalur pipa data.

Berikut beberapa alasannya:

  1. Data 50 GB tidak muat di RAM komputer, jadi kamu biasanya perlu cara lain untuk memasukkannya ke dalam model yang kamu buat.
  2. Banyak data bisa membutuhkan banyak waktu untuk diproses dan sering kali harus disimpan berkali-kali. Mengelola penyimpanan itu membutuhkan pengetahuan teknik khusus.

Persyaratan: Teknologi yang akan kamu gunakan termasuk Apache Spark, Hadoop dan/atau Hive, serta Kafka. Kemungkinan besar kamu juga harus memiliki dasar yang kuat dalam SQL.

Pertanyaan yang akan kamu hadapi:

  • Bagaimana cara membangun saluran pipa yang dapat menangani 10.000 permintaan per menit?
  • Bagaimana saya bisa membersihkan set data ini tanpa memuat semuanya dalam RAM?

2. Data Analyst

Uraian pekerjaan: Pekerjaan kamu adalah menerjemahkan data menjadi suatu wawasan bisnis yang dapat ditindaklanjuti. Kamu akan sering menjadi perantara untuk tim teknis dan strategi bisnis, tim penjualan, atau tim pemasaran. Visualisasi data akan menjadi pekerjaan yang menghabiskan sebagian besar hari- hari kamu.

Mengapa ini penting: Orang-orang yang sangat teknis sering kali kesulitan memahami mengapa Data Analyst sangat penting, tetapi kenyataannya posisi ini memang penting.

Seseorang harus mengubah model dan sekumpulan data pengguna yang sudah teruji dan terlatih ke dalam format yang dapat dicerna sehingga strategi bisnis dapat dirancang di sekitarnya.

Data Analyst membantu memastikan bahwa tim data sciencetidak membuang waktu untuk menyelesaikan masalah yang tak punya nilai bisnis.

Persyaratan: Teknologi yang akan kamu gunakan termasuk Python, SQL, Tableau, dan Excel. Kamu juga harus menjadi seorang komunikator yang baik.

Pertanyaan yang akan kamu hadapi:

  • Apa yang mendorong angka pertumbuhan kami?
  • Bagaimana cara kami menjelaskan kepada manajemen bahwa kenaikan biaya pengguna baru-baru ini membuat orang menjauh?

3. Data Scientist

Uraian pekerjaan: Pekerjaan kamu adalah membersihkan dan menjelajahi kumpulan data, dan membuat prediksi yang bisa menghasilkan nilai bisnis. Keseharian kamu akan melibatkan pelatihan dan optimalisasi model dan, sering kali, menempatkan mereka dalam proses produksi.

Mengapa ini penting: Ketika kamu memiliki setumpuk data yang terlalu besar untuk diurai oleh manusia dan terlalu berharga untuk diabaikan, kamu perlu cara untuk mencari informasi penting yang dapat dicerna dari data tersebut. Itulah tugas dasar seorang Data Scientist: mengubah kumpulan data menjadi kesimpulan yang dapat dicerna.

Persyaratan: Teknologi yang akan kamu gunakan termasuk Phyton, scikit-learn, Pandas, SQL, dan mungkin Flask, Spark dan/atau TensorFlow/PyTorch. Beberapa posisi Data Scientist murni bersifat teknis, tapi kebanyakan akan menuntut kamu mempunyai naluri bisnis sehingga kamu tak berakhir dengan menyelesaikan masalah yang tidak dimiliki seorang pun.

Pertanyaan yang akan kamu hadapi:

  • Berapa banyak jenis pengguna yang benar-benar kita miliki?
  • Bisakah kita membuat model untuk memprediksi produk mana yang akan dijual dan untuk pengguna yang mana?

4. Machine Learning (ML) Engineer

Uraian pekerjaan: Pekerjaan kamu adalah membangun, mengoptimalkan, dan menggunakan model ML dalam proses produksi. Pada umumnya, kamu akan menjadikan model ML sebagai API atau komponen, yang akan kamu tancapkan ke aplikasi full-stackatau semacam perangkat keras. Kamu juga dapat diminta merancang model sendiri.

Persyaratan: Teknologi yang akan kamu gunakan termasuk Python, Javascript, scikit-learn, TensorFlow/PyTorch (dan/atau kerangka kerja deep learningdalam perusahaan), dan SQL atau MongoDB (biasanya digunakan untuk databaseaplikasi).

Pertanyaan yang akan kamu hadapi:

  • Bagaimana cara saya mengintegrasikan model Keras ini ke aplikasi Javascript kami?
  • Bagaimana saya bisa mengurangi prediksi waktu dan biaya pada sistem rekomendasi kami?

5. Machine Learning Researcher

Uraian pekerjaan: Tugas kamu adalah menemukan cara baru untuk menyelesaikan masalah yang menantang dalam data sciencedan deep learning. Kamu tidak akan bekerja dengan solusi kreatif, alih-alih kamu sendiri yang harus menciptakannya.

Persyaratan: Teknologi yang akan kamu gunakan termasuk Python, TensorFlow/PyTorch (dan/atau framework deep learningperusahaan), dan SQL.

Pertanyaan yang akan kamu hadapi:

  • Bagaimana cara meningkatkan akurasi model kami agar mendekati kesempurnaan?
  • Apakah sistem pengoptimalan buatan sendiri dapat membantu mengurangi waktu pelatihan?

Lima uraian tugas yang saya paparkan di sini pasti tidak berdiri sendiri dalam semua kasus. Pada startuptahap awal, misalnya, seorang Data Scientist mungkin harus juga berperan sebagai Data Engineer dan/atau Data Analyst. Tetapi sebagian besar pekerjaan akan masuk dalam salah satu kategori ini. Semakin besar suatu perusahaan, semakin banyak kategori yang cenderung berlaku.

Untuk mendapat pekerjaan, lebih baik kamu membangun suatu keahlian spesifik. Jangan mempelajari TensorFlow jika kamu ingin menjadi Data Analyst, dan jangan memprioritaskan mempelajari Pyspark jika kamu ingin menjadi Machine Learning Researcher.

Pikirkan tentang nilai apa yang ingin kamu bantu tingkatkan dalam perusahaan, dan pahami cara terbaik dalam menyampaikan nilai tersebut. Itu, lebih dari segalanya, adalah cara terbaik untuk mendapat pekerjaan.

Source

Share: