ในบรรดาผู้ที่เพิ่งเริ่มต้นเทคโนโลยีนักวิทยาศาสตร์ด้านข้อมูลเป็นคำศัพท์ที่ใช้กันทั่วไปมากขึ้นในการอ้างถึงข้อมูลที่สามารถเชื่อมโยงพื้นที่การทำงานที่แยกออกมาของข้อมูลแบบดั้งเดิม นักวิทยาศาสตร์ด้านข้อมูลคือคนที่มีความสะดวกสบายในการดำเนินการหลายด้าน (ถ้าไม่ใช่ทั้งหมด) ของโครงการด้านข้อมูล:
- การได้มาซึ่งข้อมูล: สิ่งนี้อาจนำไปสู่การเขียนตัวแยกวิเคราะห์ที่กำหนดเองและโปรแกรมรวบรวมข้อมูลเว็บหรือสคริปต์ที่กำหนดเป้าหมายบริการเว็บหรือ API เฉพาะสำหรับแหล่งข้อมูลที่ไม่ใช่แบบดั้งเดิม
- การจัดการข้อมูล: ETL, จัดการ, สืบค้นและบำรุงรักษาข้อมูลในฐานข้อมูล, ร้านค้าคีย์ - ค่าหรือ Hadoop
- การแสดงข้อมูล: การเปิดเผยรูปแบบผ่านการใช้ชุดเครื่องมือสร้างภาพแบบคงที่และ / หรือแพลตฟอร์มแบบโต้ตอบบนพื้นฐานของ Flash, JavaScript หรือการประมวลผล
- การวิเคราะห์: สิ่งนี้มีตั้งแต่เทคนิคง่าย ๆ ไปจนถึงซับซ้อนในสถิติหลายตัวแปรการเรียนรู้ของเครื่องจักรและ NLP
- Insight: แยกสรุปและนำเสนอการค้นพบที่สำคัญให้กับผู้ชมในวงกว้าง
มีเครื่องมือทักษะและรายละเอียดทางเทคนิคมากมายและสามารถใช้เวลาหลายปีในการเรียนรู้แต่ละรายการที่ระบุไว้ด้านบน ในขณะที่นักวิทยาศาสตร์ด้านข้อมูลอาจไม่มีความรู้จากผู้เชี่ยวชาญอย่างแท้จริงในทุก ๆ ด้านเขาหรือเธอสามารถข้ามไปมาและปฏิบัติงานพื้นฐานในทุกเรื่องได้อย่างสะดวกสบาย ผลที่ได้คือข้อมูลที่ดูว่องไวพอที่จะตรวจสอบโครงการข้อมูลได้อย่างรวดเร็วและสร้างคำตอบสำหรับคำถามระดับสูงจากการจัดการ (เกี่ยวกับนักวิทยาศาสตร์ข้อมูลใน Data Scientists: The Rock Rock แห่งเทคโลก)
ในการบำรุงรักษานักวิทยาศาสตร์ด้านข้อมูล บริษัท จำเป็นต้องให้ความสำคัญกับวัฒนธรรมและโครงสร้างองค์กรมากขึ้น ผู้ปฏิบัติงานด้านข้อมูลจำนวนมากมีทักษะและการฝึกอบรมเพียงพอที่จะทำงานได้อย่างรวดเร็วในหลาย ๆ ด้านของระบบสารสนเทศ ปัญหาคือว่าส่วนใหญ่ไม่ทำงานในสภาพแวดล้อมที่ส่งเสริมให้พวกเขากลายเป็นนักวิทยาศาสตร์ข้อมูล พวกเขากำลังติดอยู่ในไซโลและ จำกัด ไว้เพียงหนึ่งหรือสองด้านของระบบสารสนเทศ บ่อยครั้งที่พวกเขาถูก จำกัด ให้ใช้เครื่องมือ "อนุมัติ" โดยผู้จัดการของพวกเขา