บทความนี้เราจะมาทำความรู้จักกับศาสตร์ที่มีชื่อว่า Data Science (วิทยาการข้อมูล) และตำแหน่งงานสายตรงของศาสตร์ Data Science อย่าง Data Scientist (นักวิทยาศาสตร์ข้อมูล) กันครับ
โดย Chaiyaphop Jamjumrat (Bas)
Data Scientist at True Digital Group
“Stop doing Data Sciyasart! Please, Do Data Science!”
Intro to Data Science
ในช่วงต้นของศตวรรษที่ 21 Internet เริ่มถูกใช้งานกันอย่างแพร่หลายจนมาถึงทุกวันนี้ที่พวกเราทุกคนบนโลกแทบจะใช้งาน Internet กันตลอดเวลา เรียกได้ว่า 24/7 กันเลยทีเดียว ไม่ว่าจะเป็นการเล่น Social Media, ดู Streaming Service, เรียน Online, Shopping และอื่น ๆ อีกมากมาย ซึ่งมันทำให้ปริมาณของข้อมูลเพิ่มสูงขึ้นอย่างมหาศาลและไม่มีที่สิ้นสุด
ชนิดของข้อมูลก็มีความหลากหลายมากขึ้นเรื่อย ๆ ตามแหล่งที่มาของข้อมูลที่แตกต่างกันไป การสร้างและการเคลื่อนย้ายข้อมูลมีความเร็วมากขึ้นจากเทคโนโลยีต่าง ๆ ที่ถูกพัฒนาอยู่ตลอดเวลา ดังนั้นจากข้อมูลธรรมดาทั่ว ๆ ไปจึงกลายเป็น Big Data ที่เต็มไปด้วย Insights (ข้อมูลเชิงลึก) ที่มีประโยชน์ต่อธุรกิจในยุคปัจจุบัน และสามารถสร้างมูลค่าให้กับธุรกิจได้อย่างมหาศาล
นี่จึงเป็นเหตุผลที่ทำให้ข้อมูลมีมูลค่ามหาศาลตามไปด้วย อย่างที่ Clive Humby ได้เคยกล่าวไว้ว่า “Data is the new oil” คือข้อมูลเปรียบเหมือนกับน้ำมันของยุคปัจจุบันเลย และที่สำคัญ Big Data ยังเป็นแหล่งของข้อมูลจำนวนมหาศาลที่สามารถนำไปใช้ในการ Analytics (วิเคราะห์) และ Predictive Modeling (ทำนาย) ได้ และนี่จึงเป็นจุดเริ่มต้นของศาสตร์ที่มีชื่อว่า “Data Science” นั่นเอง
Data Science หรือ วิทยาการข้อมูล คืออะไร?
Data Science คือ ศาสตร์ในการวิเคราะห์ข้อมูลและอธิบายผลลัพธ์ของการวิเคราะห์ข้อมูลหรือถ้าจะอธิบายเป็น Process ในการทำงานของ Data Science ก็คือ กระบวนการที่ดึงเอาประโยนช์หรือ Insights ในข้อมูลออกมาอธิบายและสร้างมูลค่าให้กับธุรกิจ โดยจำเป็นต้องมี ทักษะ หรือ Skills ที่จะต้องใช้อยู่ 3 ด้านหลัก ๆ คือ
-
Hacking Skills คือ ทักษะทางด้านการเขียนโปรแกรม
-
Math & Statistics Knowledge คือ ความรู้ทางด้านคณิตศาสตร์และ สถิติ ซึ่งผมได้อธิบายความรู้พื้นฐานทางสถิติที่ Data Scientist ควรรู้ไว้ ที่นี่ https://web.facebook.com/borntodev/photos/a.830302417028053/5384984311559818/ แล้วนะครับ
-
Substantive Expertise คือ ความรู้เฉพาะทาง หรือความรู้ด้านธุรกิจ
Image by THE DATA SCIENCE VENN DIAGRAM
ซึ่งคนที่จะต้องมี Skills ทั้งหมดก่อนหน้านี้ก็คือคนที่ทำงานสายตรงในศาสตร์ Data Science อย่าง “Data Scientist” นั่นเอง แล้วว่าแต่พวกเขาคือใคร ? ทำหน้าที่อะไร ? และทำไม Data Scientist จะต้องมี Skills ทั้งหมดก่อนหน้านี้ด้วย ? ไปทำความรู้จักกับเขากันครับ
Data Scientist หรือ นักวิทยาศาสตร์ข้อมูล คืออะไร?
Data Scientist คือ ตำแหน่งที่ต้องทำหน้าที่ศึกษาข้อมูลที่มีอยู่ให้เข้าใจอย่างถ่องแท้ เพื่อที่จะค้นหาหรือสามารถมองเห็นข้อมูล Insights ที่ซ่อนอยู่ในข้อมูลทั้งหมดได้ และนำมาวิเคราะห์ หรือ สร้างโมเดลทำนายอนาคต เพื่ออธิบายผลลัพธ์ที่ได้และเป็นแนวทางในการตัดสินใจให้กับธุรกิจ
Data Scientist ทำหน้าที่อะไรบ้าง?
Data Scientist ในแต่ละองค์กรจะมีหน้าที่ในการทำงานที่เฉพาะจงเจาะแตกต่างกันไปตามประเภทของธุรกิจหรือหน่วยงานนั้น ๆ บางที่ Data Scientist อาจจะต้องทำทุกอย่างใน Data Flow เลย หรือ บางที่ก็อาจจะทำแค่การวิเคราะห์ข้อมูล หรือ สร้างโมเดลทำนายอนาคตเฉย ๆ
ซึ่งจริง ๆ แล้ว Data Scientist ก็มีกระบวนการในการทำงานที่มีรูปแบบชัดเจนอยู่ และวันนี้เราจะมาแนะนำ Process ในการทำงานของ Data Scientist ที่ตัวผมเองเคยใช้ (SEMMA) และที่ Data Scientist เขานิยมใช้กัน คือ
-
SEMMA คือ กระบวนการมาตรฐานในการทำ Data Mining หรือ การทำเหมืองข้อมูล ของบริษัท SAS Institute หรือ เจ้าของโปรแกรม SAS ที่เรารู้จักกันนั่นเอง ซึ่ง SEMMA หมายถึงกระบวนการทำ Data Mining ที่แต่ละตัวอักษรหมายถึงการเรียงลำดับขั้นตอนในการทำ Data Mining โดยความหมายของแต่ละตัวอักษรก็คือ
-
-
S -> Sample คือ การสุ่มกลุ่มตัวอย่างจากกลุ่มเป้าหมายทั้งหมด และทำงานกับแค่ในกลุ่มตัวอย่างแทนที่จะทำงานกับกลุ่มเป้าหมายทั้งหมด เพื่อประหยัดต้นทุนแต่ยังคงประสิทธิภาพสูงสุดไว้เหมือนเดิม เช่น ถ้าเราสนใจที่จะศึกษาคนทั้งประเทศไทย เป็นไปได้ยากมากๆที่เราจะเก็บข้อมูลของคนทั้งประเทศได้หมด ดังนั้นเราจึงเก็บข้อมูลแค่ Sample หรือ กลุ่มตัวอย่าง ขึ้นมา และนำมาอธิบาย Population หรือ ประชากรทั้งหมดที่เราสนใจนั่นเอง Reference: https://web.facebook.com/borntodev/photos/a.830302417028053/5384984311559818/
-
-
-
E -> Explore คือ การสำรวจข้อมูลเพื่อหา Patterns และสิ่งผิดปกติในข้อมูล โดยการ Visualization หรือ ใช้เทคนิคทางสถิติ
-
M -> Modify คือ การปรับแต่งหรือแก้ไขข้อมูล โดยการสร้างตัวแปรใหม่ การเลือกตัวแปร ดัดแปลงตัวแปร และนำไปใช้ในโมเดล เพื่อเพิ่มประสิทธิภาพให้กับโมเดล
-
M -> Model คือ แบบจำลอง หรือ โมเดล ที่ถูกสร้างขึ่นมาเพื่อการคาดการณ์ผลลัพธ์ หรือทำนายอนาคต
-
A -> Assess คือ การประเมินผลลัพธ์ที่ได้จากโมเดลว่าผลลัพธ์มีประโยชน์แค่ไหน? และเชื่อถือได้หรือไม่? หรือเป็นการประเมินว่าโมเดลที่ถูกสร้างขึ่นมามีความแม่นยำเพียงใด?
-
- Image by Data Mining SEMMA
2. CRISP-DM หรือ CRoss-Industry Standard Process for Data Mining คือ กระบวนการมาตรฐานในการวิเคราะห์ข้อมูล และทำ Data Mining ที่ถูกพัฒนาขึ้นในปี 1996 โดยความร่วมมือของ 3 บริษัท คือ DaimlerChrysler, SPSS และ NCR ซึ่งกระบวนการ CRISP-DM จะประกอบไปด้วย 6 ขั้นตอน คือ
-
-
Business Understanding คือ การเข้าใจปัญหา และแปลงปัญหาให้อยู่ในรูปของโจทย์สำหรับการวิเคราะห์ข้อมูล
-
Data Understanding คือ การเข้าใจข้อมูล เป็นการศึกษาข้อมูลที่มีอยู่ และตรวจสอบความถูกต้อง
-
Data Preparation คือ การเตรียมข้อมูลให้พร้อมสำหรับใช้งาน โดยมีการทำความสะอาดข้อมูล (Data Cleaning) และการดัดแปลงข้อมูล (Data Transformation) ให้สามารถนำไปวิเคราะห์ได้
เช่น การดัดแปลงข้อมูลให้อยู่ในช่วงที่กำหนด (Scale) และการเติมค่าให้ข้อมูลที่ขาดหายไป (Missing Values)
-
Modeling คือ การวิเคราะห์ข้อมูลโดยใช้เทคนิค Data Mining หรือ เทคนิค Machine Learning
-
Evaluation คือ การวัดประสิทธิภาพของโมเดลหรือผลลัพธ์ที่ได้ว่าตรงกับวัตถุประสงค์ที่ตั้งไว้หรือไม่ และเชื่อถือได้มากน้อยเพียงใด ซึ่งถ้าประสิทธิภาพของโมเดลหรือผลลัพธ์ที่ได้ ไม่เป็นไปตามที่คาดหวังไว้ สามารถย้อนกลับไปยังขั้นตอน Modeling อีกครั้งเพื่อปรับเปลี่ยนหรือแก้ไขให้ได้ผลลัพธ์ตามที่คาดหวังได้
-
Deployment คือ การอธิบายผลลัพธ์ที่ได้จากโมเดลให้กับธุรกิจ และการนำโมเดลหรือผลลัพธ์ที่ได้ไปใช้งานจริง
-
Image by CRISP-DM
ถึง SEMMA และ CRISP-DM จะถูกคิดค้นมาเพื่อใช้ในการทำ Data Mining แต่ Data Mining ก็เป็นศาสตร์ที่มีความคล้ายคลึงกับ Data Science ในหลาย ๆ ด้านเลย ดังนั้น Data Scientist จึงนิยมนำเอาทั้ง SEMMA และ CRISP-DM มาประยุกต์ปรับใช้ในงาน Data Science
3. OSEMN คือ 5 ขั้นตอนสำหรับการทำ Data Science
-
-
O -> Obtain คือ การเก็บรวบรวมข้อมูล
-
S -> Scrub คือ การทำความสะอาดข้อมูล (Data Cleaning)
-
E -> Explore คือ การสำรวจข้อมูล และศึกษาทำความเข้าใจกับข้อมูล โดยสามารถใช้การทำ Data Visualization ในการศึกษาข้อมูลได้
-
M -> Model คือ การสร้างแบบจำลองหรือโมเดล เพื่อทำนายผล (Predictive Model)
-
N -> Interpret คือ การนำเสนอและอธิบายผลลัพธ์ที่ได้จากโมเดลให้กับธุรกิจ
-
จากทั้ง 3 กระบวนการสำหรับการทำ Data Science ข้างต้นนั้น จะเห็นได้ว่าทั้ง 3 กระบวนการมีความคล้ายคลึงกันทั้งหมดเลย อาจจะแตกต่างกันไปตามลักษณะของการใช้งาน เราจึงนำมาสรุปเป็นขั้นตอนหลัก ๆ ในการทำ Data Science ได้ 4 ขั้นตอน คือ
-
-
การเก็บรวบรวมข้อมูล
-
การจัดการข้อมูล
-
การวิเคราะห์ข้อมูล
-
การนำไปใช้จริง
-
ระยะเวลาส่วนใหญ่ในการทำ Data Science ของ Data Scientist นั้น มักจะถูกใช้ไปกับขั้นตอนการจัดการข้อมูล หรือขั้นตอนการศึกษาข้อมูล เนื่องจากเป็นขั้นตอนที่ค่อนข้างมีความซับซ้อน ยุ่งยาก และยังต้องใช้เวลาอย่างมากในการทำความเข้าใจข้อมูลอีกด้วย
สรุป
Big Data เป็นหนึ่งในเหตุผลหลัก ๆ ที่สำคัญที่ทำให้เกิดศาสตร์ Data Science และอาชีพ Data Scientist ขึ้นมา เพื่อมาจัดการ และวิเคราะห์หาผลประโยชน์จาก Big Data โดยใช้ทักษะทางคณิตศาสตร์และสถิติ โปรแกรมมิ่ง และความรู้ด้านธุรกิจ มารวม ๆ กันนั่นเอง
อ้างอิงจาก
- Data Mining SEMMA, สืบค้นเมื่อ 29 ก.ค. 2565 จาก: https://sis.binus.ac.id/2021/09/30/data-mining-semma/
- What is SEMMA?, สืบค้นเมื่อ 29 ก.ค. 2565 จาก: https://www.datascience-pm.com/semma/
- SEMMA, สืบค้นเมื่อ 29 ก.ค. 2565 จาก: https://en.wikipedia.org/wiki/SEMMA
- What is CRISP DM? สืบค้นเมื่อ 29 ก.ค. 2565 จาก: https://www.datascience-pm.com/crisp-dm-2/#:~:text=Compared%20to%20CRISP%2DDM%2C%20SEMMA,cover%20the%20final%20Deployment%20aspects
- Cross-industry standard process for data mining, สืบค้นเมื่อ 29 ก.ค. 2565 จาก: https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
- A Beginner’s Guide to the Data Science Pipeline, สืบค้นเมื่อ 29 ก.ค. 2565 จาก: https://towardsdatascience.com/a-beginners-guide-to-the-data-science-pipeline-a4904b2d8ad3