Session 7 : Beginning Data Science with R and Python
ปิดท้ายกับ Session พี่ทอย Kasidis จากเพจ DataRockie ที่เริ่มต้นด้วยการทำความรู้จักกับ Python ที่ทุกคนน่าจะรู้จักกันดีอยู่แล้ว และ Posit ที่เป็นชื่อใหม่ของภาษา R นั่นเอง
โดยอันดับแรกได้ให้รู้จักกับที่มาของภาษา Python ที่ให้กำเนิดตั้งแต่ปี 1991 โดย Guido van Rossum ที่ปัจจุบันอยู่ใน Microsoft ส่วนฝั่งภาษา R คือมาจากตัวอักษรตัวแรกของทั้งสองท่านที่เป็นผู้กำเนิดนั่นเอง
สำหรับจุดกำเนิดของ Python เพื่อมาทำ General Programming Language ที่กำเนิดมาเรื่อง Computing, Software, AI, Deep Learning และ Data Scienceส่วน R เกิดมาจาก Statistical Programing Language ที่ใช้ในการสถิติ ขยับไป Data Science จนไปถึง Deep Learning และตอนนี้ก็เอามาทำ Software ได้แล้วเหมือนกัน
โดยมันจะมีจุดที่เหมือน และ แตกต่างกันอยู่ในสองตัวนี้ แต่ต้องบอกว่าคนกลุ่มเขียน Python อย่าง Engineer ที่ Google ได้นำ Package หลาย ๆ อย่างมาใช้ใน R ได้แล้ว เช่น Deep Learning ที่ย้ายมาแบบเบิ้ม ๆ
ต่อมามาลุยกันเรื่อง Data Science คืออะไร ? แอดทอยก็ได้บอกว่า มันเป็นการเปลี่ยน “ข้อมูลดิบ” เป็น “Actionable Insight” และ ให้รู้จักกับ DIKW Model ที่มี Data ที่อยู่ชั้นล่างสุด ที่เก็บทุกสิ่งทุกอย่างเอาไว้, ต่อมาคือเรื่อง Information ที่ทำให้เรารู้ว่า ใคร ทำอะไร ที่ไหน อย่างไร เมื่อไหร่ และ เท่าไหร่, ตามมาด้วย Knowledge หรือ การหาความสัมพันธ์ของตัวแปร ว่าตัวไหนที่เราเห็นว่ามี Pattern ซึ่งสุดท้ายเราจะทำการขึ้นไปสู่จุดที่เรียกว่า Wisdom ที่เป็นความเข้าใจอะไรสักอย่าง อย่างท่องแท้เลยนั่นเอง
ซึ่งจุดสุดท้ายนี้คือจุดที่ยากที่สุดการกล่นเป็น Wisdom เพราะเราต้องเข้าใจมันจริง ๆ เช่น การระบุให้มั่นใจว่าการสูบบุหรี่ ทำให้ก่อให้เกิดมะเร็งปอด ต้องใช้เวลา และ ข้อมุลมหาศาลเลย และ การเป็น Wisdom ได้ ไม่ใช่แค่ Data + Science ก็จะเป็น แต่มันจะบวกกันจนกลายเป็น Insight มาก่อน รวมกันจนกลายเป็น Wisdom นั่นเอง
โดยการทำ Data นั้นขึ้นอยู่กับว่าเราจะใช้ Tools อะไร หากเราไม่อยากเขียนโปรแกรม อาจจะเริ่มจาก Sheet, Excel พวกนี้ก่อนก็ได้ แต่ Programming ก็มีความสำคัญนะ
ต่อมาดูเรื่อง 4 Phase ของการทำ Data Analytics คือการทำ Descriptive (What รู้ว่ามียอดอะไรเพิ่ม ลดเท่าไหร่) > Diagnostic (Why รู้ว่าทำไมถึงลดหรือเพิ่ม) > Predictive (Will) > Prescriptive (How ถ้ารู้แล้วเราจะทำยังไงกันต่อ)
ทั้งนี้แอดทอยยังย้ำอีกว่าชื่อตำแหน่ง มันก็แค่ชื่อตำแหน่ง เพราะสุดท้ายก็จะมายุบกันอยู่ในตำแหน่ง Data Analyst แล้วจ้า ซึ่งการเริ่มงานสายนี้ถามว่าการเขียนโปรแกรมจำเป็นจริงไหม คำตอบก็คือ เราต้องพยายามเป็น “Generalist” พยายามเข้าใจให้ได้ทุกอย่าง
โดย Data Science ในความหมายพี่ทอย อยากให้ดูกันว่ามันเป็นสกิลมากกว่าตำแหน่ง คือ เราทุกคนก็ควรเรียนรู้ไว้นะ !
เมื่อเรียบร้อยจบส่วนนี้พี่ทอยพาเรามาใช้งาน Posit.cloud ที่เอาไว้เขียนภาษา R / Python นั่นเอง ซึ่งพี่ทอยได้บอกไว้ว่า “เกินกว่า 50% ของ ภาษา R แทบจะนำ Python ยกมาได้เลย”
โดยความต่างหลักจะอยู่ตรง Data Structure ที่มี vector, matrix, list และ data frame ซึ่ง vector จะแตกต่างกับ python ที่เป็น list ตรงที่ สมมติเราต้องการ คูณเลขลงไปในทั้งหมด ถ้าเป็นใน Python เราต้องเขียน for loop แต่ R แค่พิมพ์ *2 ได้เลย
การทำงานของ R สามารถทำงานผ่าน Console ด้านขวามือ หรือ Terminal ที่ทำงานเหมือน Command Prompt, Terminal ปกติบนเครื่องได้เลย เข้าถึงไฟล์ต่าง ๆ ได้ด้วยนะ ต้องบอกว่าเกือบทั้งหมดในสองภาษานี้ดูคล้ายกัน แต่คำสั่งในดีเทลอาจจะแตกต่างกัน เพราะ เขาถูกออกแบบมาเพื่อคนละจุดประสงค์นั่นเอง
ซึ่งท้ายที่สุดนี้แอดทอยได้ทำการ Demo ให้เราดูด้วยว่าสามารถ Plot Graph รูปแบบต่าง ๆ ใน R ได้เลย แถมยังมีของแถมในการทำ Machine Learning ในการนำ Model เกี่ยวกับ รถยนต์มาทำนายว่า แรงม้าเท่านี้ น้ำหนักเท่านั้น ทำนายข้อมูลในรถคันอื่นว่า “ใช้น้ำมันกี่แกลลอนในการขับรถหนึ่งไมล์” ซึ่งบอกเลยว่า ใช้ code แค่ 4 – 5 บรรทัดเท่านั้น
แอดทอยก็บอกว่า “ไพธอนก็ทำไม่ได้นะคร้าบ สั้นขนาดนี้ 🤣”