Artificial Intelligence / Data science

สรุปเนื้อหา Google I/O 2024

Sirasit Boonklang

เผยแพร่เมื่อ 15 พฤษภาคม 2024

405 การเข้าชม

เขียนโดย

Sirasit Boonklang

บทความนี้ตีพิมพ์ และ เผยแพร่เมื่อ 15 พฤษภาคม 2024

👨🏻‍💻 ผู้เข้าชมทั้งหมด: 405

ไฮไลท์สำคัญ:

Project Astra: ผู้ช่วย AI สุดล้ำ เสมือนมี Jarvis จาก Iron Man อยู่ใกล้ตัว
Gemini 1.5 Pro: โมเดล AI รุ่นใหม่ ฉลาดขึ้น แรงขึ้น ทำงานได้หลากหลาย
Gemini 1.5 Flash: โมเดลขนาดเล็ก เน้นความเร็ว เหมาะกับงานเฉพาะทาง
Veo: สร้างวิดีโอจากข้อความ คู่แข่ง SORA
Imagen 3: โมเดลสร้างภาพรุ่นใหม่ เคลมว่าดีที่สุดในปัจจุบัน
Gemini ใน Google Workspace: ยกระดับประสิทธิภาพการทำงานด้วย AI
Gemini Search: ค้นหาข้อมูลยุคใหม่แบบทันใจด้วยข้อความ วิดีโอ และภาพ
Circle to Search: ฟีเจอร์ใหม่บน Android วาดๆ วงๆ บนรูปข้อมูลก็มาส่งตรงหน้า
โครงสร้างพื้นฐาน: Trillium: TPU รุ่นที่ 6 ขุมพลังของ Gemini ในยุคนี้
ความปลอดภัย: ทดสอบและตรวจสอบอย่างละเอียดก่อนปล่อยด้วย red-teaming

สำหรับงานปล่อยของครั้งใหญ่ประจำปีของ Google ในปีนี้เรียกได้ว่า Google ขนทัพ AI มาอย่างยิ่งใหญ่จน Sundar Pichai CEO ของ Google ยังบอกเองว่า “Gemini era” แล้วจะมีโปรเจกต์หรือบริการไหนที่น่าสนใจบ้างมาติดตามไปพร้อมกันครับ 🚀

เริ่มที่ตัวแรกกับโปรเจกต์สุดว้าว “Project Astra” เป็นโปรเจกต์ที่โครตเจ๋งเหมือนมี AI สุดเทพอย่าง Javis ในหนัง IRON Man ใกล้ๆตัว ที่เราสามารถเปิดกล้อง พูดคุยกับ AI ได้แบบ Real Time ซึ่งความสามารถคล้ายๆ กับ GPT-4o ที่เพิ่งเปิดตัวไปไวๆ นี้เลย

Google เปิดตัว Gemini 1.5 Pro เวอร์ชันใหม่ล่าสุดของโมเดล AI ที่มีความสามารถเหนือกว่าเดิมมาก

Gemini 1.5 Pro รองรับ context window สูงสุดถึง 2 ล้านโทเคน สูงกว่า GPT-4 ของคู่แข่งเกือบ 16 เท่า เข้าใจอินพุตที่เป็นเสียง ช่วยให้ผู้ใช้สามารถสื่อสารกับโมเดลผ่านเสียงพูดได้ง่ายขึ้น แถมรุ่นนี้ยังได้ปรับปรุงประสิทธิภาพการแปล การเขียนโค้ด การใช้เหตุผล และอื่นๆ ให้รองรับการสั่งงานที่ซับซ้อนกว่าเดิม

แถมยังมีรุ่น Gemini 1.5 Flash ที่มีขนาดเล็กและคุ้มค่ากว่าเน้นความเร็วในการประมวลผล เหมาะกับงานเฉพาะที่ต้องการความรวดเร็วเหมือนชื่อโมเดลเลย

ก่อนหน้านี้เราได้เห็นเครื่องมือสร้างข้อความเป็นวิดีโออย่าง Sora ของ OpenAI กันไปแล้วงานนี้ Google ก็มีเหมือนกัน มันมีชื่อว่า Veo โดยเจ้าตัวนี้มันสามารถเข้าใจคำศัพท์เฉพาะทางภาพยนตร์ เช่น ภาพถ่ายทางอากาศและไทม์แลปส์ มันจะอยู่ในแอป VideoFX ของ Google

แต่ถ้าหากเป็นการเจนแค่ภาพเฉยๆ ก็สามารถใช้เป็น Imagen ได้โดยในงานนี้ได้ออก Imagen 3 สำหรับสร้างภาพที่ใช้งานบน ImageFX ที่ทาง Google ได้เคลมว่าเป็นโมเดลสำหรับสร้างภาพที่ดีที่สุดในปัจจุบัน

ต่อมาเป็นฟีเจอร์ที่ถูกใจชาวออฟฟิศสำหรับการอัปเดต Google Workspace ที่มีการเอา Gemini ไปใส่ในแต่ละผลิตภัณฑ์ให้เราสามารถทำงานได้ไวมากยิ่งขึ้น อย่างเช่น สรุปอีเมล แนะนำการตอบกลับ ช่วยเขียนอีเมล ค้นหาไฟล์ จัดระเบียบไฟล์ บันทึกข้อมูลลง Google Sheet จะเห็นได้ว่าการใช้งานยุคใหม่จะเน้นไปที่การตั้งคำถาม มากกว่าการค้นหาเอง

เมื่อเราพูดถึงการค้นหาใน Google Workspace กันไปแล้ว เรามาดูร๔ปแบบของการค้นหาในยุคนี้กันดีกว่า หลายๆ คนน่าจะรู้กันอยู่แล้วว่า Search Engine อันดับหนึ่งของโลกก็คือ Google แต่ในยุคปัจจุบัน การมาของ Generative AI คนก็นิยมถาม AI มากขึ้นแทนการค้นหาผ่าน Google โดย Google เองก็ไม่นิ่งนอนใจก็เอาเจ้า Gemini ไปหาอ่านข้อมูลแล้วมาตอบ มาสรุปให้เราแบบเข้าใจง่าย โดยส่วนที่ลิงก์ไปเว็บดั้งเดิมก็จะยังอยู่ แต่อาจจะลดพื้นที่ในการแสดงผลลงไป ให้ส่วนของ Gemini AI Google Search มีพื้นที่ขึ้นมาแทน

นอกจากเรื่องของการค้นหาในรูปแบบของข้อความแล้ว ด้วยโมเดลขนาดใหญ่ที่ปรับประสิทธิภาพมาแล้ว ทำให้เจ้า Gemini สามารถค้นหาด้วยวิดีโอได้ อันนี้คือร้อง วู้วได้เลย! 😲

ของใหม่ใน Android 15 📱

มาในฝั่งของระบบปฏิบัติการอย่าง Android กันบ้าง แน่นอนว่าหนีไม่พ้นเรื่องของ AI แน่นอนเพราะใน Android จะมีการเอา Gemini มาใช้เป็นตัวหลัก แทน Google Assistant ตัวเดิมเพื่อเอาความเจ๋งต่าง ๆ มาให้เราใช้งานได้อย่างราบรื่นมากขึ้น มีอะไรก็ถาม Gemini ได้เลย ซึ่งถามได้ทั้งเป็นข้อความ เสียง วิดีโอ หรือแม้กระทั่งภาพ และสิ่งที่เจ๋งมาก ๆ ในส่วนของเซสชั่นนี้คือฟีเจอร์ชื่อว่า “Circle to Search…” ที่ยกระดับการค้นหา เปิดประสบการณ์ใหม่จากที่เดิมเราค้นหาด้วยภาพผ่าน Google Lens ที่เราต้องคอยอัปโหลดภาพไปถาม แต่อันนี้คือวงกลมที่ภาพแล้วถาม Gemini ที่ต่อกับ Google Lens ได้เลย เรียกได้ว่าสร้าง UX แบบใหม่ที่ใช้การวง ๆ ภาพแล้วได้ข้อมูลมาได้อย่างว่ายดาย และตอนนี้ Circle to Search พร้อมให้บริการแล้ววันนี้ แต่เฉพาะบน Android เท่านั้น ซึ่งเจ้าฟีเจอร์แบบนี้นอกจากจะใช้หาสินค้า หาข้อมูลแล้ว มันยังเจ๋งตรงที่ เวลาเราเจอพวกสูตร โจทย์ ไดอะแกรมต่างๆ ที่เป็นภาพเราก็วง ๆ แล้วก็คุยกับ Gemini ต่อได้เลย

แล้วเจ้าพวกพลังความสามารถของ AI เหล่านี้มันมาจากไหน? คำตอบคือพลังการประมวลผลเหล่านี้มาจาก มาจาก Infrastructure สุดโหดพร้อมทั้ง ฮาร์ดแวร์สุดล้ำอย่าง Trillium เป็น TPU สุดโหดรุ่นที่ 6 โดย Gemini ตัวเดิมที่เราใช้อยู่ถูกเทรมมาจาก TPU รุ่นที่สี่และห้า

ภายในงานยังมีการพูดถึง Gemma โมเดล AI แบบ open source ของ Google ที่เราสามารถเอาไปใช้ได้ โดยจะต่างกับ Gemini ที่รันอยู่บน server ของ Google และเป็นระบบปิด เรื่องด้านความปลอดภัย Google ยังบอกอีกว่าได้มีการอัปเดต AI แบบ “red-teaming” เพื่อทดสอและหาช่องโหว่ก่อนปล่อย แถมยังมีเทคโนโลยี SynthID ที่จะช่วยใส่ลายน้ำให้กับรูปภาพ AI เอาไว้ตรวจสอบรูปที่เจนมาได้ง่ายขึ้นอีกด้วย