Thonburian Whisper:โมเดลถอดความจากเสียงพูดภาษาไทย

เผยแพร่เมื่อ 30 ธันวาคม 2022

4545 การเข้าชม

ข้อความจริง (transcript)	ผลการทำนาย (prediction)
แซ็กอยากเป็นนักเก็ต	แซคอยากเป็นนักเก๊ต
แยกอะตอมไฮโดรเจนออกจากโมเลกุลไซยาไนด์	แยกอตอมไฮโดรเจนออกจากโมเลกุลไซยานัย
เซลขายของที่เก่งมักจะโน้มน้าวให้ลูกค้าใช้อารมณ์ในการตัดสินใจซื้อสินค้ามากกว่าใช้เหตุผล	เซลล์ขายของที่เก่งมักจะโน้มน้าวให้ลูกค้าใช้อารมณ์ในการตัดสินใจซื้อสินค้ามากกว่าใช้เหตุผล
มันเป็นผลลัพธ์ทางอ้อม	มันเป็นผลลัพทางอ้อม
ฉันไม่รู้มาก่อนเลยว่าคุณเล่นกีต้าร์ด้วย	ฉันไม่รู้มาก่อนเลยว่าคุณเล่นกีธาด้วย
ตอบรับ	ตอบลับ
น้ำมันเบรกไหลออกจากทาง	น้ำมันเบกไหลออกจากทาง
นายตำรวจพูดว่าคดีฆาตกรรมทำให้เขาปวดหัว	นายตำรวจพูดว่าคดีฆาตุกรรมทำให้เขาปวดหู

ดาวน์โหลดโมเดลจาก https://huggingface.co/biodatlab/whisper-th-medium-combined และใช้งานผ่านไลบรารี่ huggingface transformers (วิธีใช้ตามรูปด้านล่าง)
ทดลองใช้งานผ่าน Google Colab ที่ https://colab.research.google.com/github/biodatlab/whisper-th-demo/blob/main/whisper_th_demo.ipynb
อ่านโค้ดทาง Github https://github.com/biodatlab/whisper-th-demo

อย่ารอช้า ! เรียนรู้ทักษะด้านดิจิทัลเพื่ออัพเกรดความสามารถของคุณ
เริ่มตั้งแต่พื้นฐาน พร้อมปฏิบัติจริงในรูปแบบหลักสูตรออนไลน์วันนี้

Sale!

Data Science in Everyday Life
Original price was: ฿3,290.00.Current price is: ฿1,490.00. รวม VAT
Original price was: ฿3,290.00.Current price is: ฿1,490.00. รวม VATAdd to cart Quick View
Sale!

Game Development with Unreal Engine
Original price was: ฿2,590.00.Current price is: ฿990.00. รวม VAT
Original price was: ฿2,590.00.Current price is: ฿990.00. รวม VATAdd to cart Quick View
Sale!

Ultimate Data Science with Python
Original price was: ฿13,160.00.Current price is: ฿5,990.00. รวม VAT
Original price was: ฿13,160.00.Current price is: ฿5,990.00. รวม VATAdd to cart Quick View
Sale!

Practical API Design
Original price was: ฿2,590.00.Current price is: ฿1,490.00. รวม VAT
Original price was: ฿2,590.00.Current price is: ฿1,490.00. รวม VATAdd to cart Quick View

แนะนำสำหรับคุณ

Thonburian Whisper:โมเดลถอดความจากเสียงพูดภาษาไทย

Data Science in Everyday Life

Game Development with Unreal Engine

Ultimate Data Science with Python

Practical API Design

Thonburian Whisper:โมเดลถอดความจากเสียงพูดภาษาไทย

“ต่อยหม้อข้าวหม้อแกงให้จงสิ้น แล้วเทรนโมเดลวิสเปอร์ให้ใช้ได้ในตอนเช้า” ชาวเอไอ ฝั่นธนฯ (ไม่ได้กล่าว)

Whisper คืออะไร?

สถาปัตยกรรมการทำงานของโมเดล Whisper ประกอบด้วย Encoder และ Decoder blocks ที่รับ log-Mel Spectogram

ที่มา: Radford, Alec, et al. “Robust speech recognition via large-scale weak supervision.” OpenAI Blog (2022). Github: https://github.com/openai/whisper

Whisper ทำงานอย่างไร?

ความแตกต่างของ Whisper และ Wav2Vec2

จำนวนพารามิเตอร์ของ Whisper ขนาด tiny, base, small, medium, large เท่ากับ 39M, 74M, 244M, 769M, 1550M ตามลำดับ ส่วน Wav2vec2 มีขนาดเท่ากับ 317M

ทำไมต้อง Fine-tune โมเดล Whisper เพื่อใช้กับภาษาไทย?

Fine-tune Thonburian Whisper (ธนบุเรี่ยนวิสเปอร์)

*แบ่งข้อมูล train, test ของ Commonvoice ตามไลบรารี่ huggingface/datasets

*ทำความสะอาดข้อความโดยลบเครื่องหมายวรรคตอนก่อนวัดผล

ผลการทำนายและประสิทธิภาพของโมเดล

โมเดลเปิดให้ใช้ฟรีด้วยไลบรารี่ Huggingface transformers

สำหรับผู้ที่สนใจใช้งาน Thonburian Whisper สามารถทดลองใช้งานผ่านช่องทางดังนี้

ดาวน์โหลดโมเดลจาก https://huggingface.co/biodatlab/whisper-th-medium-combined และใช้งานผ่านไลบรารี่ huggingface transformers (วิธีใช้ตามรูปด้านล่าง)

ทดลองใช้งานผ่าน Google Colab ที่ https://colab.research.google.com/github/biodatlab/whisper-th-demo/blob/main/whisper_th_demo.ipynb

อ่านโค้ดทาง Github https://github.com/biodatlab/whisper-th-demo

ตัวอย่างวิธีใช้งานธนบุเรี่ยนวิสเปอร์ (Thonburian Whisper) ด้วยไลบรารี่ huggingface transformers โดยการสร้าง pipeline, เลือกโมเดล, ทำนายผล

ตัวอย่างใช้งานโมเดลธนบุเรี่ยนวิสเปอร์ (Thonburian Whisper) ผ่านแอพพลิเคชั่น Gradio ผ่าน huggingface spaces https://huggingface.co/spaces/biodatlab/whisper-thai-demo

Acknowledgement ทางทีมผู้พัฒนาขอบคุณคุณ Charin Polpanumas ที่ให้ข้อเสนอแนะสำหรับบทความ

หากคุณสนใจพัฒนา สตาร์ทอัพ แอปพลิเคชัน และ เทคโนโลยีของตัวเอง ?

Data Science in Everyday Life

Game Development with Unreal Engine

Ultimate Data Science with Python

Practical API Design

บทความที่เกี่ยวข้อง

เลือกเรียนรู้

สำหรับภาคการศึกษา

ศูนย์ให้ความช่วยเหลือ

บริการจากเรา

เกี่ยวกับ BorntoDev

ได้รับการรับรองจาก

“ต่อยหม้อข้าวหม้อแกงให้จงสิ้น แล้วเทรนโมเดลวิสเปอร์ให้ใช้ได้ในตอนเช้า”
ชาวเอไอ ฝั่นธนฯ (ไม่ได้กล่าว)

สถาปัตยกรรมการทำงานของโมเดล Whisper ประกอบด้วย Encoder และ Decoder blocks
ที่รับ log-Mel Spectogram

ที่มา: Radford, Alec, et al. “Robust speech recognition via large-scale weak supervision.”
OpenAI Blog (2022). Github: https://github.com/openai/whisper

หากคุณสนใจพัฒนา สตาร์ทอัพ แอปพลิเคชัน
และ เทคโนโลยีของตัวเอง ?