Google เปิดตัว Expressive Captions ใส่อารมณ์ในคำบรรยายวิดีโอบน Android

Google's Android AI: Captions with Emotions and Sounds

สุดตื่นเต้น! Google เพิ่งเปิดตัวฟีเจอร์ใหม่สุดล้ำสำหรับ Android ที่จะเปลี่ยนประสบการณ์การรับชมวิดีโอของเราไปอย่างสิ้นเชิง “Expressive Captions” คือนวัตกรรมที่นำ AI มาใช้ในการแสดงคำบรรยายที่ไม่เพียงแค่บอกว่าใครพูดอะไร แต่ยังสามารถถ่ายทอดอารมณ์และเสียงแวดล้อมได้อย่างน่าทึ่ง

ฟีเจอร์นี้จะช่วยให้ผู้ใช้ Android เข้าใจบริบทของวิดีโอได้ดียิ่งขึ้น โดยเฉพาะในสถานการณ์ที่ไม่สามารถเปิดเสียงได้ หรือสำหรับผู้ที่มีปัญหาทางการได้ยิน นับเป็นก้าวสำคัญในการทำให้การรับชมคอนเทนต์ออนไลน์เข้าถึงได้สำหรับทุกคน

วิธีการทำงานของ Expressive Captions

Expressive Captions ใช้เทคโนโลยี AI ขั้นสูงในการวิเคราะห์องค์ประกอบต่างๆ ของเสียงในวิดีโอ ไม่ว่าจะเป็น:

  • โทนเสียง
  • ความดัง
  • อารมณ์ของผู้พูด
  • เสียงแวดล้อม

จากนั้นจึงแสดงผลออกมาเป็นคำบรรยายที่สื่อถึงอารมณ์และบรรยากาศได้อย่างแม่นยำ

การแสดงอารมณ์ผ่านตัวอักษร

หนึ่งในเทคนิคที่น่าสนใจคือการใช้ตัวอักษรพิมพ์ใหญ่เพื่อแสดงถึงอารมณ์ที่เข้มข้น เช่น หากมีคนตะโกน “HAPPY BIRTHDAY!” คำบรรยายก็จะแสดงเป็นตัวพิมพ์ใหญ่ทั้งหมดเช่นกัน สอดคล้องกับวิธีที่เราใช้สื่อสารกันในข้อความออนไลน์

การรับรู้เสียงแวดล้อม

นอกจากนี้ Expressive Captions ยังสามารถจับเสียงอื่นๆ ในฉากได้ด้วย เช่น:

  • เสียงถอนหายใจ
  • เสียงอุทาน
  • เสียงปรบมือ
  • เสียงเชียร์

ทำให้ผู้ชมได้รับรู้บรรยากาศโดยรอบได้อย่างครบถ้วน แม้จะไม่ได้ยินเสียงจริงๆ

ความพร้อมใช้งานและการรองรับ

Expressive Captions พร้อมใช้งานแล้ววันนี้ สำหรับอุปกรณ์ Android ที่มีคุณสมบัติดังนี้:

  • รัน Android 14 ขึ้นไป
  • เปิดใช้งานฟีเจอร์ Live Caption
  • อยู่ในสหรัฐอเมริกา
  • ใช้ภาษาอังกฤษ

ฟีเจอร์นี้ทำงานได้กับแอปพลิเคชันส่วนใหญ่ที่มีการเล่นวิดีโอ ไม่ว่าจะเป็น:

  • การสตรีมสด
  • วิดีโอใน Google Photos
  • ข้อความวิดีโอจากเพื่อน

ที่สำคัญคือสามารถทำงานได้แบบเรียลไทม์และแม้กระทั่งในโหมดออฟไลน์

“นี่คือก้าวสำคัญในการทำให้ทุกคนสามารถเพลิดเพลินกับวิดีโอออนไลน์ได้ ไม่ว่าจะมีความสามารถในการได้ยินระดับใดก็ตาม” – Google กล่าว

เบื้องหลังการพัฒนา

การสร้างฟีเจอร์อันทรงพลังนี้ เกิดจากความร่วมมือระหว่างทีม Android และ Google DeepMind โดยพวกเขาได้ศึกษาวิธีที่ผู้คนรับชมวิดีโอโดยไม่มีเสียง และนำข้อมูลนั้นมาพัฒนา AI ที่ไม่เพียงแค่จับคำพูด แต่ยังสามารถแปลงเป็นคำบรรยายที่แสดงอารมณ์และเสียงแวดล้อมได้อย่างครบถ้วน

Expressive Captions แสดงให้เห็นถึงศักยภาพของ AI ในการยกระดับประสบการณ์การใช้งานสำหรับทุกคน และเป็นตัวอย่างที่ดีของการนำเทคโนโลยีมาใช้เพื่อสร้างความเท่าเทียมในการเข้าถึงข้อมูล

สำหรับคอวิดีโอออนไลน์อย่างดิฉันแล้ว ไม่อาจรอที่จะได้ลองใช้ Expressive Captions เลยค่ะ! การได้เห็นทั้งอารมณ์และได้ยินเสียงรอบข้างผ่านคำบรรยายจะทำให้การดูวิดีโอในที่ที่มีเสียงรบกวนเป็นประสบการณ์ที่ดีขึ้นอย่างแน่นอน หวังว่าในอนาคตอันใกล้ เราจะได้เห็นฟีเจอร์นี้รองรับภาษาอื่นๆ และขยายไปยังภูมิภาคอื่นทั่วโลกด้วยนะคะ

Facebook Comments Box

Leave a Reply