
ในสภาพแวดล้อมที่ซับซ้อน มนุษย์สามารถเข้าใจความหมายของคำพูดได้ดีกว่า AI เนื่องจากเราไม่เพียงใช้หูเท่านั้น แต่ยังมีตาด้วย
ตัวอย่างเช่น เราเห็นบางคนกำลังขยับปาก และอาจรู้โดยสัญชาตญาณว่าเสียงที่เราได้ยินต้องมาจากบุคคลนั้น
Meta AI กำลังทำงานเกี่ยวกับระบบบทสนทนา AI ใหม่ ซึ่งมีจุดประสงค์เพื่อสอนให้ AI เรียนรู้ที่จะจดจำความสัมพันธ์ที่ละเอียดอ่อนระหว่างสิ่งที่เห็นและได้ยินในบทสนทนา
VisualVoice เรียนรู้ในลักษณะเดียวกับที่มนุษย์เรียนรู้เพื่อฝึกฝนทักษะใหม่ๆ โดยสามารถแยกเสียงพูดและภาพออกจากกันได้โดยเรียนรู้สัญญาณภาพและเสียงจากวิดีโอที่ไม่ได้ติดป้ายกำกับ
สำหรับเครื่องจักร สิ่งนี้ช่วยให้การรับรู้ดีขึ้น ขณะที่การรับรู้ของมนุษย์ก็ดีขึ้น
ลองจินตนาการว่าคุณสามารถเข้าร่วมประชุมกลุ่มในเมตาเวิร์สร่วมกับเพื่อนร่วมงานจากทั่วทุกมุมโลก ร่วมประชุมกลุ่มย่อยในขณะที่พวกเขาเคลื่อนตัวผ่านพื้นที่เสมือนจริง ซึ่งระหว่างนั้น เสียงสะท้อน และโทนสีในฉากจะปรับเปลี่ยนตามสภาพแวดล้อม
นั่นคือสามารถรับข้อมูลเสียง วิดีโอ และข้อความได้ในเวลาเดียวกัน และมีโมเดลความเข้าใจสภาพแวดล้อมที่สมบูรณ์ยิ่งขึ้น ช่วยให้ผู้ใช้มีประสบการณ์เสียงที่ "ว้าวมาก"
เวลาโพสต์ : 20 ก.ค. 2565