4 yıl önce 4 yıl önce

Meta’nın Yeni AI destekli Konuşma Çeviri Sistemi

Sn Son Dakika Haberler 4 yıl önce4 yıl önce

Şimdiye kadar, AI çevirisi esas olarak yazılı dillere odaklandı. Yine de dünyadaki 7.000’den fazla yaşayan dilin neredeyse yarısı esas olarak sözlüdür ve standart veya yaygın olarak kullanılan bir yazı sistemine sahip değildir. Bu, bir AI modelini eğitmek için büyük miktarda yazılı metin gerektiren standart teknikleri kullanarak makine çevirisi araçları oluşturmayı imkansız hale getirir. Bu zorluğun üstesinden gelmek için, öncelikle sözlü bir dil olan Hokkien için ilk yapay zeka destekli çeviri sistemini oluşturduk . Hokkien, Çin diasporasında yaygın olarak konuşulmaktadır, ancak standart bir yazılı formdan yoksundur. Teknolojimiz, Hokkien konuşmacılarının İngilizce konuşanlarla konuşmalarını sağlar.

Açık kaynaklı çeviri sistemi, Meta’nın Evrensel Konuşma Tercümanı (UST) projesinin bir parçasıdır ve sonunda yeni yapay zeka yöntemleri geliştiriyor ve sonunda tüm mevcut dillerde, hatta en başta konuşulan dillerde bile gerçek zamanlı konuşma-konuşma çevirisine izin verecek. Sözlü iletişimin engelleri ortadan kaldırmaya ve nerede olurlarsa olsunlar insanları bir araya getirmeye yardımcı olabileceğine inanıyoruz – meta veri tabanında bile .

Bu yeni salt konuşma çeviri sistemini geliştirmek için Meta’nın AI araştırmacıları, veri toplama, model tasarımı ve değerlendirme dahil olmak üzere geleneksel makine çevirisi sistemlerinden gelen birçok zorluğun üstesinden gelmek zorunda kaldı. UST’yi daha fazla dile genişletmek için önümüzde çok iş var. Ancak insanlarla herhangi bir dilde zahmetsizce konuşabilmek uzun zamandır aranan bir hayal ve bunu gerçekleştirmeye bir adım daha yaklaştığımız için mutluyuz. Yalnızca Hokkien çeviri modellerimizi değil, aynı zamanda değerlendirme veri kümelerini ve araştırma makalelerini de açık kaynak kullanıyoruz, böylece diğerleri yeniden üretebilir ve çalışmalarımızı geliştirebilir.

Eğitim verisi zorluklarının üstesinden gelmek

Yeterli veri toplamak, bir Hokkien çeviri sistemi kurmaya başlarken karşılaştığımız önemli bir engeldi. Hokkien, düşük kaynaklı bir dil olarak bilinir; bu, dil için, örneğin İspanyolca veya İngilizce ile karşılaştırıldığında, hazırda bol miktarda eğitim verisi bulunmadığı anlamına gelir. Ayrıca, nispeten az sayıda insan İngilizceden Hokkien’e çevirmen olması, modeli eğitmek için veri toplamayı ve açıklama eklemeyi zorlaştırıyor.

Sözde etiket oluşturmak için Mandarin dilini bir ara dil olarak kullandık ve insan çevirilerinin yanı sıra İngilizce (veya Hokkien) konuşmayı Mandarin metnine çevirdik ve ardından Hokkien’e (veya İngilizce) çevirdik ve eğitim verilerine ekledik. Bu yöntem, benzer yüksek kaynaklı bir dilden gelen verilerden yararlanarak model performansını büyük ölçüde geliştirdi.

Konuşma madenciliği, eğitim verisi oluşturmaya yönelik başka bir yaklaşımdır. Önceden eğitilmiş bir konuşma kodlayıcıyla , Hokkien’in yazılı bir forma sahip olmasını gerektirmeden Hokkien konuşma yerleştirmelerini diğer dillerle aynı anlamsal alana kodlayabildik. Hokkien konuşması, İngilizce konuşma ve anlamsal yerleştirmeleri benzer olan metinlerle hizalanabilir. Daha sonra metinlerden İngilizce konuşmayı sentezleyerek paralel Hokkien ve İngilizce konuşmayı sağladık.

Yeni bir modelleme yaklaşımı

Birçok konuşma çeviri sistemi, transkripsiyonlara dayanır veya konuşmadan metne sistemlerdir. Ancak, öncelikle sözlü dillerin standart yazılı biçimleri olmadığı için, çeviri çıktı olarak deşifre edilmiş metin üretmek işe yaramıyor. Böylece konuşmadan konuşmaya çeviriye odaklandık.

Giriş konuşmasını daha önce Meta’nın öncülük ettiği yolda doğrudan bir dizi akustik birime çevirmek için konuşmadan birime çeviriyi (S2UT) kullandık . Daha sonra birimlerden dalga formları oluşturduk. Ayrıca UnitY, ilk geçiş kod çözücünün ilgili bir dilde (Mandarin) metin oluşturduğu ve ikinci geçiş kod çözücünün birimler oluşturduğu iki geçişli bir kod çözme mekanizması için benimsenmiştir.

Değerlendirme doğruluğu

Konuşma çeviri sistemleri genellikle, önce otomatik konuşma tanıma (ASR) kullanılarak çevrilen konuşmanın metne dönüştürülmesini ve ardından kopyalanan metni bir metinle karşılaştırarak BLEU puanlarını (standart bir makine çevirisi metriği) hesaplamayı içeren ASR-BLEU adlı bir metrik kullanılarak değerlendirilir. insan tarafından çevrilmiş metin. Ancak, Hokkien gibi sözlü bir dil için konuşma çevirilerini değerlendirmenin zorluklarından biri, standart bir yazı sisteminin olmamasıdır. Otomatik değerlendirmeyi etkinleştirmek için Hokkien konuşmasını Tâi-lô adı verilen standart bir fonetik notasyona dönüştüren bir sistem geliştirdik . Bu teknik, hece düzeyinde bir BLEU puanı hesaplamamızı ve farklı yaklaşımların çeviri kalitesini kolayca karşılaştırmamızı sağladı.

Hokkien-İngilizce konuşma çevirilerini değerlendirmek için bir yöntem geliştirmenin yanı sıra, Taiwanese Across Taiwan adlı bir Hokkien konuşma külliyatına dayalı ilk Hokkien-İngilizce çift yönlü konuşma-konuşma çevirisi karşılaştırma veri kümesini oluşturduk . Bu kıyaslama veri seti, diğer araştırmacıları Hokkien konuşma çevirisi üzerinde çalışmaya ve birlikte bu alanda daha fazla ilerleme kaydetmeye teşvik etmek için açık kaynaklı olacaktır.

Çevirinin geleceğine bakmak

Mevcut aşamasında yaklaşımımız, Hokkien konuşan birinin İngilizce konuşan biriyle sohbet etmesine olanak tanır. Model hala devam eden bir çalışma olmasına ve bir seferde yalnızca bir tam cümleyi çevirebilmesine rağmen, diller arasında eşzamanlı çevirinin mümkün olduğu bir geleceğe doğru bir adımdır.

Hokkien ile öncülük ettiğimiz teknikler, diğer birçok yazılı ve yazısız dile genişletilebilir. Bu amaçla, araştırmacıların kendi konuşmadan konuşmaya çeviri (S2ST) sistemlerini oluşturmalarına olanak sağlayacak, Meta’nın LASER adlı yenilikçi veri madenciliği tekniğiyle çıkarılan büyük bir konuşmadan konuşmaya çeviriler topluluğu olan SpeechMatrix’i yayınlıyoruz. bizim işimizde.

Meta’nın denetimsiz konuşma tanıma ( wav2vec-U ) ve denetimsiz makine çevirisi ( mBART ) konusundaki son gelişmeleri, daha fazla konuşulan dillerin çevrilmesi konusunda gelecekteki çalışmaları bilgilendirecektir. Denetimsiz öğrenmedeki ilerlememiz, herhangi bir insan açıklaması olmadan yüksek kaliteli konuşmadan konuşmaya çeviri modelleri oluşturmanın fizibilitesini göstermektedir. Sistem, çoğu hiç etiketli veriye sahip olmadığı için, düşük kaynaklı dillerin kapsamını genişletme gereksinimlerini önemli ölçüde azaltır.

Yapay zeka araştırması, bağlantıyı ve karşılıklı anlayışı teşvik etmek amacıyla hem gerçek dünyadaki hem de meta veri tabanındaki dil engellerini yıkmaya yardımcı oluyor. Araştırmamızı genişletmek ve bu teknolojiyi gelecekte daha fazla kişiye ulaştırmaktan heyecan duyuyoruz.

Yazan Son Dakika Haberler

Profesyonel SEO Uzmanı ve E-ticaret uzmanıyım. https://yemlihatoker.com web adresim aracılığı ile SEO hakkında yanlış bilinen gerçekleri bildirmek ve SEO'yu öğrenmek isteyen herkese yardımcı olmaya çalışıyorum.