Özgür Bilgi Kanalı

META AI TRANSLATOR

Şimdiye kadar, AI çevirisi esas olarak yazılı dillere odaklandı. Yine de dünyadaki 7.000’den fazla yaşayan dilin neredeyse yarısı esas olarak sözlüdür ve standart veya yaygın olarak kullanılan bir yazı sistemine sahip değildir. Bu, bir AI modelini eğitmek için büyük miktarda yazılı metin gerektiren standart teknikleri kullanarak makine çevirisi araçları oluşturmayı imkansız hale getirir. Bu zorluğun üstesinden gelmek için, öncelikle sözlü bir dil olan Hokkien için ilkyapay zeka destekli çeviri sistemini oluşturduk .Hokkien, Çin diasporasında yaygın olarak konuşulmaktadır, ancak standart bir yazılı formdan yoksundur. Teknolojimiz, Hokkien konuşmacılarının İngilizce konuşanlarla konuşmalarını sağlar.

Açık kaynaklı çeviri sistemi, Meta’nınEvrensel Konuşma Tercümanı(UST) projesinin bir parçasıdır ve sonunda yeni yapay zeka yöntemleri geliştiriyor ve sonunda tüm mevcut dillerde, hatta en başta konuşulan dillerde bile gerçek zamanlı konuşma-konuşma çevirisine izin verecek. Sözlü iletişimin engelleri ortadan kaldırmaya ve nerede olurlarsa olsunlar insanları bir araya getirmeye yardımcı olabileceğine inanıyoruz – meta veritabanındabile .

Bu yeni salt konuşma çeviri sistemini geliştirmek için Meta’nın AI araştırmacıları, veri toplama, model tasarımı ve değerlendirme dahil olmak üzere geleneksel makine çevirisi sistemlerinden gelen birçok zorluğun üstesinden gelmek zorunda kaldı. UST’yi daha fazla dile genişletmek için önümüzde çok iş var. Ancak insanlarla herhangi bir dilde zahmetsizce konuşabilmek uzun zamandır aranan bir hayal ve bunu gerçekleştirmeye bir adım daha yaklaştığımız için mutluyuz. Yalnızca Hokkien çeviri modellerimizi değil, aynı zamanda değerlendirme veri kümelerini ve araştırma makalelerini de açık kaynak kullanıyoruz, böylece diğerleri yeniden üretebilir ve çalışmalarımızı geliştirebilir.

Eğitim verisi zorluklarının üstesinden gelmek

Yeterli veri toplamak, bir Hokkien çeviri sistemi kurmaya başlarken karşılaştığımız önemli bir engeldi. Hokkien, düşük kaynaklı bir dil olarak bilinir; bu, dil için, örneğin İspanyolca veya İngilizce ile karşılaştırıldığında, hazırda bol miktarda eğitim verisi bulunmadığı anlamına gelir. Ayrıca, nispeten az sayıda insan İngilizceden Hokkien’e çevirmen olması, modeli eğitmek için veri toplamayı ve açıklama eklemeyi zorlaştırıyor.

Sözde etiket oluşturmak için Mandarin dilini bir ara dil olarak kullandık ve insan çevirilerinin yanı sıra İngilizce (veya Hokkien) konuşmayı Mandarin metnine çevirdik ve ardından Hokkien’e (veya İngilizce) çevirdik ve eğitim verilerine ekledik. Bu yöntem, benzer yüksek kaynaklı bir dilden gelen verilerden yararlanarak model performansını büyük ölçüde geliştirdi.

Konuşma madenciliği, eğitim verisi oluşturmaya yönelik başka bir yaklaşımdır. Önceden eğitilmiş birkonuşma kodlayıcıyla, Hokkien’in yazılı bir forma sahip olmasını gerektirmeden Hokkien konuşma yerleştirmelerini diğer dillerle aynı anlamsal alana kodlayabildik. Hokkien konuşması, İngilizce konuşma ve anlamsal yerleştirmeleri benzer olan metinlerle hizalanabilir. Daha sonra metinlerden İngilizce konuşmayı sentezleyerek paralel Hokkien ve İngilizce konuşmayı sağladık.

311154545 1374345473370803 8507488893608759630 N.png? Nc Cat=109&ccb=1 7& Nc Sid=ad8a9d& Nc Ohc=AIQTWKFs1lAAX8VauzJ& Nc Ht=scontent.fist4 1

Yeni bir modelleme yaklaşımı

Birçok konuşma çeviri sistemi, transkripsiyonlara dayanır veya konuşmadan metne sistemlerdir. Ancak, öncelikle sözlü dillerin standart yazılı biçimleri olmadığı için, çeviri çıktı olarak deşifre edilmiş metin üretmek işe yaramıyor. Böylece konuşmadan konuşmaya çeviriye odaklandık.

Giriş konuşmasını daha önce Meta’nın öncülük ettiğiyolda doğrudan bir dizi akustik birime çevirmek için konuşmadan birime çeviriyi (S2UT) kullandık . Daha sonra birimlerden dalga formları oluşturduk. Ayrıca UnitY, ilk geçiş kod çözücünün ilgili bir dilde (Mandarin) metin oluşturduğu ve ikinci geçiş kod çözücünün birimler oluşturduğu iki geçişli bir kod çözme mekanizması için benimsenmiştir.

311137022 418025180496867 2952707825292098738 N.png? Nc Cat=107&ccb=1 7& Nc Sid=ad8a9d& Nc Ohc=8oW5jP9uPv4AX9BkVOq& Nc Ht=scontent.fist4 1

Değerlendirme doğruluğu

Konuşma çeviri sistemleri genellikle, önce otomatik konuşma tanıma (ASR) kullanılarak çevrilen konuşmanın metne dönüştürülmesini ve ardından kopyalanan metni bir metinle karşılaştırarak BLEU puanlarını (standart bir makine çevirisi metriği) hesaplamayı içeren ASR-BLEU adlı bir metrik kullanılarak değerlendirilir. insan tarafından çevrilmiş metin. Ancak, Hokkien gibi sözlü bir dil için konuşma çevirilerini değerlendirmenin zorluklarından biri, standart bir yazı sisteminin olmamasıdır. Otomatik değerlendirmeyi etkinleştirmek için Hokkien konuşmasınıTâi-lôadı verilen standart bir fonetik notasyona dönüştüren bir sistem geliştirdik . Bu teknik, hece düzeyinde bir BLEU puanı hesaplamamızı ve farklı yaklaşımların çeviri kalitesini kolayca karşılaştırmamızı sağladı.

Hokkien-İngilizce konuşma çevirilerini değerlendirmek için bir yöntem geliştirmenin yanı sıra, Taiwanese Across Taiwanadlı bir Hokkien konuşma külliyatına dayalı ilk Hokkien-İngilizce çift yönlü konuşma-konuşma çevirisi karşılaştırma veri kümesini oluşturduk . Bu kıyaslama veri seti, diğer araştırmacıları Hokkien konuşma çevirisi üzerinde çalışmaya ve birlikte bu alanda daha fazla ilerleme kaydetmeye teşvik etmek için açık kaynaklı olacaktır.

Çevirinin geleceğine bakmak

Mevcut aşamasında yaklaşımımız, Hokkien konuşan birinin İngilizce konuşan biriyle sohbet etmesine olanak tanır. Model hala devam eden bir çalışma olmasına ve bir seferde yalnızca bir tam cümleyi çevirebilmesine rağmen, diller arasında eşzamanlı çevirinin mümkün olduğu bir geleceğe doğru bir adımdır.

311320181 652710286290859 5835814841038451013 N.png? Nc Cat=111&ccb=1 7& Nc Sid=ad8a9d& Nc Ohc=D7ZE IIbwaEAX9LcPrM& Nc Ht=scontent.fist4 1

Hokkien ile öncülük ettiğimiz teknikler, diğer birçok yazılı ve yazısız dile genişletilebilir. Bu amaçla, araştırmacıların kendi konuşmadan konuşmaya çeviri (S2ST) sistemlerini oluşturmalarına olanak sağlayacak, Meta’nınLASER adlı yenilikçi veri madenciliği tekniğiyleçıkarılan büyük bir konuşmadan konuşmaya çeviriler topluluğu olan SpeechMatrix’i yayınlıyoruz. bizim işimizde.

311245850 641862650651101 6335386055924444792 N.png? Nc Cat=110&ccb=1 7& Nc Sid=ad8a9d& Nc Ohc=1nzDCfoxhJ4AX83f Y8& Nc Ht=scontent.fist4 1

Meta’nın denetimsiz konuşma tanıma ( wav2vec-U) vedenetimsiz makine çevirisi(mBART) konusundaki son gelişmeleri, daha fazla konuşulan dillerin çevrilmesi konusunda gelecekteki çalışmaları bilgilendirecektir. Denetimsiz öğrenmedeki ilerlememiz, herhangi bir insan açıklaması olmadan yüksek kaliteli konuşmadan konuşmaya çeviri modelleri oluşturmanın fizibilitesini göstermektedir. Sistem, çoğu hiç etiketli veriye sahip olmadığı için, düşük kaynaklı dillerin kapsamını genişletme gereksinimlerini önemli ölçüde azaltır.

Yapay zeka araştırması, bağlantıyı ve karşılıklı anlayışı teşvik etmek amacıyla hem gerçek dünyadaki hem de meta veri tabanındaki dil engellerini yıkmaya yardımcı oluyor. Araştırmamızı genişletmek ve bu teknolojiyi gelecekte daha fazla kişiye ulaştırmaktan heyecan duyuyoruz.


Yemliha Toker
Profesyonel SEO Uzmanı ve E-ticaret uzmanıyım. https://yemlihatoker.com web adresim aracılığı ile SEO hakkında yanlış bilinen gerçekleri bildirmek ve SEO'yu öğrenmek isteyen herkese yardımcı olmaya çalışıyorum.