۱۳۸۹ بهمن ۶, چهارشنبه

ترجمه ی ماشینی

ترجمه ی ماشینی

در این مقاله، خلاصه ی پژوهش های انجام شده در زمینه ی پردازش زبان فارسی اعم از واكافت ساختواژی، دستوری و معنایی،‌ شیوه ی ی بازنمایی معنای جمله ها و به كارگیری دانش بازنمایی شده، درك متن فارسی و ساختار دستور زبان فارسی و نیز نظریه ی گشتاری چامسكی در ساختار زبان فارسی و پژوهش هایی از این دست گردآوری شده اند. این مجموعه می تواند در ارایه ی راه به پژوهشگرانی كه هدفشان پژوهش در حوزه ی پردازش ماشینی زبان فارسی است، كمك موثری باشد. در ضمن، به موانع موجود به ویژه در زمینه ی ابهام معنایی اشاره شده و در پایان راه حل مناسبی برای ترجمه ی ماشینی زبان فارسی مورد بررسی قرار گرفته است.

درآمد
ترجمه ی خود كار متن ها، جزو نخستین كاربردهای غیر محاسبه ای كامپیوتر است. ایده ی ترجمه ماشینی نخستین بار در بحثی میان وارن ویور و آندره بوث شكل گرفت (بوث، ۱۹۵۳م). مدل آنان بر پایه ی جدول هایی طراحی شده بود كه در آن ها برای رمز گشایی، از تواتر واژه ها و حرف ها استفاده می شد.
با پیدایش تكنیك هایی چون جست و جوی دودویی و روش تقلیل مسأله در الگوریتم های برنامه سازی و ایده ی ویرایش ثانویه در ترجمه، اعتقاد به عملی بودن ترجمه ی ماشینی نیرو گرفت. در پایان دهه ی ۵۰ و اوایل ٦۰، COMIT به عنوان نخستین زبان همه منظوره ی پردازش نماد مطرح شد و برنامه های كمكی واژه پرداز به مرحله ی پیاده سازی رسید. از سوی دیگر در زمینه ی زبان شناسی، نسبت به ساخت جمله های زبان، دید الگوریتمیكی تحت عنوان دستور زبان گشتاری مطرح شد. (چامسكی، ۱۹۷۵)
نتیجه ی پروژه های دهه ی ٦۰ كه بیش تر از آن ها برای هدف های سیاسی استفاده می شد، پیدایش دو شاخه ی اصلی در روش های ترجمه ی ماشینی بود. یكی از این روش ها استفاده از فرم های اصلاح شده ی دستور زبان گشتاری و دیگری استفاده از اطلاعات آماری در مورد نقش واژه ها در جمله و ترجمه ی آن ها بود. در پایان دهه ی ۷۰، اعتقاد عمومی بر آن بود كه ترجمه ی ماشینی باید پیچیده تر از جابه جایی و جای گذاری صرف واژه های زبان مبدا برای رسیدن به زبان مقصد باشد و ماشین باید به نوعی از معنای هر دو نوشتار فهم پیدا كند. این اعتقاد راه را برای استفاده از تكنیك های جدید هوش مصنوعی و به ویژه پردازش زبان طبیعی در ترجمه ی ماشینی هموار كرد.
در این مقاله با مرور بر ادبیات پژوهش، نخست به پژوهش هایی كه در زمینه ی درك متن فارسی و چه گونگی واكافت واژه ای، ساختواژی، دستوری و معنایی صورت گرفته است، اشاره شده و سپس اجزا و اركان یك سامانه ی مترجم فارسی معرفی و مهم ترین ركن آن یعنی رفع ابهام معنایی از واژه های جمله های فارسی، مطرح شده است. در ضمن، روش های گوناگون حل این مشكل به اختصار بررسی و در پایان به موانع کار پرداخته شده است. از آن جا كه در زمینه ی ترجمه ی ماشینی زبان فارسی كم تر مطالعه شده است، این پژوهش تلاش در تعمیم این مطالعات به زبان فارسی دارد.

پردازش زبان فارسی
در سال ۱۳۷۲، در آزمایشگاه پردازش زبان طبیعی داشنگاه صنعتی شریف، مهرنوش شمس فرد (۱۳۷۳) سامانه ای به نام "دنا" را طراحی و پیاده نمود. در این سامانه با به كارگیری نظریه ی وابستگی مفهومی شنك (۱۹۷۵)، جمله های فارسی به شبكه ای از مفهوم ها و روابط میان آن ها تبدیل می شوند. گام های گوناگون پردازش جمله ها عبارت اند از: واكافت واژه ای، واكافت ساختواژی، واكافت دستوری، واكافت معنایی و استنتاج.
پس از آن، سه پروژه ی دیگر با تمركز بر بخش های گوناگون سامانه ی دنا (۱) تعریف و اجرا شدند. هر یك از این پروژه ها تلاش در گسترش یكی از بخش های این سامانه داشت. یكی از آن ها پروژه ای است كه روی پردازش دستوری جمله های نسبتن پیچیده ی زبان فارسی از جمله گروه های اسمی و جمله های مركب متمركز بود ( مهدیه، ۱۳۷٦). پروژه ی دیگر به طراحی و پیاده سازی بخش واژگان و نیز اركان ساختواژی پرداخته است (رضا نیا، ۱۳۷٦) و سرانجام سومین پروژه، بخش استنتاج گر را با عمق بیش تری مورد توجه قرار داده است ( امامی، ۱۳۷٦)
برای درك جمله های زبان فارسی، پس از برداشتن گام های گوناگون در زمینه ی پردازش ساختواژی و دستوری و پیش از به كارگیری شیوه های استنتاج باید برای بازنمایی معنای جمله ها چارچوب مناسبی در نظر گرفته شود تا ضمن پردازش معنایی، جمله ها به این زبان بازنمایی تبدیل شوند. با توجه به اهمیت پردازش معنایی در یك سامانه درك متن و ضرورت كار بیش تر در این زمینه، پروژه ای برای بررسی شیوه های بازنمایی معنا و گزینش یك شیوه مناسب برای سامانه دنا (۲) تعریف شد و در طی اجرای پروژه با بررسی برخی شیوه های بازنمایی معنا، به دلیل تمركز شمار زیادی از سامانه های زبان طبیعی بر آن، روش "گراف های مفهومی" به عنوان شیوه ی مناسب تر برای بازتمایی معنا برگزیده شد ( فضلی، ۱۳۷۷)
در پژوهش دیگری (شهابی، ۱۳۷٦)، نخست،‌ جمله های فارسی معینی در محدوده ی معنایی خاص (درخواست اشتغال به كار افراد برای یك سازمان ) توسط سیستم طراحی شده گرفته شد که در گام نخست آن، پردازش روی شناخت واژه های آن، یعنی واكافت واژه ای صورت گرفت كه هر نشانه از جمله با حرف های آن خوانده می شد و تشخیص داده می شد كه چه كلمه ای است و آیا جزو واژه های با معنی زبان است یا خیر؟
در گام دوم واكافت ساختواژی آغاز می شد. یعنی آیا كلمه های مركب از تركیب درستی تشكیل شده اند یا خیر؟ پس از آن، گام سوم یعنی واكافت دستوری صورت می گرفت. یعنی آیا كلمه های تشكیل دهنده ی جمله، دستور زبان فارسی را رعایت كرده اند؟ و آیا این جمله  متعلق به زبان فارسی است یا خیر؟ این كار را سیستم به كمك دستور زبانی كه برای جمله های فارسی در آن تعبیه شده است انجام می دهد. این دستور زبان همه ی آن جمله هایی را شامل می شود که پایانه های آن به كلمه ای فارسی پایان می پذیرد (باطنی، ۱۳۷۴)، پس از این كه جمله ی اصلی تشخیص داده شد، برای به دست آوردن جمله های سوالی یا مجهول و غیره نیاز به نوعی گشتار هست كه ژرف ساخت را به رو ساخت تبدیل کند. ( مشكوة الدینی، ۱۳۷۴) در این جا سیستم با وجود گشتارهای موجود روی زبان با تبدیل ژرف ساخت به رو ساخت به جمله ی مزبور می رسد و واكافت دستوری پایان می یابد. گام بعدی، واكافت معنایی یا استنباط معنا از جمله است. در این مرحله از یك شبكه ی معنایی به عنوان بازنمایی دانش موجود در معنای جمله استفاده شده است.
در یك پژوهش دیگر (شریفی، ۱۳۷٦) که درك معنای جمله ها در ترجمه ی ماشینی به شكل دیگری صورت گرفته است، از هیچ یك از روش های بالا برای رسیدن به معنای جمله استفاده نشده است. در این روش کوشش شده است روشی برای ماشینی كردن عمل ترجمه از یك زبان محاوره ای به زبان محاوره ای دیگر ارایه شود. برای رسیدن به این مقصود با توجه به پیدایش شاخه های جدید هوش مصنوعی در زمینه ی شبیه سازی رفتار انسان و یادگیری ماشین، چه گونگی پیاده سازی مترجم در قالب یك سیستم یادگیرنده ارایه شده است. این مترجم با استفاده از تجربه های قبلی خود در زمینه ی ترجمه ی تك تك واژه ها و ترتیب قرار گرفتن آن ها در جمله،‌ ترجمه جمله ها با ساختارها و واژه های جدید را حدس می زند و به صورت پویا به تكمیل دانش خود در این زمینه می پردازد. از آن جا كه در این روش ترجمه، برای طراحی الگوریتم های ارایه شده برای ایجاد پایگاه دانش و استنتاج دانش از آن از هیچ گونه اطلاعات پیش فرضی در زمینه ی چه گونگی ساختار جمله های زبان های مبدا و مقصد و نقش واژه ها در جمله استفاده نشده است، این مترجم مستقل از زبان های مبدا و مقصد، توانایی انجام ترجمه از هر زبان به زبان دیگر را دارد.

ترجمه ماشینی
برای این كه بتوان جمله ای را از یك زبان ترجمه و به زبان دیگری تبدیل کرد ، نخست به یك روش برای تشخیص واژه ها یا واكافت واژه ای و واكافت ساختواژی نیاز هست، به طوری كه واژه های ساده و مركب آن زبان از واژه های ورودی تشخیص داده شود. سپس باید تركیب واژه ها از نظر دستوری صحیح باشد تا جمله ی متعلق به آن زبان را ایجاد کند. حال برای این كه این جمله به زبان دیگری برگردانده شود، باید نقش و معنای هر كلمه مشخص و با توجه به دستور زبان مقصد و ترجمه ی كلمه با توجه به نقش آن، جمله ی زبان مقصد تولید شود. از این رو مهم ترین بخش، مشخص كردن نقش و معنای واژه ها است و نقش واژه ها با توجه به محل قرار گرفتن آن ها در جمله مشخص می گردد، اما مساله ی مهم معنی واژه ها است؛ جرا كه شماری از واژه ها دارای چند معنی است و این ابهام باید به روش مناسبی رفع گردد ( مانینگ و شوتس، ۲۰۰۰ ). در ترجمه ی ماشینی ابهام هم در معنای واژه های زبان مبدا وجود دارد و هم در زبان مقصد و این باعث می شود تا روند ترجمه دچار مشكل شود. در دنباله ی سخن، ما بیش تر به روش های حل این مشكل و موانعی كه در زبان فارسی برای آن وجود دارد، می پردازیم.

رفع ابهام معنایی واژه ها
یكی از نخستین مشكلاتی كه هر سیستم پردازش زبان طبیعی با آن درگیر است، مساله ی ابهام معنایی و ساختاری واژه ها است. بخش عمده ای از این ابهام به كمك شیوه ای به نام "نشانه گذار بخش كننده ی جمله ها" كه برای تعیین نقش واژه ها در جمله به كار می رود، از میان می رود. ( دلماس و زاورل، دمتریو و اتول، ۲۰۰۰م؛ ویلكس، ۱۹۹۷م ). این روش با تعیین نقش كلمه، ابهام ساختاری آن را از میان برداشته و در یافتن معنای درست واژه ها كمك شایانی می کند. ابهام معنایی واژه ها البته خیلی پیچیده تر از ابهام ساختاری آن ها است و برای رفع آن به روش های پیچیده تری نیاز است، ولی روش "نشانه گذار بخش كننده ی جمله ها" در پیدا كردن معنای دقیق كمك می كند و مراحل نخستین آن را انجام می دهد. در واقع، رفع ابهام از معنای یك كلمه بر می گردد به این كه آن كلمه در چه جمله ای به كار رفته و با چه واژه های همنشین شده است؛ زیرا كلمه ای که در یك جمله یك معنی می دهد، در جمله ی دیگری معنای دیگری می تواند به خود بگیرد.
رفع ابهام از معنای واژه های جمله های یك زبان، از سه راه كلی می تواند انجام پذیرد كه هر راه خود روش های متعددی دارد: اول روش ابهام با مربی یا سرپرست است كه مبنای آن مجموعه آموزشی برچسب دار است. روش دوم رفع ابهام بر مبنای منابع لغوی مانند فرهنگ لغت و یا فرهنگ تساروس است ( ویلكس و استیونس، ۱۹۹۷ و ۱۹۹۸). و سرانجام روش سو م رفع ابهام بدون مربی یا سرپرست است كه در این حالت تنها مجموعه ی لغات و متن ها بدون برچسب در دسترس است (كیت و ویلكس، ۲۰۰۰م)

الف ) روش "رفع ابهام با سرپرست"
در این روش مجموعه ای از لغات ابهام زدایی شده برای آموزش در دسترس است. این مجموعه، دارای نمونه ی واژه هایی است كه هر كدام یك كلمه مبهم (W ) است و هر معنی آن ها با یك برچسب معنایی متناسب با متنی كه در آن قرار می گیرند تعریف شده است. (SK)
این كار باعث می شود كه بتوان یك طبقه بندی آماری با سرپرست روی واژه ها انجام داد. وظیفه اصلی این روش، ایجاد یك روتین طبقه بندی كننده است كه واژه ها جدید را بر پایه ی متن هایی كه قبلن تعریف شده اند ( CI ) در طبقه ی مناسب خود قرار می دهد. در "رفع ابهام با سرپرست" روش های گوناگونی وجود دارد كه از جمله ی آن ها می توان "طبقه بندی بیس" ( دیو و دلمانس، ۲۰۰۰ ) و "نظریه ی اطلاعات" ( مانینگ و شوتس، ۲۰۰۰م) را نام برد.

ب )‌روش رفع ابهام بر مبنای فرهنگ لغت
اگر اطلاعاتی در مورد طبقه بندی معنایی یك كلمه وجود نداشته باشد، در این صورت می توان از مشخصات عمومی معنای یك كلمه در فرهنگ لغت استفاده کرد. در این روش، تا كنون از سه نوع اطلاعات استفاده شده است. نوع اول روش"لسك" است كه در آن مستقیمن از تعریف معنای واژه ها در فرهنگ لغت استفاده می شود. نوع دوم كه نشان می دهد چه گونه از اطلاعات طبقه بندی شده ی موجود در فرهنگ لغت می توان طبقه بندی معنایی یك كلمه را با توجه به متنی كه آن كلمه در آن وجود دارد، به دست آورد. (یارافسكی، ۱۹۹۲م ) و سوم اطلاعاتی است كه از ترجمه ی یك كلمه به كمك یك فرهنگ لغت دو زبانه به دست می آید و استفاده از معنای كلمه در زبان مقصد برای رفع ابهام از معنای كلمه.

ج ) رفع ابهام بدون سرپرست
در این روش بدون اینكه اطلاعاتی در زمینه ی معنای واژه ها به كار رفته در متن موجود باشد، نخست واژه ها از نظر معنایی خوشه بندی و سپس بررسی می شود كه هر كلمه ی جدید به كدام خوشه نزدیك تر است و به آن تعلق دارد؟ و با توجه به این كه به هر خوشه معنای خاصی اختصاص داده شده است، آن معنی برای آن لغت در نظر گرفته می شود و در ترجمه مورد استفاده قرار می گیرد. در دو روش قبلی، برای رفع ابهام به یك سری اطلاعات اولیه از معنای لغات نیاز بود، اما گاه وضعیتی اگر چه نادر، پیش می آید كه هیچ گونه اطلاعاتی از معنای واژه ها در دسترس نیست؛ مثلن در مورد اصطلاحات فنی و یا پزشكی كه در فرهنگ های لغت عمومی پیدا نمی شود. در این حالت های ویژه است كه روش رفع ابهام بدون سرپرست مناسب است و در به دست آوردن معنای صحیح كلمه با توجه به متن كمك زیادی می کند (‌كیت و ویلكس، ۲۰۰۰ ؛ مانینگ و شوتس، ۲۰۰۰)

موانع ترجمه ی ماشینی زبان فارسی
همان گونه كه در بالا توضیح داده شد،‌ مهم ترین بخش یك سامانه ی مترجم ماشینی، تشخیص نقش واژه ها در جمله و تشخیص معنای درست آن ها با توجه به متنی است كه آن كلمه در آن قرار گرفته است. دیدیم که برای تشخیص معنای درست واژه ها از سه روش می توان استفاده کرد: در روش نخست برای آموزش سامانه به یك مجموعه ی واژه های فارسی ابهام زدایی شده نیاز است تا از روی آن بتوان عمل رفع ابهام برای واژه ها جدید را در متن های گوناگون انجام داد كه متأسفانه هنوز این مجموعه به صورت یك فرهنگ فارسی قابل خواندن برای ماشین تهیه و تدوین نشده است. یعنی این اطلاعات به صورت دستی وجود دارند، اما نسخه رایانه ای از آن ها با یك استاندارد معین برای تعریف هر كلمه و معنی و نقش های گوناگون آن وجود ندارد. بدیهی است برای این كار نخست باید یك مركز زبان شناسی معتبر، استاندارد ذخیره سازی اطلاعات و انواع آن را تدوین کند و سپس نسخه ای رایانه ای از این اطلاعات برای استفاده های بعدی تهیه شود.
در روش دوم نیز سامانه، مستقیمن از یك واژه نامه استفاده می كند، باز هم در مورد زبان فارسی این مشكل وجود دارد كه هنوز واژه نامه های فارسی رایانه ای با یك استاندارد مشخص تهیه نشده اند. این در حالی است كه در زبان انگلیسی فرهنگ های متعددی مانند net LDOCE, Word یا Roget’s International Thesaurus به صورت MRD یا نسخه های قابل خواندن توسط رایانه وجود دارند كه سامانه های گوناگون مترجم ماشینی با یكی از روش های رفع ابهام از آن ها بهره می جویند.
از روش سوم رفع ابهام نیز همان گونه كه دیده شد صرفن برای واژه های خاص و محدود فنی یا پزشكی استفاده می شود، نه برای همه ی واژه های فارسی و چون متأسفانه هنوز استفاده از اصطلاحات فنی فارسی متداول و رایج نشده است، این روش رفع ابهام در زبان فارسی زیاد موفق نخواهد بود. از این رو برای این كه بتوان از یك مترجم فارسی قوی و بدون مشكل بهره مند شد، نخست باید مقدمات بر شمرده را فراهم آورد و این خود تلاش گروهی متشكل از زبان شناسان، مترجمان، ادیبان و متخصان رایانه را می طلبد كه سرآغازی خواهد شد برای رسیدن به این هدف ملی.

نتیجه گیری و جمع بندی
فرا روند ترجمه ی ماشینی عبارت است از: واكافت واژه ای، واكافت ساختواژی، واكافت دستوری، واكافت معنایی، تشخیص نقش واژه ها در جمله، تشخیص معنای درست واژه ها ( با توجه به جمله حاوی و رفع ابهام از واژه ها دارای معنی مشابه و یافتن معنی معادل كلمه در زبان مقصد و تبدیل جمله ی زبان مبدا به جمله ی زبان مقصد با توجه به دستور زبان مقصد و در صورت نیاز به کارگیری گشتارهای مناسب برای تبدیل جمله های مقصد به شكل روساختی آن. در این راستا مهم ترین بخش یك مترجم كه دقت در آن سبب بالا رفتن دقت ترجمه می شود،‌ رفع ابهام معنایی از واژه های جمله های زبان مبدا و نیز رفع ابهام از ترجمه ی آن ها به زبان مقصد است. برای رفع ابهام معنایی واژه ها سه روش كلی وجود دارد كه عبارت اند از: (الف) رفع ابهام با سرپرست. (‌ب) رفع ابهام بر مبنای فرهنگ لغت، و (ج) رفع ابهام بدون سرپرست.
در روش نخست، مجموعه ای ازواژه های  ابهام زدایی شده وجود دارد كه سامانه با آن واژه ها آموزش داده می شود و اگر در حین ترجمه با لغت جدیدی برخورد كرد، ‌با توجه به اطلاعات آموزش دیده تشخیص می دهد كه كلمه ی مزبور با توجه به متنی كه در آن قرار گرفته در چه طبقه ای قرار می گیرد و معنای درست آن كدام است و آن را در ترجمه به كار می برد. در روش دوم برای هر كلمه از واژه نامه استفاده می شود و با توجه به نقش كلمه و دیگر مشخصات آن با كمك واژه نامه معنی درست آن متناسب با جمله ای كه در آن قرار گرفته است،‌ به دست می آید. روش سوم كه روش رفع ابهام بدون سرپرست است، مخصوص واژه هایی است كه در واژه نامه های معمولی وجود ندارند (‌اصطلاحات فنی یا پزشكی و ... ) و باید از واژه نامه های تخصصی و یا دایرة المعارف ها بهره جست.
اما مشكل اصلی بر سر راه رفع ابهام از واژه های فارسی این است كه اگر از دو روش نخست استفاده شود، به یك نسخه رایانه ای از مجموعه لغات همراه بانقش های گوناگونی كه می توانند به خود بگیرند و معانی گوناگونی كه باتوجه به نقش های گوناگون و یا همنشینی با واژه های گوناگون به خود می گیرند، نیاز هست كه متأسفانه این نسخه رایانه ای و همچنین استاندارد ذخیره سازی این دسته از اطلاعات وجود ندارد و باید با كار گروهی متشكل از زبان شناسان، ادیبان و متخصصان رایانه ایجاد و برای سیستم های مترجم زبان فارسی، صورت بگیرد. استفاده از روش سوم رفع ابهام نیز ویژه ی لغات فنی است كه در زبان فارسی هنوز كاملن جا نیافتاده است . بنابراین با توجه به این كه دقت در رفع ابهام از معنای واژه ها دقت مترجم را بالا می برد،‌ هنوز نمی توان سامانه های مترجم فارسی مناسبی را تهیه و از آن ها بهره برداری کرد.

میر شهاب شهابی
دكتر عبدالحسین صراف زاده
منبع: مجله ی زبان شناسی



منابع:
امامی. "بررسی مسایل درك متن فارسی و پیاده سازی نمونه هایی از آن". پایان نامه كارشناسی ارشد، دانشكده مهندسی كامپیوتر، دانشگاه صنتعتی شریف، ۱۳۷٦.

Booth, A. D (1953), Machine Translation, Computer and Automation, Vol2, no4,

Chomsky, N., (1975), Reflection on Language, New York: Pantheon Books.

Daelemans, W., Zavrel , J. Berck P., Gillis. ( 1996 ), MBT: A Memory – Based Part – of – speech Tagger Generator, Proceeding at 4th Workshop on Very Large Corpora, Copenhagen.

Demetriou,G, Atwell, E.s., (2000), A domain Independent Semantic Tagger for the study of meaning Associations in English text. IWCS – 4 Program.

De Pauw, g ., Daelemans, W. ( 2002 ), The Role of Algorithm Bias Vs information Source in Learning Algrithms for

morphosyntactic Disambigution, Proceeding of cnoll-2000 and LLL-2000, Pages 19-24, Lisbon, Porugel.

Kit, C., Wilks, ( 1999 ), Unsupervised Learning of World Boundary Length Gain. Computational Natural Learning.

Manning, C.D. Schutze, H. (1999), MIT Press, Cambridge, MA.

Scjamlk, R.C. ( 1975 ), Conceptual Information Processing North Holland, Publishing Company, Amsterdam.

Wilks, Y., Stevenson, M. ( 1998 ), Word Sense Disambiguation Using Optimized Combining Weak Knowledge Sources for Sense Disambiguation. Proceeding of the third conference of Recent Advances in Natural Language Processing Conference, PP. 1-7.

Wilks, Y . in N. Ide ( Ed ) ( 1997 ), Senses and Texts, computers & G . humanities, vol. 31, PP. 77-90.

Yarawsky, D . ( 1992 ), Word Sense Disambiguation Using Statistical Models of Roget’s Categories Trained on Large Corpora, COLING 14, 454-460.l

 

هیچ نظری موجود نیست:

ارسال یک نظر

توجه:فقط اعضای این وبلاگ می‌توانند نظر خود را ارسال کنند.