جایگاه زبان فارسی در فضای مجازی
به گزارش مجله جغتای، دکتر محمد هادی بکایی عضو هیأت علمی پژوهشگاه ارتباطات و فناوری اطلاعات و مدیر گروه سامانه های پردازش وب و رایا زبان در تبادل نظر با خبرنگاران در مورد پروژه جویشگر بومی و شرایط آن در پژوهشگاه ارتباطات و فناوری اطلاعات گفت: در حال حاضر پژوهشگاه ارتباطات و فناوری اطلاعات در مورد طرح جویشگر بومی نقش ایجاد زیرساخت های لازم را دارد. در پژوهشگاه برای زیرساخت های مورد احتیاج جویشگر بومی و زیرساخت هر نوع کار پردازشی و تحلیلی مرتبط با جویشگر، پروژه هایی در قالب طرح شبکه ملی اطلاعات تعریف شده و در حال انجام است.
وی به مهمترین زیرساخت های مورد احتیاج یک جویشگر بومی اشاره نمود و اضافه کرد: زیرساخت های مربوط به ذخیره سازی و بازیابی اطلاعات و داده ها، زیرساخت های پردازشی جهت انجام حجم بالایی از پردازش و زیرساخت های نرم افزاری و الگوریتمی از جمله مهمترین احتیاجها برای اجرای یک طرح کلان ملی از جمله جویشگر بومی است.
بکایی در ادامه در مورد اقدامات اجرا شده در پژوهشگاه در راستای ایجاد این زیرساخت ها این گونه شرح داد: به عنوان مثال در مورد زیرساخت های داده پروژه هایی در مورد قطب های مراکز داده کشوری داریم. برای ایجاد زیرساخت های پردازشی با همکاری دانشگاه امیرکبیر ابررایانه سیمرغ به بهره برداری رسید و در حال برنامه ریزی برای اجرای ابررایانه های قوی تر هستیم و در لایه نرم افزاری و الگوریتم ها نیز اقداماتی به خصوص در حوزه خط و زبان فارسی در وب اجرا شده است.
وی در ادامه در مورد اقدامات اجرا شده در حوزه خط و زبان فارسی در وب توضیح داد: مهمترین اقدامی که در حوزه خط و زبان فارسی فضای وب در حال اجرا است، آزمایشگاه ارزیابی و رتبه بندی خدمات و محصولات حوزه خط و زبان فارسی است که می توان در قالب آن انتظار داشت مدل ها و الگوریتم های مورد احتیاج با استفاده از خرد جمعی جامعه نخبگانی و دانشگاهی به بلوغ خود برسند.
وی توضیح داد: یکی از مشکلاتی که در کشور داریم این است که این خدمات و محصولات با استفاده از استانداردهای مرسوم ارزیابی نشده و با هم مقایسه نشده اند. به طور مثال نقاط قوت و ضعف محصول یک شرکت با محصول مشابه شرکت دیگر مقایسه نشده است و این عدم مقایسه باعث می گردد افراد و شرکت هایی که به این خدمات احتیاج دارند نمی توانند به راحتی خدمت دهنده خود را انتخاب نمایند. این مساله در زبان های دیگر به خصوص زبان انگلیسی تا حد خوبی حل شده است و افراد و شرکت های مختلف مدل ها و الگوریتم هایی را که در حوزه های مختلف خیلی خوب عمل می نمایند و نتایج خوبی دارند را می شناسند و می توانند از آنها استفاده نمایند.
زبان فارسی دهمین زبان فضای وب است
بکایی در مورد رتبه جهانی و شرایط خط و زبان فارسی در وب اضافه کرد: زبان فارسی در وب شرایطش خیلی بد نیست و دهمین زبان دنیاست هرچند اختلافش با زبان های اول و برتر خیلی زیاد است. طبق آمارهای تخمین زده شده سهم زبان فارسی در وب، 1.7 درصد است که دهمین زبان دنیاست و از زبان هایی مانند عربی و چینی رتبه بهتری دارد. اما با توجه به تعداد افرادی که به این زبان صحبت می نمایند می تواند جایگاه بهتری را به خودش اختصاص دهد که البته این بهتر شدن منوط به ایجاد زیرساخت هایی از جنس دادگان و الگوریتم و ایجاد این زیرساخت ها یکی از اهداف آزمایشگاه است.
وی با بیان اینکه این رتبه نشان دهنده این است که چه تعداد وب سایت در هر زبانی وجود دارد اضافه کرد: سهم وب سایت هایی که به زبان فارسی هستند از کل وب سایت هایی که وجود دارد، 1.7 درصد است که می توان گفت حوزه خط و زبان فارسی در وب در رتبه 10 است و طبق این آمار از کشورهایی مثل ترکیه و ژاپن پایین تر هستیم اما از کشور چین و یا کشورهای عربی وضع استفاده خط و زبان فارسی در فضای وب بهتر است.
بکایی در مورد زبان انگلیسی گفت: ما سالانه مسابقات و چالش هایی داریم که در حوزه های اولویت دار در پردازش زبان انگلیسی چالش هایی را مطرح و جوایزی تعریف می نمایند. شرکت نمایندگان در چالش با هدف کسب جوایز و احتمالاً انتشار مقالات و تعریف نمایندگان چالش با هدف حل یک مساله واقعی موجود، در این روال مشارکت دارند. متأسفانه در ایران هرچند در این خصوص کارهایی در سال های گذشته اجرا شده، اما انسجام لازم را نداشته است.
وی به علت ایجاد آزمایشگاه ارزیابی و رتبه بندی خدمات و محصولات خط و زبان فارسی اشاره نمود و ادامه داد: در ایران بستر و زیرساختی نداشتیم که بتواند برای حوزه های اولویت دار بنچ مارک و دادگان ارزیابی و تست تعریف کند تا بتواند الگوریتم ها و مدل های مختلفی که یک هدف دارند و در یک حوزه در حال فعالیت هستند را به صورت عادلانه با هم مقایسه کند. بنابراین اولین هدف در این آزمایشگاه این است که با تعریف روال های ارزیابی استاندارد برای مسائل اولویت دار زمینه را برای این ارزیابی ها آماده کند.
چالش پردازش خط و زبان فارسی در فضای مجازی برگزار می گردد
بکایی بعلاوه گفت: پروژه آزمایشگاه ارزیابی و رتبه بندی خدمات و محصولات خط و زبان فارسی در فضای وب تحت عنوان پروژه پارسی آزما (محفلی برای حل مسائل و چالش های حوزه پردازش خط و زبان فارسی در فضای مجازی) در حال اجرا است و دوره اول مسابقات مربوط به پارسی آزما سال جاری برگزار می گردد.
وی اضافه کرد: در دوره اول در پی ایجاد زیرساخت های لازم برای ادامه دار بودن پارسی آزما و آزمایشگاه هستیم. بعلاوه اولویت و تمرکز ما در تعریف چالش های اولین دوره، الگوریتم های مرتبط با پردازش متن های موجود در شبکه های اجتماعی به خصوص متن ها و پست های توئیتر است.
عضو هیأت علمی پژوهشگاه ارتباطات و فناوری اطلاعات ادامه داد: در اولین دوره مسابقه پارسی آزما چهار چالش تعریف کردیم که هر کدام از یک جنبه پست های توئیتر را تحلیل می نماید. مثلاً در یک چالش قرار هست وجود ادعا و نوع آن در یک توییت تشخیص داده گردد یا در یک چالش دیگر نوع احساس موجود در متن معین گردد که در کل همه اینها از یک جنبه پست های فارسی توئیتر را تحلیل می نمایند.
به گفته وی شرکت نمایندگان مدل ها و الگوریتم های زبان فارسی در فضای وب را توسعه می دهند.
بکایی در ادامه اعلام کرد: چالش هایی تعریف کردیم که افرادی که در این حوزه الگوریتم دارند و توسعه دهنده هستند می توانند در این چالش ها شرکت و با هم رقابت نمایند و در سرانجام الگوریتمی که به برترین نحو ممکن بتواند این مساله را حل نماید معرفی شده و آزاد رسانی می گردد تا در آینده کسانی که این الگوریتم ها را احتیاج دارند بتوانند از آن ها استفاده نمایند.
وی در مورد برگزاری مسابقه پارسی آزما برای اولین دوره و اینکه مهر ماه روز نهایی مسابقه است و برنده نهایی اعلام و جوایز اهدا می گردد، گفت: سال جاری اولین دوره مسابقه پارسی آزما است و تصمیم داریم سالانه و یا دو بار در سال بتوانیم این مسابقات را ادامه دهیم و در هر دوره مهمترین چالش ها و مسائلی که مورد احتیاج سازمان ها و صنایع مختلف در حوزه پردازش خط و زبان فارسی است را بیان کنیم.
بکایی در سرانجام گفت: اگر افرادی در این حوزه فعال هستند و مسأله ای دارند که احتیاجمند مدل و الگوریتمی برای حل آن هستند می توانند برای تعریف چالش در دوره های بعدی با پارسی آزما در ارتباط باشند. بعلاوه کسانی که فکر می نمایند توانایی حل مساله دارند، می توانند به عنوان شرکت نماینده در مسابقات پارسی آزما شرکت نمایند.
منبع: خبرگزاری مهر