تولید نامهای زیبا و معنادار ایرانی بهکمک الگوریتم ژنتیک با تابع برازندگی مبتنی بر شبکه عصبی مصنوعی
محورهای موضوعی : هوش مصنوعی و رباتیکامیرشهاب شاهمیری 1 * , بهاره زمانی 2 , سعید شیری 3
1 - مدرس دانشگاه
2 - دانشگاه آزاد اسلامی واحد پرند
3 -
کلید واژه: فرهنگ نامهای ایرانی, هوش مصنوعی, واژهشناسی, نامشناسی, پرسپترون چندلایه.,
چکیده مقاله :
زبانهای گفتاری جهان در طول هزاران سال تاریخ خود، روندی تکاملی را پیموده و به امروز رسیدهاند. بر همین راه واژگان زبانهای گوناگون و البته نامهای متداول در فرهنگها و زبانهای سراسر جهان نیز، به تکامل رسیدهاند و این روند تکاملی را ادامه خواهند داد. برخی از این نامها، با توجه به حس زیباییشناسی افراد یک جامعه و ویژگیهای آوایی زبانی، که بسته به زمان و مکان متغیر است، رواج بیشتری مییابند و تطور و گسترش بیشتری پیدا میکنند. در این پژوهش با شناخت واژگان و نامهای فارسی، مدلی پیشنهاد شده که بر پایه آن نامهایی نو، که همراه با داشتن معنایی درخور، از نظر زیباییشناسی نیز نظر افراد گوناگون را برآورده سازد، تولید شود. ساخت واژگان تازه بهکمک پردازش تکاملی (الگوریتم ژنتیک) انجام میشود که در آن، تابع برازندگی را (بهجز در نسل نخست) یک شبکه عصبی مصنوعی از نوع پیشخور پسانتشار با دو لایه پنهان که تا 89٪ مشابه انسان تخمین میزند، شبیهسازی میکند. بهترین نام تولید شده با این روش، رتبه 5 را در میان 252 نام جامعه اولیه بهدست آورده است. بهترین نمونههای جامعه اولیه و دادههای آموزشی و آزمایشی و نیز برآورد تابع برازندگی نسل نخست و سنجش زیبایی بهترین نامهای تولید شده بدین روش، با تحلیل آماری نمونههای اخذ شده بهکمک پرسشنامه انجام شده است.
Beautiful and Meaningful Iranian Names Production by Genetic Algorithm using Artificial Neural Network-Based Fitness Function
فصلنامه علمي- پژوهشي فناوري اطلاعات و ارتباطات ایران | سال هفتم، شمارههاي 25 و 26، پاییز و زمستان 1394 صص: 43- 66 |
|
تولید نامهای زیبا و معنادار ایرانی بهکمک الگوریتم ژنتیک
با تابع برازندگی مبتنی بر شبکة عصبی مصنوعی
*امیرشهاب شاهمیری **بهاره زمانی نظامی *** سعید شیری
*دانشجو دکتری، مدیریت آموزش عالی، دانشگاه آزاد اسلامی، واحد علوم تحقیقات، تهران
** دانشجوی کارشناسی ارشد، دانشکدة فنی و مهندسی، دانشگاه آزاد اسلامی واحد پرند، تهران
*** استادیار، دانشکدة مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی امیرکبیر، تهران
تاریخ دریافت: 25/01/93 تاریخ پذیرش:20/11/94
چکیده
زبانهای گفتاری جهان در طول هزاران سال تاریخ خود، روندی تکاملی را پیموده و به امروز رسیدهاند. بر همین راه واژگان زبانهای گوناگون و البته نامهای متداول در فرهنگها و زبانهای سراسر جهان نیز، به تکامل رسیدهاند و این روند تکاملی را ادامه خواهند داد. برخی از این نامها، با توجه به حس زیباییشناسی افراد یک جامعه و ویژگیهای آوایی زبانی، که بسته به زمان و مکان متغیر است، رواج بیشتری مییابند و تطور و گسترش بیشتری پیدا میکنند.
در این پژوهش با شناخت واژگان و نامهای فارسی، مدلی پیشنهاد شده که بر پایة آن نامهایی نو، که همراه با داشتن معنایی درخور، از نظر زیباییشناسی نیز نظر افراد گوناگون را برآورده سازد، تولید شود. ساخت واژگان تازه بهکمک پردازش تکاملی (الگوریتم ژنتیک) انجام میشود که در آن، تابع برازندگی را (بهجز در نسل نخست) یک شبکه عصبی مصنوعی از نوع پیشخور پسانتشار با دو لایه پنهان که تا 89٪ مشابه انسان تخمین میزند، شبیهسازی میکند. بهترین نام تولید شده با این روش، رتبه 5 را در میان 252 نام جامعه اولیه بهدست آورده است. بهترین نمونههای جامعة اولیه و دادههای آموزشی و آزمایشی و نیز برآورد تابع برازندگی نسل نخست و سنجش زیبایی بهترین نامهای تولید شده بدین روش، با تحلیل آماری نمونههای اخذ شده بهکمک پرسشنامه انجام شده است.
واژههای کلیدی: فرهنگ نامهای ایرانی، هوش مصنوعی، واژهشناسی، نامشناسی، پرسپترون چندلایه.
1.مقدمه
نامها مهمترین عامل برای بازشناسی اشخاص، اشیا و مفاهیم در فکر ما هستند. ما محیط پیرامون خود را بهیاری نامها میشناسیم و درک میکنیم. نامهایی عام که مفاهیم کلی چون درخت، فلز، جانور و غیره را در ذهن ما تداعی میکنند و نامهای خاص که موجب دستهبندی و شناسایی موجودات و رویدادها در یاد ما میشوند.
نویسنده عهدهدار مکاتبات:امیرشهاب شاهمیری amir@shahmiri.ir |
طبق نظرسنجی که طی فرایند انجام همین پژوهش صورت گرفته، جامعة آماری هدف، هنگام گزینش نام برای فرزندشان، نزدیک به 30٪ به خوشآوایی و 70٪ معنای نام اهمیت میدهند.
اما نامهای ایرانی نیز همچون خود فرهنگ ایرانی، در طول تاریخ دستخوش دگرگونی، پیشرفت و تکامل شدهاند تا به شیوة امروزی درآمدهاند و بر شناسنامه ایرانیان مینشینند. برای نمونه، نام/واژة وهومننگهه (vohumanangha) بهمعنای (دارندة) اندیشة نیک در زبان اوستایی به وهومن (vohuman) در پهلوی تبدیل شده و امروزه بهشکل هومن و بهمن بهکار میرود. یا ارتخشثره (artaxshathra) اوستایی، بهمعنای پادشاهی/ شهر مقدس، به ارتخشر (artaxsher) پهلوی تبدیل شده و امروزه بهشکل اردشیر خوانده میشود. با همین روند اناهیته (an-ahita) اوستایی بهمعنای پاک (ضد ناپاک) به آناهیتا، آناهید و ناهید امروزی تبدیل شده است [2و3]. همچنین طی هزاران سال، با بهرهگیری از گنجینة واژگان ایرانی و وندهای آن، انبوهی از نامهای ترکیبی زیبا و بامعنا ساخته و در اختیار مردمان ایران و جهان قرار گرفته است، نامهایی مانند بهنام، مهسا، شیرین، مهرنوش و فرزاد.
این روند دگرگونی و تولید نامهای تازه در زبانهای ایرانی هرگز از حرکت باز نایستاده و در آینده نیز متوقف نخواهد شد و از آنجاکه روند تکاملی آن از قواعد خاص مرتبط با زبانشناسی و دستور، و نیز آواشناسی واژگان ایرانی، پیروی میکند و همچنین از آنجا که معیار و مقدار زیبایی نامهای کهن و نوپدید توسط ایرانیان را بهسادگی میتوان از تعداد گزینش این نامها توسط ایشان بازشناخت، بهنظر میرسد که با بهرهگیری از برخی روشهای هوش مصنوعی، مانند پردازش تکاملی1 و الگوریتم ژنتیک2و نیز آگاهی کافی از دانش زبانشناسی و دگرگونی تاریخی واژگان، میتوان این روند تکاملی را شبیهسازی کرده، به واژگان جدیدی دست یافت.
در ادامة این بخش، پس از بیان اهداف پروژه، پیشینة پژوهشها و کارهای انجام شدة مرتبط با این پروژه بررسی میشود. سپس در بخش دوم، ویژگیهای واژگان و نامهای فارسی و شیوة واژهسازی و روش آمیزش و ترکیب واژگان با یکدیگر برای ساخت نامها در این زبان بهکوتاهی معرفی خواهد شد. بخش سوم مدل طراحیشده برای انجام این پژوهش را نمایش خواهد داد و در بخش چهارم روش کار و اجرای پروژه، مشتمل بر تشکیل پایگاه دادة نامها و چگونگی استخراج ویژگی از آن و کارکرد الگوریتم ژنتیک و شبکة عصبی مصنوعی3 بهکار رفته در این پروژه و نیز تحلیل و ارزیابی نتایج کار شرح داده خواهد شد. در فصل پنجم جمعبندی و پیشنهاد کارهای آینده ارایه میشود. دو پرسشنامه از نامهای اولیه و تولیدی نیز پیوست شده است.
1-1- هدف پژوهش
نخستین هدف این پژوهش، آزمون و سنجش کارآمدی روشها و ابزارهای هوش مصنوعی برای انجام پروژهها و حل مسایل علوم انسانی و بهویژه زبانشناسی و ادبیات بوده است. بهانجام رسیدن این پروژه ما را بیشتر متقاعد میکند که تحلیل و یافتن پاسخ مسایل پیچیدة علوم گوناگون، بهکمک روشهای نوین هوشمند امکانپذیر است. دیگر هدف این پروژه نیز تولید نامهای زیبا و معنادار در زبان فارسی و ارایه آن به جامعه برای بهکارگیری در نامگذاری افراد، شرکتها و مواردی از این دست بوده است.
1-2- پیشینة پژوهش
تاکنون پژوهشهای عملی و نظری بسیاری برای پردازش زبان فارسی بهکمک روشهای هوش مصنوعی انجام پذیرفته است. برای نمونه، شاهمیری و همکاران، در سالهای 1384 تا 1387 سرایندگان اشعار فارسی را بهکمک روشهای یادگیری ماشین با دقت درستی 94 تا 100٪ شناسایی و تعیین کردند[4و5]، با شبکههای عصبی مصنوعی توانستهاند 80 تا 100٪ از غلطهای تایپی در متن فارسی را تصحیح کنند[6] و نیز ریشة زبانی واژگان فارسی را از عربی با دقت 92٪ تشخیص دهند[7]. در سال 1388، اصفهانی و همکاران سیستمی را برای شناسایی و طبقهبندی نام افراد، مکانها، سازمانها و ... ارایه و برای آموزش آن یک بردار ویژگی استخراج کردند و به میانگین دقت 96% دست یافتند[8]. آرمین و شمسفرد در سال 1389 الگوریتمی را برای ریشة واژگان و تبدیل واژگان محاورهای به رسمی با بهکارگیری روش انگرامها پیشنهاد کردند[9]. در سال 1391، ریاحی و همکاران از الگوریتم ژنتیک و شبکة عصبی RBF برای تهیة یک سیستم خلاصهسازی متن فارسی استفاده کردند[10]. بابادی و همکاران برای یافتن ریشة واژگان فارسی، بههمراه پیشوندها و پسوندهای آن، قواعد استنتاج و شبکة عصبی RBF را بهکار بردند[11]. زاهدی و همکاران برخی از روشهای ریشهیابی واژگان فارسی را (مانند ریشهیابهای آماری، مبتنی بر ساختار و چندفازه)، برای شناخت تاثیر آنها بر سیستمهای بازیابی اطلاعات متنی بررسی کردند[12].
از سوی دیگر، تاکنون پژوهشها وکتابهای بسیاری در زمینة نامهای ایرانی بهانجام رسیده است. برای نمونه، پورپارسی، آوا و معنای واژگان نامهای ایرانی از پارسی باستان، اوستایی و پهلوی دورههای مادی، هخامنشی، اشکانی و ساسانی را بررسی کرد[13]. حمیدا نیز آوانگاری، ریشه زبانی، معنا و جنسیت نزدیک به 10 هزار نام ایرانی را ارایه کرد[1]. زاهدینیا و کاظمی، آوانگاری، ریشه زبانی، معنا و جنسیت نامهای ایرانی را در دو لیست جداگانه، با نمایش ریشههای فارسی، عربی، ترکی، کردی، لاتین، پهلوی، اوستایی، مازندرانی، یونانی، عبری، سانسکریت، سغدی، فارسی، ترکمنی، ارمنی و لری، گرد آوردند[14]. همچنین مبشر آوانگاری، ریشة زبانی، معنا و جنسیت نامها و نیز اسامی اسطورهای و اسامی ایرانی، عربی و قومیتهای گوناگون را برشمرد[15]. زنگنه نیز آوانگاری، ریشه زبانی، معنا و جنسیت نامهای ایرانی را بررسی کرد[16]. انصاری و افتخار، آوانگاری، ریشة زبانی، معنا و جنسیت نامهای ایرانی و همچنین نامهایی که میتوانند بهعنوان نام خانوادگی یا نام شرکتهای تجاری بهکار روند را تعیین کردند[17]. بهنیا نیز ریشة زبانی، معنا و جنسیت هر نام را بههمراه فراوانی هر یک در میان تعداد کل مردان یا زنان و همچنین مجموع فراوانی نامهایی که با هر یک از حروف الفبا آغاز میشوند، ارایه کرد که البته، تعداد نامها کم، محدود و بسیار قدیمی است و نامهای امروزی و جدید را در بر ندارد[18]. اکبری بیرقی هم دائرهالمعارف نامهای ایرانی را بههمراه آوانگاری، ریشة زبانی و معنای واژگان را ارایه کرده است[19]. بهجز منابعی که ذکر شد، فرهنگ معین، در بخش اعلام (جلد 5 و 6) [20] و لغتنامة دهخدا [21] نیز به نامهای ایرانی پرداختهاند، که نامهای بهکار گرفته شده در این پژوهش، با آنها نیز مقرانه شده است.
2- ویژگی نامها و واژگان ایرانی
هر چیز مادی یا مفهومی با نام آن شناخته میشود. نامها نشانگر همة مفاهیم شناخته شده برای ما، فارغ از زمان و مکان یا وابسته به آن هستند. اما نامها و واژگان هر زبان، به آن زبان وابستهاند. پس برای ایجاد نام در یک زبان باید چگونگی و ساختار نام و واژه را در آن زبان شناخت. فرهنگ بریتانیکا نامها را در 9 طبقه جای میدهد[34]:
1) نامهای شخصی
2) نامهای شبهشخصی (مانند نام حیوانات)
3) نام جایها یا مکانها
4) نامهایی که به اشیای بدون تشخص انسانی داده شده، اما همچنان برجسته و چشمگیر است (مانند سرزمین مقدس)
5) نامهای گروههای اجتماعی و قومیتها و سازمانها
6) نام آثار هنری
7) نام برندها یا کالاهای تجاری
8) نام حوادث یا دورههای تاریخی
9) نامهای ذهنی و تجریدی که تعیین عینی یا تشخص مشخصی ندارند، مانند مشاییان، بیدینان.
یک نام ممکن است همزمان در دو یا چند طبقه از طبقات یاد شده قرار گیرد.
نامهای شخصی همان شیوة تکاملی و انتقالی و تطوری را میپیمایند که دیگر اجزای زبانی و واژههای روزمره طی میکنند. آنها ممکن است بهتدریج از یک فرهنگ، جذب فرهنگی دیگر شوند؛ چنانکه انبوه نامهای ایرانی به زبانهای ترکی، عربی و اروپایی راه یافته و از این زبانها نیز نامهای بسیار پذیرفته است.
پیدایش نامهای ترکیبشده با پسوند در فرهنگ ایرانی نیز پدیدهای بهنسبت نوین است و از آنجاکه سطح دانش و فهم زبانی مردم افزایش یافته، پیشوندها یا پسوندهای خوشمعنا و زیبا همچون شکیب، مهر، آریا و جم رایج شده است. گفتنی است که وقتی سخن از نامهای ایرانی میشود، منظور نامهایی است که در گسترة فرهنگی ایران شکل گرفته و نهاده میشود که این حوزه فرهنگی بهمراتب و گستردهتر از حوزة جغرافیایی ایران است[15].
دانشی که به بررسی نامها و وجوه آن میپردازد، نامشناسی4 یا علمالاعلام خوانده میشود[34]. موضوع این دانش بسیار گسترده است زیرا حوزة مطالعاتی آن به همة عرصههایی که به نام و نیز به قلمرویی که بهطور نظری در برگیرندة همة زبانها، عرصههای جغرافیایی و فرهنگی و عصرهای تاریخی است، مربوط میشود. برای مقاصد اجرایی، برخی تقسیمبندیهای موضوعی (از نظر زبانی، جغرافیایی، تاریخی و ...) ضرورت دارد.
امروزه یکی از مهمترین عناصر در گزینش نام، توجه بهمعنای نام و مفاهیم مرتبط با آن است و این امر ناشی از افزایش آگاهیهای زبانی و کسب دانش زبان ادبی است. ورود نامهایی با معانی زیبا به قلمرو نامهای ایرانی، مانند فرزانه بهمعنای صاحب خرد و اندیشه، ترانه بهمعنای کلام آهنگین، تیراژه بهمعنای رنگینکمان و دهها نام خوشمعنای دیگر پیآمد همین آگاهی است.
گزینش نام فرزندان توسط ایرانیان به چند عامل بستگی داشته است، از جمله: پایگاه فرهنگی، اجتماعی و قومی والدین و نیز جنسیت فرزند[15].
لازم به ذکر است، فرهنگ و زبانهای ایرانی، بر خلاف بیشتر زبانها و فرهنگهای دیگر، از دورة باستان، از دیدگاه فرهنگی و اجتماعی تفاوتی میان مرد و زن قایل نمیشده و با وجود آنکه در زبانهای بسیار کهن ایرانی نیز مانند بسیاری از زبانهای امروز جهان (مانند فرانسه، عربی، اسپانیایی و...) جنسیت در واژگان نقش داشته و نامها و برخی کلمات مذکر یا مونث بودهاند[22]، این تمایز کمکم در زبانهای ایرانی از میان رفته است و امروزه هم بسیاری نامهای ایرانی را هم برای دختران و هم برای پسران برمیگزینند و تنها نرمی یا سختی کلامی یا معنایی و یا گاه تاریخچة آن نام (مانند مهرو، نرگس و آزاده برای دختران و گرشاسپ، شیراوژن و رستم برای پسران) تا حدودی جنسیت آن را تعیین میکند. از اینرو در این پروژه، جنسیت نامها در نظر گرفته نشده است.
در اینجا باید خاطرنشان کرد که در زبانها و گویشهای ایرانی (کردی، گیلکی، خراسانی و ...) کمتر نامی بدون مفهوم و معنای روشن وجود دارد و اگر در بررسیهای ادبی به نامهایی برمیخوریم که بهظاهر دارای معنا نیستند، ممکن است مفهوم آنها در گذر تاریخ گمشده و از یاد رفته باشد[15]. در این پژوهش نیز نامهایی برای درج در پایگاه دادة نامها برگزیده شدهاند که از معنای آنها اطمینان کافی وجود داشت.
تحول و تکامل زبانی نامها امری پیچیده است. در نظام زبانی هندواروپایی باستان هر فرد یک نام داشت که ممکن بود به دو صورت باشد: مرکب یا بسیط. نامهای بسیط اصولا به کسانی داده میشد که اعضای فرودست قبیله بودند. بهرهگیری از نامهای مرکب در ایران امروز امری نامتداول نیست، اما ایرانیان امروزی نامهای ساده خوشصوت با موسیقی کلامی و نیز خوشمعنا را ترجیح میدهند. با اینحال تعداد نامهای مرکب اندک نیست و ساختار دستوری نامهای مرکب بسیار متنوع است، از جمله[15]:
· ترکیب دو اسم: روانمهر، آریامهر، آذرسام، آذرکیش، آذرنوش.
· ترکیب اسم و صفت: مهرافزا، گلشنآرا، پاریاب، جهانبخش.
· ترکیب اسم و حرف: افسانه (ه: ابرازساز)، چوبک (ک تصغیر)، فریبا (آ: صفت مشبه (اسمساز)).
· ترکیب اسم و صفت مفعولی: شهداد، کوهزاد، فرادید.
· ترکیب اسم و یای نسبت: فرهی، رهی.
· ترکیب اسم و پسوند: الوند، فرازمند.
2-3- ریشه زبانی نامهای ایرانی
یک زبان از دو بخش اصلی واژگان و دستورزبان تشکیل میشود. زبان فارسی یکی از زبانهای آریایی5 یا هندواروپایی6، است آریایی واژهای است که آن را پژوهشگران آلمانی و ایرانی بهکار میبرند؛ زیرا منشا آن از اقوام آریایی ساکن در ایران بوده است و هندواروپایی را زبانشناسان انگلیسی (به پیشنهاد فرانتس بوپ7 در سال 1816) ترجیح میدهند، زیرا گستره این زبانها از هندوستان تا اروپا را در بر گرفته است. البته برخی زبانشناسان آلمانی ادعا دارند که این زبانها از هند تا ایسلند، که زبانی ژرمنی است، کاربرد دارند و از اینرو باید آنها را هندوژرمنی8 خواند و برخی نیز آریایی را برابر با شاخة هندوایرانی میدانند[23].
آریانی یا هندواروپایی به خانواده بزرگی از زبانها گفته میشود. این خانواده شامل تقریبا همة زبانهای فلات ایران، شبهقارة هند و اروپا میشود. در پانصد سال گذشته کوچ اروپاییان به قارههای آمریکا، استرالیا و آفریقا، دامنه این زبانها را به آنجا نیز گسترش داده است. البته در گذشته زبان مردم آسیای صغیر (آذربایجان، ترکیه و گرجستان)، آسیای مرکزی (ترکمنستان، ازبکستان، و ...) و چین غربی (ایالت سینکیانگ) نیز آریانی بوده اما ورود قبایل ترکزبان از حدود 1500 تا 700 سال پیش، موجب از میان رفتن زبانهای محلی آنجا (مانند آذری و تاتی) شده است[24]. شکل 1، طبقهبندی زبانهای آریانی امروز و زبانهای ایرانی را نشان میدهد.
زبانهای شناختهشدة ایرانی را با توجه به معیارهای اولیة برونزبانی ، بهطور قراردادی به سه دوره تقسیم کردهاند که عبارتند از: ایرانی باستان (تا سدههای چهارم و سوم پ.م)، ایرانی میانه (تا سدههای هشتم و نهم م.) و ایرانی نو (تا امروز) [25].
البته در زنجیرة دگرگونی و پیشرفت زبانها از آریایی تا فارسی امروز، زبان فارسی روندی همچو زنجیره شکل 2 را پیموده است.
هرچند در این زنجیره، طبقهبندی زبانهای آریایی تا ایرانی آغازین مورد توافق همه زبانشناسان نیست و برخی هر سه را در حقیقت یکی میدانند که دیگر زبانهای آریایی نیز از آن ریشه میگیرند. اما با توجه به اسناد موجود و کتیبهها و
نبشتههای باستانی، در مورد زبانهای ایرانی باستان، میانه و نو اتفاق نظر وجود دارد.
زبان اوستایی بههمراه فارسی باستان تنها زبانهای ایرانی باستان هستند که از خود نوشته بهجای گذاشتهاند. فارسی باستان در اسناد سیاسی زمان حکومت هخامنشیان بهکار رفته و در حقیقت نشاندهنده دستکم یک گویش از گویشهای ناحیه پارس و یکی از گویشهای جنوبغربی ایران است. اوستایی نیز در کتاب مقدس ایرانیان باستان، یعنی اوستا، و برخی متون دیگر، موجود و با زبان سنسکریت بسیار همانند است.
زبانهای ایرانی نو هم با فروپاشی شاهنشاهی ساسانی شکل گرفتند. فارسی دری (مادر فارسی امروزی)، کردی، بلوچی، پشتو، آسی، تاتی، تاجیکی، از مهمترین زبانهای ایرانی نو هستند[25].
در طول زمان، واژگان فارسی، همچون واژگان دیگر زبانهای جهان، دگرگون شدهاند و به تکامل رسیدهاند و البته به بسیاری از دیگر زبانهای جهان راه یافتهاند.
جدول 1 روند دگرگونی برخی از واژگان ایرانی و رسوخ آن در برخی از زبانها را نشان میدهد.
بزرگترین واحد هر زبان، جملة مستقل و کوچکترین آن واج است. واحدهای زبان از کوچکترین تا بزرگترین دارای سلسله مراتب زیر است: واج (واژ یا حرف)، تکواژ (واژک)، واژه، گروه، جمله و جملة مستقل [26] که البته در این پژوهش تنها به سه عنصر نخست توجه میشود.
صرف یا ساختواژه9 بخشی از دستور است که چگونگی ساخت واژه در زبان مورد نظر را تحلیل میکند[27].
واج: کوچکترین واحد سخن است که تنها صوت دارد، اما معنا ندارد و در عین حال سبب تمایز معنایی میشود. تعداد واجها در فارسی 23 همخوان (صامت) و 6 واکه (مصوت) است [28]. در این پژوهش (برای هماهنگی با نمادهای بهکار گرفته شده در برنامهنویسی الگوریتم ژنتیک و شبکه عصبی مصنوعی) در آوانگاری از حروف ساده لاتین استفاده شده و نه نمادهای استاندارد جهانی (جدول 4 را ببینید).
شکل 1) طبقهبندی زبانهای آریایی [24]
شکل 2) روند تحول زبانهای ایران تا به امروز [25]
شکل 3) بخشهای گوناگون دهان و زبان در رابطه با ساخت آوا [27].
|
جدول 1) برخی نامهای ایرانی و مشتقات آنها در زبانهای دیگر[3و24]. (آوانگاری بر پایة جدول 5)
زبان |
|
| واژه |
|
|
فارسیامروزی | خسرو | مهر / میترا | ستاره / اختر | پری | پردیس |
فارسی باستان | hao-srawngha | miθra | stArem | pairika | pairi-daeza |
اوستایی | hu-sravah | miθra | stArem/staro | pairikA | pairi-daeza |
سانسکریت | suSravas | mitrah/mitrA | naksatra/tAras | - | - |
پهلوی | husruv/xusraw | mitr/mihr | stArak/star | parik / parig | pairi-daeza |
لاتین | caesar | mitre | astrum/stella | pretium | paradisus |
یونانی | kaisar | mitrhe | aster | pallakis | paradeisos |
آلمانی | kaiser | mithra | stern | fee | papadies |
انگلیسی | caesar | mithras | star | fairy / fay | paradise |
معرب | کسری/ قیصر | مهر | اصطر(لاب) | - | فردوس |
از دیدگاه محل تولید آواهای زبان و برخورد آن با دیگر عضوهای دهان، زبان را میتوان به شش بخش تقسیم کرد[29]:
1) نوک زبان که پشت دندانهای پایین جای میگیرد.
2) تیغه زبان که زیر ناحیه لثه بالا جای میگیرد.
3) جلوی زبان که زیر ناحیه سختکام جای میگیرد.
4) مرکز زبان که زیر ناحیه مرکزی سختکام جای میگیرد.
5) پشت زبان که زیر نرمکام جای میگیرد.
6) ریشه زبان که زیر ملاز جای دارد و تا دیوارة جلویی حلق ادامه مییابد.
شکل 3 ساختمان زبان در دهان را نمایش میدهد. شناخت ساختار سیستم تولید آوا در دهان کمک میکند تا چگونگی تغییر و تبدیل واجهای تشکیلدهندة واژگان زبانها را بهتر بشناسیم..
تکواژ: از یک یا چند واج ساخته میشود و کوچکترین واحد معنادار در زبان است؛ مانند: من مداد خر ید م.
واژه: از یک یا چند تکواژ ساخته میشود و استقلال نحوی، جداییپذیری و یکپارچگی دارد. گل، گلاب، گلابگیر و گلابپاش همگی واژهای مستقل هستند[26].
واژه را میتوان از چهار دیدگاه تعریف کرد:
1) آوایی: واژه یک ساخت آوایی است که از چند هجا
تشکیل شده، دارای یک تکیه است و در آغاز و پایان آن یک درنگ (سکوت) وجود دارد.
2) ساخت صرفی: واژه از یک یا چند واژک تشکیل شده و در سلسله مراتب واحدهای دستوری زبان در ساختمان گروه بهکار میرود.
3) معنایی: واژه عبارتست از یک واحد معنایی که بر یک یا چند مفهوم منفرد دلالت دارد.
4) نگارشی: دارای وحدت املایی است، یعنی پیش و پس از آن فاصله گذاشته میشود [28].
در این پژوهش بهترتیب، دیدگاههای معنایی و ساخت صرفی و آوایی بیشتر مدنظر قرار گرفتهاند.
همچنین میتوان واژه را به دو گونة ساده و غیرساده تقسیم کرد. واژة ساده تنها یک تکواژ و واژة غیرساده بیش از یک تکواژ دارد[28]. در این پروژه تنها نامهای 2 و 3 تکواژی برای درج در پایگاه دادة نامها برگزیده شدهاند.
گفتنی است که واژه در زبان فارسی از ترکیب تکواژها و وندها و دیگر اجزا ساخته میشود و بدین ترتیب با وجود محدودیت تکواژها، تعداد واژگان زبان فارسی بینهایت است. اما برای مثال، زبان عربی بههیچ وجه چنین توانی را ندارد و ریشة واژگان ثلاثی و رباعی آن در قالب وزنهای محدودی صرف و واژگان محدودی ساخته میشود[30].
جدول 2) گردشهای مجاز برخی واکههای فارسی بهکار گرفته شده در این پژوهش بههمراه نمونه[2،3و20].
واکهها (مصوتها) | اَ (a) | آ (A) | اِ (e) | ایـ (i) | اُ (o) | او (u) | حذف واکة آغاز یا آخر |
اَ (a) | × | پَد: پاد | وَهیشت: بِهشت | ارتَوهیشت: اردیبهشت | اهورامَزدا: هرمُز | درَگ: دروغ | انوشیروان: نوشیروان |
آ (A) | ماه: مَه | × | کارمانیا: کِرمان | - | - | - | آناهیتا: ناهید |
اِ (e) | اِراک: اَراک | - | × | انوشهروان: انوشیروان | وِمان: گُمان | - | اسپید: سپید |
ایـ (i) | اژیدهاک: ضَحاک | - | وهیشت: بهِشت | × | بیرون: بُرون | - | سامی: سام |
اُ (o) | وُهومن: بَهمن | - | - | - | × | رُچ: روز | - |
او (u) | بورزاَخَو: بَرزخ | - | - | - | اهورامزدا: هُرمز | × | مغو: مغ |
ـه (a/e) پایانی | فرزانَه: فرزانِه | انوشه: انوشا | - | - | - | - | فرزانه: فرزان |
جدول 3) دستهبندی همخوانهای فارسی بر پایة شیوه و محل تولید آوا در دهان[27].
محل تولید نحوه تولید | دولبی | لب و دندانی | دندانی | لثوی | لثوی و کامی | کامی | ملازی | چاکنایی |
انفجاری | ب/پ |
| ت/د |
|
| ک/گ | غ | آ/ئـ/ع* |
سایشی |
| و/ف |
| س/ز | ش/ژ |
| خ | ه |
انفجاری/سایشی |
|
|
|
| ج/چ |
|
|
|
لرزشی |
|
| ر |
|
|
|
|
|
روان |
|
| ل |
|
| ی |
|
|
غنهای | م |
| ن |
|
|
|
|
|
2-6- جابهجایی واکهها در زبان فارسی
گردش واکهها (مصوتها)10 از ویژگیهای زبانهای آریایی است که توسط یاکوب گریم 11 در سال 1822 معرفی شد. گردش واکهها عبارت از جابهجا شدن مصوتها در ریشهها، پسوندها، پیشوندها، میانوندها و اجزای صرفی واژگان است. اگر مصوتهای کوتاه و بلند مانند a و A جابهجا شوند (مانند ماه و مه)، گردش را گردش کمّی و اگر مصوتهای گوناگون مانند a، e و o جابهجا شوند (مانند
مادر و mother)، این گردش را گردش کیفی میگویند[29].
در زبانهای هندوایرانی در زمینة آوایی سه گونه دگرگونی ویژه رخ میدهد که آنها را از دیگر زبانهای هندواروپایی متمایز میسازد [23]:
1) تغییرات و تفاوتهای کیفی (باز یا بسته و پیشین یا پسین بودن واکه)
2) جایگزینی واکه میانی خنثی در هجای فاقد تکیه (ә) با واکه نامعین یا کسره کوتاه (e)
3) دگرگونی گروه واجهای س (s) هندواروپایی به گروه واجهای ش (š) هندوایرانی، در صورتیکه پس از e و o و همخوانهای کناری و پسکامی درآیند.
جدول 2 برخی از گردشهای مجاز در واکههای زبانهای ایرانی را (که در این پژوهش نیز بهعنوان دگرگونی مجاز برای جهش ژنتیکی در الگوریتم ژنتیک بهکار رفته است) نمایش میدهد. یادآور میشود که شمار واکهها و نیز دایرة جابهجاییهای آنها، در طول تاریخ زبانهای ایرانی، بسیار فراتر از این موارد بوده است. در زبان فارسی همة همخوانها، بهجز چند آوا (مانند: نچ)، برونسو هستند و بسته به شیوه و محل تولید آوا در دهان دستهبندی میشوند. جدول 3 این تقسیمبندی را نشان میدهد.
همخوانهای موجود در زبان فارسی نیز مانند واکههای آن، در طول زمان بسیار به یکدیگر تبدیل شدهاند[15و25]. جدول 3 در بخش جهش ژنتیکی این پژوهش بهکار گرفته شده؛ بهاین ترتیب که درصورت وقوع جهش که بر پایه یک تابع تصادفی تعیین میشود، حروف داخل هر خانه با احتمال 2 برابر نسبت به حروف سطر یا ستون همسایه بالا، پایین، چپ یا راست و 4 برابر همسایههای مورب خود به یکدیگر تبدیل میشوند. برای نمونه:
P(ک→گ) = 2P(ک→غ) = 4P(ک→ش)
گفتنی است که در زبان ایرانیان گاهی واکهها و همخوانها به یکدیگر تبدیل شدهاند (مانند مَیَزد به میز و خسرَوْ به خسرو) اما در این پروژه از اینگونه تبدیلات صرفنظر شده است.
3- مدلسازی
برای پیادهسازی و بهانجام رسانیدن این پروژه، مدلی طراحی شد که سه فاز اصلی را در بر دارد. در فاز نخست و سوم، کار بهصورت پژوهش میدانی و تحلیل اطلاعات، و در فاز دوم، بهصورت شبیهسازی کامپیوتری انجام شده است. (ر.ک. بخش 4)
همانگونه که در شکل 4 دیده میشود، پس از بهدست آوردن دانش مورد نیاز برای شناخت واژگان و نامهای ایرانی، در فاز نخست پایگاه دادهای نام تشکیل و با توجه به نظر افراد جامعة آماری و برخی ملاحظات زبانشناسانه هرس میگردد. ویژگیهایی که بتوان به آنها مقادیر کمّی اختصاص داد نیز در این فاز از نامها برکشیده میشود.
سپس در فاز دوم همزمان با تنظیم و آموزش شبکة عصبی، نخستین نسل از نامها تولید خواهد شد که برازندگی این نامها و نامهای نسلهای بعدی را همان شبکة عصبی تعیین میکند.
پس از تولید نامها بهتعداد کافی دلخواه، در فاز سوم بهترین نامهای تولیدشده به همان افراد جامعة آماری اولیه برای رتبهبندی واگذار شد تا درستی کارکرد روش سنجیده، و تحلیل و ارزیابی مناسب انجام پذیرد.
4- روش کار
در این بخش به شرح عملکرد بخشهای تعریفشده در مدل شکل 4 میپردازیم.
4-1- ساخت پایگاه نامهای آغازین
برای ساخت و تکمیل پایگاه دادهای از نامهای ایرانی، با بررسی کتابهای بسیار (که در بخش پیشینه پژوهش بدانها اشاره شده است) مرجع [1] بهعنوان منبع اصلی و دیگر منابع برای مقارنه و تقابل برگزیده شدند.
از این مجموعه، 500 نام بهشیوهای نیمهتصادفی از کتاب انتخاب شد. نیمهتصادفی از این جهت که از هر برگ کتاب یک یا دو نام برگزیده شد؛ مشروط بر اینکه برخی شرایط ابتدایی مورد نیاز پژوهش بهشرح زیر را دارا باشد:
1) نام ریشة ایرانی داشته باشد.
2) نام فقط از 2 تکواژ فارسی ترکیب شده باشد، مانند مهتاب: مه + تاب.
3) نام دارای 2 یا 3 هجا (سیلاب) باشد، مانند فرزانه: فر + زا + نه.
4) نام دارای معنای روشن و مشخص باشد.
پس از گردآوری نامهای انتخاب شده با شرایط بالا، با مراجعه به سایت سازمان ثبت احوال کشور (شهریور 1390)، تعداد ثبت هر یک از نامها در این سازمان، که بهنوعی نشاندهندة میزان تمایل یا استقبال مردم از این نامهاست، در پایگاه نامها درج شد.
شکل 4) مدل ارایه شده برای تولید نام
|
سپس نامها بر اساس فیلد فراوانی نام بهصورت صعودی مرتب شدند و رتبة آنها بهعنوان میزان برازندگی آنان در نظر گرفته شد و بر این اساس، همانگونه که در جدول 4 نمایش داده شده است، با یک تابع ساده، 252 نام بهصورت تصادفی انتخاب گردید. بدین ترتیب نامهای با رتبة پایینتر احتمال انتخاب بالاتر داشتهاند (مینا بالاترین و راوک پایینترین احتمال انتخاب).
نامهای برگزیده، هم بهعنوان اعضای جمعیت اولیه در الگوریتم ژنتیک و هم بهعنوان ورودی آموزشی شبکة عصبی برای بهدست آوردن تابع برازندگی الگوریتم بهکار خواهند رفت.
4-2- تهیة پرسشنامه و نظرسنجی از جامعة آماری
از آنجاکه سیستم ارایهشده در این پروژه باید بتواند نظر زیباییشناسانة مردم را نسبت به نامها شبیهسازی کند، لازم
است که یا پارامترهای زیباییشناسی ایرانیان نسبت به این نامها استخراج، تدوین و در پروژه بهصورت محاسبهپذیر اعمال شود؛ که البته این کار، کاری بسیار دشوار است و پژوهشی چندجانبه را میطلبد، و یا اینکه چکیدة نظر آنان بهروشی انتزاعی در پروژه منظور شود.بدین منظور، 252 نام برگزیده، در قالب 6 فرم، هر یک با 42 نام تقسیم شد و فرمها در طول سال 90 در جامعه آماری ویژهای (حدود 300 تن، اغلب از میان دانشجویان، استادان و شاغلان دانشگاه آزاد اسلامی واحد پرند) توزیع و پس از تکمیل، گردآوری شد (نمونة پرسشنامه در پیوست1). ). از اینرو روشن است که تابع برازندگی بیشتر نظرات این جامعة آماری را تخمین خواهد زد. از آنجاکه زیبایی از دو دیدگاه معنایی و آوایی بر انتخاب یک نام در اندیشة ایرانیان تاثیر میگذارد، از جامعة آماری درخواست شد تا در دو ستون جداگانه به زیبایی آوایی و معنایی هر یک از نامها نمرهای بین صفر تا 10 را اختصاص دهند.
همچنین از ایشان درخواست شد تا درجة اهمیت زیبایی آوایی و معنایی را در هنگام گزینش نام بهدرصد مشخص کنند.
میانگین نمرات تخصیصیافته، بهعنوان بردار هدف برای آموزش شبکة عصبی و همچنین بهعنوان میزان شایستگی در تابع برازندگی الگوریتم ژنتیک (نسل یکم) بهکار گرفته میشود.
جدا از طراحی و تنظیم تابع ارزیابی، مهمترین مساله در الگوریتم ژنتیک، تدوین نقشة ژنها و چگونگی تولید نسل
فراوانی | نام | ردیف |
| فراوانی | نام | ردیف |
⁞ | ⁞ | ⁞ |
| 27 | راوک | 1 |
117412 | بهرام | 244 |
| 29 | ایرمان | 2 |
122626 | مژگان | 245 |
| 35 | تیما | 3 |
165785 | فرهاد | 246 |
| 38 | کامکار | 4 |
166004 | پریسا | 247 |
| 41 | تیراژه | 5 |
170452 | افسانه | 248 |
| 45 | رایمند | 6 |
205624 | امید | 249 |
| 52 | بهناد | 7 |
206353 | فرشته | 250 |
| 57 | آپامه | 8 |
216382 | فرزانه | 251 |
| 59 | راتا | 9 |
218652 | مینا | 252 |
| ⁞ | ⁞ | ⁞ |
جدول 4) نامهای استخراج شده از پایگاه نامهای اولیه، به همراه فراوانی آنها در پایگاه وب سازمان ثبت احوال کشور و رتبة آن |
تازه است.
در الگوریتم ژنتیک ژنها باید در ساختاری استاندارد قرار گیرند و محل گسست دو ژن و تولید نمونة جدید12 بهدرستی تعیین شود[32].
از اینرو لازم آمد تا هر واژه آوانگاری، و نیز محلهای مجاز برای انجام عمل گسست و ترکیب ژنها تعیین شود. تعیین درست مکان گسست و ترکیب ژنها، معنادار بودن واژة تولیدشده را تضمین میکند.
جدول 5 بهترتیب آوانگاری (فونتیک) معادل هر یک از واکهها (مصوتها) حروف همخوان (صامت) زبان فارسی بهکار گرفته شده در این پروژه را نمایش میدهد.
نگارش | نمونه | نماد | آوا | ردیف |
bad | بد | a | اَ | 1 |
del | دل | e | اِ | 2 |
bot | بت | o | اُ | 3 |
pA | پا | A | ـا | 4 |
Si | سی | i | ای | 5 |
bu | بو | u | او | 6 |
rwSan | روشن | w | اَو / اُو | 7 |
&ArSidA | آرشیدا | & | آ/ او/ ایـ/ ئـ/ ع | 8 |
bAnu | بانو | b | ب | 9 |
puri | پوری | p | پ | 10 |
tArA | تارا | t | ت (ط) | 11 |
jAvid | جاوید | j | ج | 12 |
cAvoS | چاوش | c | چ | 13 |
xosrw | خسرو | x | خ | 14 |
dAnA | دانا | d | د | 15 |
rAmbod | رامبد | r | ر | 16 |
zibA | زیبا | z | ز (ذ) | 17 |
Zale | ژاله | Z | ژ | 18 |
saman | سمن | s (θ) | س (ث) | 19 |
SivA | شیوا | S | ش | 20 |
qobAd | قباد | q | غ (ق) | 21 |
farzin | فرزین | f | ف | 22 |
kAren | کارن | k | ک | 23 |
golnAz | گلناز | g | گ | 24 |
lAle | لاله | l | ل | 25 |
mina | مینا | m | م | 26 |
narges | نرگس | n | ن | 27 |
vAraS | وارَش | v | و | 28 |
hAmun | هامون | h | ه | 29 |
yektA | یکتا | y | ی | 30 |
جدول 5) آوانگاری واکهها و همخوانهای زبان فارسی |
البته از آنجاکه آوای حروف ح، ص، ض، ط، ظ، ع و ق در زبان فارسی وجود ندارند، در این جدول نادیده گرفته شدهاند و حروف ث و ذ نیز امروزه بهصورت س و ز خوانده میشوند.
البته در آوانگاری این پروژه، مانند روش معمول زبانشناسی فارسی، از واکة w بهعنوان یک واج واحد چشمپوشی شده است.
بدین ترتیب پایگاه دادة نامها بههمراه آوای آنها بهتفکیک هجای نام مربوطه و همچنین بهتفکیک واژگان مجرد و وندهای تشکیلدهندة واژه از نظر معنایی، ساخته شد. جدول 6 برخی از واژگان را در این پایگاه داده نمایش میدهد. در این جدول، فیلد بار که بار منفی معنای بخش پیشوندی نام را نشان میدهد، برای این درج شده که هنگام آمیزش دو نام، معنای منفی یا مثبت پیشوند را (مانند بیتا، ناهید، انوشه و ...) بتوان در نظر گرفت. در حقیقت بدین وسیله نامها به سه گونه یا نژاد تقسیمبندی شدهاند که (1) نشانگر بار مثبت، (0) نشانگر بار خنثی، و (1-) نشانگر بار منفی بخش معنایی نخست نام بوده و در این پژوهش آمیزش گونة سوم با دو گونة دیگر مجاز نبوده است.
از آنجاکه در این پژوهش نامهای ایرانی باید از نظر آوایی بررسی شوند، بر پایة روش بهکار رفته در عروض قافیه اشعار فارسی[31]، هجاهای تشکیلدهندة هر یک از نامها نیز تجزیه شدند. جدول 7 نمادها و چگونگی این روش را نشان میدهد. همچنین در این پایگاه برای کوتهنویسی و سادگی کار، نمادهای x، y و z (بزرگ و کوچک) منظور شده و هجاهای بلند و کشیده نیز برابر در نظر گرفته شدهاند. در این جدول c نماد حروف همخوان، v نماد واکههای کوتاه و V نماد واکههای بلند است.
البته دو هجای cvccc و cVccc (مانند سانتر و لوستر) بهدلیل کمبود کاربرد در فارسی، نادیده گرفته شده است. بر پایة این هجابندی، فیلدهای جدیدی به پایگاه دادهای نامها افزوده شد که در جدول 8 نمایش داده شده است.
نکتة مهم آنکه در این پژوهش، همانگونه که گفته شد، تفکیک معنایی واژگان تشکیلدهندة نامها، برای تعیین محل گسست و ترکیب ژنها در الگوریتم ژنتیک انجام شده، اما تفکیک هجایی نامها برای استفاده در شبکة عصبی بهمنظور تعیین میزان استفادة هر نوع هجا و در نتیجه شبیهسازی زیباییشناسی هجاها در آن، انجام پذیرفته است.
در ادامه، برای تعیین بردار برازندگی هر نمونه در الگوریتم ژنتیک و نیز خروجی هر نمونه در شبکه عصبی، فیلدهای میانگین درجه زیبایی هر نمونه از دیدگاه آوایی و معنایی بههمراه تعداد ثبتنامها در سازمان ثبت احوال کشور[35]، به پایگاه نامها افزوده شدند. برای آنکه مقایسه این فیلدها امکانپذیر باشد و نیز برای آنکه ورودیهای بردار هدف y شبكه عصبي مقاديری نرمال داشته باشند، این میانگینها بهکمک رابطة زیر به مقادیری در بازه (1+ و 1-) نگاشت شدند.
رابطه (1)
در رابطة (1)، متغیر x مقدار فیلد میانگین امتیازات آوایی، معنایی یا ثبتاحوال و بردار X نشانگر کل مقادیر این فیلدها و y خروجي نگاشت شده هر یک از آنهاست.
سرانجام برای بررسی و مقایسه اختلافنظر جامعه آماری این پژوهش (که پرسشنامة نامها میان آنان توزیع شده) با میزان درخواستهای ثبتشده در پایگاه وب سازمان ثبت احوال (که بهنوعی استقبال عمومی از آن نامها را نشان میدهد)، میانگین این عاملها از رابطه زیر محاسبه شد:
رابطه (2)
که در این رابطه v میانگین امتیاز آوایی نگاشتشده، m میانگین امتياز معنايي نگاشتشده، و t میانگین کل آنهاست. جدول 9 نمونههایی از این مقادیر را برای چند نام نمایش میدهد.
البته فیلد تفاضل، با میانگین 79/0 و انحراف معیار 45/0 همبستگی خاصی را میان امتیازات آوایی و معنایی تخصیصیافته از سوی جامعه آماری در دانشگاه پرند، و آمار ثبتشده در سازمان ثبت احوال کشور نشان نمیدهد.
جدول 6) پایگاه نامها، بههمراه آوانگاری و تفکیک آوایی و معنایی آنها.
ردیف | نام | معنا | آوانگاری | هجای1 | هجای2 | هجای3 | معنای1 | معنای2 | معنای3 | بار |
1 | اردشیر | پادشاهی پاک / کشور مقدس | &ardeSir | &ar | de | Sir | &ard | Sir |
| 1 |
2 | اردوان | نگهبان راستی / پاسدار درستکاران | &ardavAn | &ar | da | vAn | &ard | vAn |
| 1 |
3 | ارژنگ | جادویی / زینت / نقش و نگار | &rZang | &r | Zang |
| &ar | Zang |
| 0 |
4 | البرز | از همه سو بلند / سراسر گسترده | &alborz | &al | borz |
| &al | borz |
| 0 |
5 | الوند | دارای تندی و تیزی / تندمند | &alvand | &al | vand |
| &al | vand |
| 0 |
6 | اندیشه | از همه سو نگریستن / فکر | &andiSe | &an | di | Se | &an | diS | e | 0 |
7 | انوشه | بیمرگ / جاودان | &anuSe | &a | nu | Se | &a | nuS | e | -1 |
8 | ایزدیار | آنکه خدا بااوست / دوست خدا | &izadyAr | &i | zad | yAr | &izad | yAr |
| 1 |
9 | آرشیدا | فروغ آریایی / خورشید ایران | &ArSidA | &Ar | Si | dA | &Ar | Sid | A | 1 |
⁞ | ⁞ | ⁞ | ⁞ | ⁞ | ⁞ | ⁞ | ⁞ | ⁞ | ⁞ | ⁞ |
جدول 7) انواع هجا در زبان فارسی [31].
ردیف | نماد هجا | نماد در پایگاه | نمونه |
1 | cv | x | نه، به، تو |
2 | cvc | y | تر، دل، گل |
3 | cvcc | z | سرد، مهر، دزد |
4 | cV | X | با، سی، رو |
5 | cVc | Y | سال، میز، دود |
6 | cVcc | Z | پارس، سیرک، دوخت |
جدول 8) آوانگاری عروضی نامها
ردیف | نام | آوا | آوای هجای1 | آوای هجای2 | آوای هجای3 | نماد هجای1 | نماد هجای2 | نماد هجای3 |
1 | اردشیر | cvccvcVc | cvc | cv | cVc | y | x | Y |
2 | اردوان | cvccvcVc | cvc | cv | cVc | y | x | Y |
3 | ارژنگ | cvccvcc | cvc | cvcc |
| y | z |
|
4 | البرز | cvccvcc | cvc | cvcc |
| y | z |
|
5 | الوند | cvccvcc | cvc | cvcc |
| y | z |
|
6 | اندیشه | cvccVcv | cvc | cV | cv | y | X | x |
7 | انوشه | cvcVcv | cv | cV | cv | x | X | x |
8 | ایزدیار | cVcvccVc | cV | cvc | cVc | X | y | Y |
9 | آرشیدا | cVccVcV | cVc | cV | cV | Y | X | X |
⁞ | ⁞ | ⁞ | ⁞ | ⁞ | ⁞ | ⁞ | ⁞ | ⁞ |
جدول 9) امتیازات آوایی و معنایی و فراوانی نامها در پایگاه وب سازمان ثبت احوال کشور و مقادیر نگاشت شدة معادل آنها
نام | میانگین امتیازات | فراوانی در پایگاه وب سازمان ثبت | میانگین امتیازات (نگاشت شده) | فراوانی در سازمان ثبت (نگاشتشده) | تفاضل | ||
معنایی | آوایی | معنایی | آوایی | ||||
اردشیر | 5.34 | 3.9 | 24174 | 0.1133 | 0.3667- | 0.7790- | 0.6524 |
اردوان | 5.22 | 4.16 | 2968 | 0.0733 | 0.2800- | 0.9731- | 0.8698 |
ارژنگ | 4.28 | 3.32 | 1881 | 0.2400- | 0.5600- | 0.9830- | 0.5830 |
البرز | 5.28 | 4.22 | 2917 | 0.0933 | 0.2600- | 0.9736- | 0.8902 |
الوند | 4.2 | 3.8 | 196 | 0.2667- | 0.4000- | 0.9985- | 0.6651 |
اندیشه | 5.66 | 4.04 | 670 | 0.2200 | 0.3200- | 0.9941- | 0.9441 |
انوشه | 5.98 | 3.64 | 940 | 0.3267 | 0.4533- | 0.9916- | 0.9283 |
ایزدیار | 6.28 | 3.56 | 70 | 0.4267 | 0.4800- | 0.9996- | 0.9729 |
آرشیدا | 7 | 5.5 | 331 | 0.6667 | 0.1667 | 0.9972- | 1.4139 |
⁞ | ⁞ | ⁞ | ⁞ | ⁞ | ⁞ | ⁞ | ⁞ |
4-4- شبکه عصبی بهعنوان تابع برازندگی
برای دستیابی به بهترین نتیجه، انواع شبکههای عصبی موجود در جعبهابزار شبکه عصبی متلب نگارش 8/7 13 با مجموعههای ورودیهای گوناگون آزموده شدند که سرانجام با توجه به این تجربیات و نیز توانمندیها و ویژگیهای انواع شبکههای عصبی[29]، شبکة عصبی پیشخور پسانتشار14 با 2 لایه پنهان، هر لایه با نرونهایی بهتعداد 2 برابر بردار ورودی، و یک نرون خروجی دوقطبی، و تابع آموزش از پسانتشار لونبرگ-مارکوارت15(TRAINLM) و تابع فعالیت تانژانت هایپربولیک سیگمویید (TANSIG) در همه لایهها (شکل 5) به بهترین نتیجه رسید و برگزیده شد. این شبکه در حقیقت یک شبکة پرسپترون چندلایه16 است که بهطور نظری ثابت در صورت داشتن دستکم يك لاية مياني و تابع تبديل سيگمویيد و يك تابع تبديل خطي در لاية خروجي، میتواند همة توابع دلخواه را تقریب بزند؛ مشروط بر آنکه داراي نرونهای کافی در لايه مياني باشد. البته محدوديتهای شبكههاي عصبي پرسپترون چند لايه دو مورد است: نخست اينكه تابعهای مورد تقريب، بايد پيوسته باشند و دوم، شمار نرونهاي لاية پنهان را نميتوان نامحدود برگزید]36و37[.
برای دستیابی به بهترین نتیجه، ورودیها بهصورتهای گوناگون (بهکمک برنامة مبدل در محیط ویژوال بیسیک) به کدهای ورودی شبکة عصبی تبدیل و آزموده شد که برخی از موثرترین آنها در ادامه معرفی میشود.
همانگونه که پیشتر توضیح داده شد، میانگین نظرات جامعة آماری در مورد زیبایی نامها، بهعنوان مقادیر بردار هدف (خروجی) شبکة عصبی در نظر گرفته شدند که البته برای افزایش دقت و درستی شبکه، این مقادیر بر پایة رابطة (1) در بازه (1+ و 1-) نگاشت شدند.
برای تشخیص اینکه کدام هجاهای زبان فارسی از دیدگاه جامعة آماری زیباتر بوده است، آنگونه که در جدول 6 و 8 نمایش داده شده، هر نوع هجا بنابر قاعدة هجاهای فارسی، منطبق با علم عروض ادبی[31]، تفکیک شد و به انواع آن که در جدول 7 نگاشت شده، کدی تخصیص یافت که کد حاصله در جدول 10 موجود است.
شکل 5) نمای کلی شبکة عصبی بهکار رفته در پروژه
جدول 10) کد ورودی معادل هر یک از هجاهای فارسی به شبکه
ردیف | نماد هجا | نماد در پایگاه | کد (دوقطبی) |
1 | cv | x | -1 -1 -1 -1 -1 +1 |
2 | cvc | y | -1 -1 -1 -1 +1 -1 |
3 | cvcc | z | -1 -1 -1 +1 -1 -1 |
4 | cV | X | -1 -1 +1 -1 -1 -1 |
5 | cVc | Y | -1 +1 -1 -1 -1 -1 |
6 | cVcc | Z | +1 -1 -1 -1 -1 -1 |
جدول 11) مبنای واکههای فارسی
کد (دوقطبی) | نماد | آوا | ردیف |
-1 -1 -1 -1 -1 +1 | a | اَ | 1 |
-1 -1 -1 -1 +1 -1 | e | اِ | 2 |
-1 -1 -1 +1 -1 -1 | o | اُ | 3 |
-1 -1 +1 -1 -1 -1 | A | آ | 4 |
-1 +1 -1 -1 -1 -1 | i | ایـ | 5 |
+1 -1 -1 -1 -1 -1 | u | او | 6 |
این شبکه نهتنها ارزش یک نوع هجا، که ارزش توالی آنها را نیز نشان میدهد. برای نمونه، شبکهای با این ورودیها میتواند بین دو ترکیب مانند xX و Xx (یا cvcV و cVcv)، مانند ساره و رسا، تمایز قایل شود، اما نمیتواند نوع واکهها و همخوانهای کوتاه و بلند آن را تشخیص دهد.
ورودی این شبکه برای حداکثر 4 هجا (24 گره ورودی) تنظیم شد و گرههای هجاهای خالی با مقدار (-1) پر شدند.
پس از آموزش و آزمایش متوالی شبکة عصبی با چنین ورودیهایی که نمونههای آموزشی و آزمایش آن بهطور متوالی و تصادفی از 252 نام پایگاه اولیه انتخاب میشد، میانگین اختلاف خروجی شبکه با خروجیهای واقعی (هدف) به حدود 72/0 در بازه (1+ و 1-) یا بهعبارت بهتر خطای 36٪ (دقت 64٪) رسید که با توجه به کمینه بودن ورودیها نتیجه چندان بدی هم بهشمار نمیرود.
4-4-4- ورودی برپایة نحوة تولید حرف در هجا
در روشی دیگر، برای افزایش دقت شبکه، ورودیها بر پایة نحوة تولید همخوانها منطبق با جدول 3 و واکهها منطبق با جدول 5 تنظیم شد که کد معادل آنها در جدول 11 و 12 نمایش داده شده است.
گفتنی است که کدهای بر پایة شانزده مندرج در جدول 8 تنها برای سادگی نمایش داده شده و در عمل بهصورت دودویی-دوقطبی 14 بیتی (رقومی) به شبکه عصبی وارد گشته است. این کدها، برای افزایش کارایی شبکة عصبی، بهگونهای تنظیم شده که هر سطر یا ستون در جدول 3 یک بیت (رقم) با خانه همسایهاش اختلاف داشته باشد. جدول 13 مبنای این کدگذاری را نشان میدهد که مرکز آن در جدول 3، فیلد روان- لثوی و کامی قرار گرفته است. دو رقم کمارزش در کدهای جدول 12 نشانگر ردیف و 2 رقم پرارزش نشانگر ستون هر فیلد است.
جدول 12) کد معادل هر یک از نحوه/محلهای تولید واکههای جدول3
کد (برپایه 16) | نحوه - محل تولید | ردیف |
0F0F | انفجاری - دولبی | 1 |
0C0F | انفجاری - دندانی | 2 |
100F | انفجاری - کامی | 3 |
300F | انفجاری - ملازی | 4 |
700F | انفجاری - چاکنایی | 5 |
0E0E | سایشی - لب و دندانی | 6 |
080E | سایشی - لثوی | 7 |
000E | سایشی - لثوی و کامی | 8 |
300E | سایشی - ملازی | 9 |
700E | سایشی - چاکنایی | 10 |
000C | انفجاری/سایشی - لثوی و کامی | 11 |
0C08 | لرزشی - دندانی | 12 |
0C00 | روان - دندانی | 13 |
1000 | روان - کامی | 14 |
0F10 | غنهای - دولبی | 15 |
0C10 | غنهای - دندانی | 16 |
جدول 13) مبنای کدگذاری جدول 8
ردیف | کد باینری | کد (برپایه 16) |
1 | 0001111 | 0F |
2 | 0001110 | 0E |
3 | 0001100 | 0C |
4 | 0001000 | 08 |
5 | 0000000 | 00 |
6 | 0010000 | 10 |
7 | 0110000 | 30 |
8 | 1110000 | 70 |
پس از آموزش و آزمایش متوالی شبکة عصبی با چنین ورودیهایی، میانگین اختلاف خروجی شبکه با خروجیهای واقعی (هدف) به حدود 25/0 در بازه (1+ و 1-)، یعنی خطای 5/12٪ (دقت 5/87٪) رسید که دقتی مطلوب بهشمار میرود.
ورود نامها بر پایة نحوة تولید حروف، دقت شبکه را بسیار افزایش داد، اما این ورودی همچنان نمیتواند تفاوت برخی از حروف را بازشناسی کند. برای نمونه، کدهای دو نام دارا و تارا هیچ تفاوتی با یکدیگر ندارد؛ هرچند که ممکن است زیبایی آوایی آنها از دید افراد متفاوت باشد. از اینرو بهنظر میرسید که تهیة ورودی شبکه بهتفکیک واجهای هر نام، دقت کار را افزایش دهد.
در این روش نیز به هر یک از 29 واج فارسی (23 همخوان و 6 واکه) مندرج در جدول 5، کدی یکتا اختصاص یافت و آموزش و آزمایش ترکیبات مختلف شبکة عصبی انجام پذیرفت. اما در بهترین ترکیب شبکه، میانگین خطای 14٪ (دقت 86٪) بهدست آمد که هرچند دقتی مطلوب بهشمار میآید، اما از ورودی بر پایة نحوة تولید حروف کمتر است.
عدم افزایش دقت شبکه با چنین ورودیهایی ممکن است بهدلیل کمبود نمونهها، ترکیب نادرست شبکه یا کدهای ورودی، بالا بودن بار شبکه (به ازای یک نام 7 واجی، 203 گره ورودی) یا دلایل دیگر بوده باشد که بههر ترتیب امکان برطرف ساختن این مشکلات فراهم نشد.
از میان آزمایشهای گوناگون دیگر، دو روش ورودی بهصورت نوع هجا و بر پایة نحوة تولید حروف با یکدیگر ترکیب شد و در نتیجه دقت شبکه به حدود 89٪ رسید. این شبکه که طرح کلی آن در شکل 6 نمایش داده شده، بهعنوان راهحل نهایی برگزیده شد.
واکهها | اَ (a) | آ (A) | اِ (e) | ایـ (i) | اُ (o) | او (u) | حذف واکة آغاز یا پایان |
اَ (a) | - | x | y | z | z | z | x |
آ (A) | x | - | z | z | z | z | x |
اِ (e) | y | z | - | x | z | z | x |
ایـ (i) | z | z | x | - | z | z | x |
اُ (o) | z | z | z | z | - | x | y |
او (u) | z | z | z | z | x | - | y |
ـه (a/e) | x | x | - | x | z | z | x |
جدول 14) نسبت واکهها با یکدیگر برای محاسبة احتمال دگرگونی آنها با استفاده از رابطة 3 |
4-5- الگوریتم ژنتیک
الگوریتم ژنتیک بهکار رفته در این پروژه نسبتا ساده بوده است. بدین ترتیب که بر نامهایی که از 2 تا 4 تکواژ تشکیل شدهاند، فاز بازتولید (تولید مثل) صفر تا 2 بار (بر اساس برازندگی) اعمال شده و بر هر یک از تکواژها نیز صفر تا 2 بار جهش (با مقدار احتمال قابل تنظیم) رخ داده است. در زیر این روند برای نامهای تولیدی سایمان، سورین و بینوش نمایش داده شده است:
از آنجا که در طول تاریخ، تعداد دگرگونی هر یک از واکهها و همخوانها بهیکدیگر، بهطور مساوی رخ نداده است، احتمال رخداد جهش و نیز احتمال رخداد دگرگونی یک واکه به واکة دیگر (مانند a به e)، بر پایة جدول 2 بهفرم جدول 14 بهوسیلة رابطة 3 محاسبه میشود. اما میتوان برای بهدست آورد مقادیر حقیقیتر، پردازشی گستردهتر بر سیر تطور واژگان زبان فارسی انجام داد؛ که البته از موضوع این پژوهش بیرون بوده است. در آزمون این طرح، صدها نام تازه پدید آمد که هر یک از آنها برای دریافت مقدار تابع برازندگی به شبکة عصبی وارد و به پایگاه داده (جمعیت) افزوده میشد.
4-6- نظرسنجی نامهای جدید از جامعه آماری
پس از تولید انبوه نامهای جدید، 40 نام که بالاترین رتبه (برازندگی) را توسط شبکة عصبی دریافت کرده بودند، در قالب پرسشنامهای مانند پرسشنامة نمونههای اولیه (مندرج در پیوست 1) به همان جامعه آماری ارایه و نظرات آنان دربارة نامهای جدید گردآوری و از دیدگاه آماری پردازش شد.
از میان نامهای برگزیده، نزدیک به 35٪ از نامهای تولید شده، از نامهای شناخته شده توسط سازمان ثبت احوال کشور و حتی 3٪ از نامها در جامعة اولیه موجود بودهاند که این امر میتواند نشان از درستی روش باشد. برای 40 نام برتر، وجود نام در پایگاه وب سازمان ثبت احوال کشور بههمراه تعداد تکرار آن و نیز میانگین امتیازات آوایی و معنایی جامعة آماری به هر نام جدول 14 درج شده است.
میانگین نظرات جامعة آماری در مورد هر نام تازه، نسبت به خروجی شبکة عصبی (برازندگی) همان نام، که در بازة (1 و 0) نگاشت شده، اختلافی با میانگین 23/0 و انحراف معیار 12/0 را نشان میدهد که نشانگر همبستگی مناسبی بین این دو عامل است.
همچنین از این 40 نام، نامی که بالاترین امتیاز را در میان اعضای جامعه دریافت کرده (آرتینا)، رتبة 5 را در میان 252 نام پایگاه آغازین که توسط همان افراد ارزشدهی شده، کسب کرده که جایگاهی بسیار درخور توجه است. چهلمین نام جدید (جمداد) نیز رتبه 201 را به خود اختصاص داده است. رتبة نامهای جدید نیز در پایگاه نامهای آغازین، در جدول 15 نمایش داده شده است.
5- جمعبندی و کارهای آینده
در این پژوهش، با شناخت روند دگرگونی و تکامل نامها و واژگان ایرانی در طول تاریخ، و شبیهسازی هوشمند این روند، نامهای جدید معنادار و بهنسبت زیبایی بهکمک الگوریتم ژنتیک تولید شد. زیبایی آوایی و معنایی نامهایی که نقش جامعة آغازین الگوریتم ژنتیک را داشتند، توسط یک جامعة آماری که بیشترین افرادش در دانشگاه آزاد اسلامی واحد پرند اشتغال داشتهاند، تعیین شد. این نامها یک شبکه عصبی مصنوعی پیشخور پسانتشار را که توانست تا 89٪ نظرات جامعة آماری را شبیهسازی کند، آموزش دادند تا آن شبکه نقش تابع برازندگی را برای بهدست آوردن میزان زیبایی آوایی نامها در الگوریتم ژنتیک، ایفا کند. جامعة آغازین در الگوریتم ژنتیک را مجموعهای از نامهای ایرانی مرکب از 2 یا 3 بنواژه تشکیل میدادند که محل گسست/پیوست ژنها و احتمال و چگونگی رخداد جهش ژنتیکی بر پایة قواعد زبانشناسی زبانهای ایرانی تدوین شد.
بهترین نامهای تولید شده بدین روش، رتبههای 5، 7 و 8 را در میان 252 نام پایگاه نامهای آغازین بهدست آوردهاند.
پیشنهاد برای بهبود و افزایش کارایی پژوهش:
1- نامهای جامعة آغازین افزایش یابد.
2- پژوهش بر دیگر واژگان فارسی (نهفقط نامها) انجام شود.
3- دیگر روشهای هوش مصنوعی و دیگر انواع شبکة عصبی آزموده شود.
4- پژوهشی جامع در زمینة چگونگی دگرگونی تاریخی واکهها و همخوانها به یکدیگر انجام پذیرد.
جدول 15) 40 نام برتر تولید شده توسط الگوریتم ژنتیک و برگزیده توسط شبکه عصبی
|
|
|
منابع
1.مهدی حمیدا، فرهنگ نامها، کلک آزادگان، چاپ سوم، 1386.
2.جهانگیر اوشیدری، دانشنامه مزدیسنا، نشر مرکز، چاپ سوم، 1383.
3.حسین شهیدی مازندرانی، فرهنگ شاهنامه (نام کسان و جایها)، نشر بلخ، چاپ نخست، 1377.
4.ا. ش. شاهميری، ر. دژکام و س. شيری، شناسايی اشعار شاهنامه فردوسی بهکمک شبکه عصبی مصنوعی، نشرية انجمن کامپيوتر ايران (JCSE 2007 )، مجلد 4، شماره 3 (الف) پاييز 1385، ص 17-26.
5.ا. ش. شاهميری و م. ر. مطش بروجردی، تعيين شاعر بهکمک روشهای يادگيری ماشين، سومين کنفرانس فناوری اطلاعات و دانش (IKT 2007) ، مشهد، 1385.
6.ا. ش. شاهميری، م. ر. صفابخش و ر. دژکام، تصحيح خودکار غلطهای تايپی فارسی بهکمک شبکه عصبی مصنوعی ترکيبی، نشرية علمی پژوهشی انجمن مهندسين برق و الکترونيک ايران، سال پنجم، شماره یکم، بهار و تابستان 1387، ص 16-29.
7.ا. ش. شاهميری، م. ر. صفابخش و ر. دژکام، تعيين ريشه زبانی واژگان فارسی و عربی بهکمک شبکه عصبی مصنوعی، دوازدهمين کنفرانس بينالمللی انجمن کامپيوتر ايران (CSICC 2007)، تهران، 1385.
8.ع. ح. اصفهانی، س. راحتی قوچانی و ن. جهانگیری، استخراج ویژگی برای یک سیستم شناسایی و طبقهبندی اسامی فارسی، پانزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران، تهران، 1388.
9.نادیه سجادی و مهرنوش شمسفرد، تبدیل متن محاورهای فارسی به رسمی بهکمک N-gramها، شانزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران، تهران، 1389.
10.ن. ریاحی، ف. غزالی و م. ع. غزالی، سامانه خلاصهساز متنهای فارسی با رویکرد ترکیبی شبکه عصبی RBF و الگوریتم ژنتیک، هجدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران، تهران، 1391.
11.ا. بابادی، پ. غیاثنژاد عمران و غ. قاسمثانی، استفاده از یادگیری ماشین در ریشهیابی کلمات فارسی، هجدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران، تهران، 1391.
12.م. ص. زاهدی، ا. بزرگی و ک. فاتحی، بررسی ریشهیابهای واژگان زبان فارسی و تاثیر آنها در کارایی سیستمهای بازیابی اطلاعات متنی، نخستین کنفرانس بینالمللی پردازش زبان و خط فارسی، سمنان، 1391.
13.مهربانگشتاسپ پورپارسی، گنجینة نامهای ایرانی، انتشارات فروهر، چا دوم، 1362.
14.ع. زاهدینیا و ک. کاظمی، فرهنگ نام ایرانیان، انتشارات ترانه، چاپ چهارم، 1386.
15.سودابه مبشر، ایرانیان فرزندان خود را چه مینامند؟ (فرهنگ جامع نامهای ایرانی)، نشر پارسه، چاپ پنجم، 1389.
16.پری زنگنه، آوای نامها از ایرانزمین، کتابسرا، چاپ نهم، 1388.
17.م. انصاری و س. افتخار، فرهنگ نام سخن، نشر سخن، 1384.
18.ع. بهنیا، پژوهشی در نامهای ایرانیان معاصر، انتشارات مهدیه، چاپ دوم، 1363.
19.م. ر. اکبری بیرقی، دایرهالمعارف نامة نشر اردیبهشت، 1371.
20.علیاکبر دهخدا، لغتنامه، لوح فشرده.
21.محمد معین، فرهنگ فارسی معین، لوح فشرده.
22.فرهنگ واژههای اوستا، احسان بهرامی، نشر بلخ، چاپ یکم، 1369.
23.کریستین بارتلمه، تاریخچه واجهای ایرانی، ترجمة واهه دومانیان، انتشارات پژوهشگاه علوم انسانی و مطالعات فرهنگی، چاپ نخست، 1384.
24.منوچهر آریانپور کاشانی، فرهنگ ریشههای هندواروپایی زبان فارسی، انتشارات جهاد دانشگاهی اصفهان، چاپ نخست، 1384.
25.رودریگر اشمیت، راهنمای زبانهای ایرانی، ترجمه آرمان بختیاری و همکاران، جلد 1 و 2، انتشارات ققنوس، چاپ نخست، 1382.
26.تقی وحیدیان کامیار و غلامرضا عمرانی، دستور زبان فارسی (1)، انتشارات سمت، چاپ یازدهم، 1387.
27.یدالله ثمره، آواشناسی زبان فارسی، آواها و ساخت آوایی هجا، مرکز نشر دانشگاهی، ویرایش دوم، چاپ نهم، 1383.
28.ایران کلباسی، ساخت اشتقاقی واژه در فارسی امروز، پژوهشگاه علوم انسانی و مطالعات فرهنگی، چاپ سوم، 1387.
29.محسن ابوالقاسمی، تاریخ زبان فارسی، انتشارات سمت، چاپ نخست، 1373.
30.ضیاءالدین هاجری، فرهنگ وندهای زبان فارسی، انتشارات آوای نور، چاپ یکم، 1377.
31.تقی وحیدیان کامیار، عبدالحسین زرینکوب و حمید زرینکوب، ادبیات فارسی (قافیه و عروض - نقد ادبی)، شرکت چاپ و نشر کتابهای درسی ایران، چاپ چهارم، 1377.
32.ا. جی. راسل و پ. نورویگ، هوش مصنوعی: مفاهیم بنیادین، ترجمة س. راحتی، م. بهداد و ح. تیموری، انتشارات دانشگاه امام رضا، چاپ دهم، 1389.
34.http://www.britannica.com
35. http://www.sabteahval.ir
36.G. Cybenco, Approximation by Superpositions of a Sigmoidal Function, Mathematics of Control, Signals and Systems, vol. 2, 1989.
37.k. M. Hornik, M. Stinchcombe and H. White, Multilayer FeedForward Networks are Universal Approximators, Neural Networks, vol. 2, 1989.
پیوست 1) نمونهای از فرمهای نامهای جامعة آغازین، فرستاده شده برای جامعة آماری
نام | معنا | زیبایی معنایی | زیبایی آوایی | |
1 | اردشیر | پادشاهی مقدس / سرزمین مقدس |
|
|
2 | اردوان | پاسدار راستی / نگهبان درستکاران |
|
|
3 | ارژنگ | جادویی / زینت / نقش و نگار |
|
|
4 | البرز | کوه بلند و بزرگ/ از همهسو گسترشیابنده |
|
|
5 | الوند | دارای تندی و تیزی / تندمند |
|
|
6 | اندیشه | فکر / خرد / بررسی همهجانبه |
|
|
7 | ایزدیار | آن که خداوند یار اوست / دوست خدا |
|
|
8 | آرشیدا | خورشید آریایی / ایرانی درخشان |
|
|
9 | بهنام | خوشنام / دارای نام نیک |
|
|
10 | بیژن | شجاع / جنگجو |
|
|
11 | پردیس | فردوس / بهشت / بستان |
|
|
12 | پرگل | برگ گل |
|
|
13 | پولاد | فولاد / آهن آبدیده |
|
|
14 | تهمتن | دارنده تن نیرومند و بی همتا / پهلوان |
|
|
15 | خجسته | فرخنده / مبارک / نیک |
|
|
16 | دادبه | عادل / صاحب بهترین عدل |
|
|
17 | دریا | دریا |
|
|
18 | رستا | رهنده / کامیاب / رستگار |
|
|
19 | رودابه | داده بهشت / دارای فرزند تابان |
|
|
20 | روزبه | بهروز / نیکبخت |
|
|
21 | سپیده | سحرگاه / نخستین پرتو خورشید |
|
|
22 | سمن | یاسمن / چهره سفید و لطیف |
|
|
23 | سوگند | قسم / پیمان |
|
|
24 | شیوا | فصیح / بلیغ / رسا |
|
|
25 | فرانک | پروانه |
|
|
26 | فرزانه | عاقل / حکیم / دانا |
|
|
27 | فرناز | دارای ناز زیبا / برازنده |
|
|
28 | فرنگیس | دارای گیسوان نرم و فراوان |
|
|
29 | فرهود | درست دین / راست آیین |
|
|
30 | فروتن | متواضع / افتاده |
|
|
31 | کیهان | جهان / هستی / گیتی |
|
|
32 | گلفام | به رنگ گل / گلگون |
|
|
33 | مروارید | جواهر گرانبها / سنگ قیمتی |
|
|
34 | منوچهر | بهشت روی / دارای چهره مینوی |
|
|
35 | منیژه | بانوی دوست داشتنی |
|
|
36 | مهتاب | پرتو و نور ماه |
|
|
37 | مهرآرا | آراینده مهر |
|
|
38 | مینا | آبگینه / پرنده زیبای سخنگو |
|
|
39 | هستی | وجود / زندگی / آفرینش / دارایی |
|
|
40 | همایون | خجسته / فرخنده / دارای تاثیر خوب |
|
|
41 | هنگامه | غوغا / معرکه / آشوب |
|
|
42 | هومن | اندیشه نیک / نیک منش |
|
|
واژنامه
. Evolutionary computing
2. Genetic Algorithm (GA)
3. Artificial Neural Network (ANN)
4. onomastics
5. Aryan
6. Indo-European
7. Frantz Bopp
8. Indo-German
9. morphology
10. vowel gradation / ablaut
11. Jakob Ludwig Carl Grimm
12. cross-over
13. Matlab Toolbox Ver. 7.8
14. feed-forward back-propagation
15. Levenberg-Marquardt
16. Multi-Layer Perceptron (MLP)