ენობრივ მონაცემთა კომპიუტერული დამუშავების განყოფილება – თსუ არნ. ჩიქობავას სახელობის ენათმეცნიერების ინსტიტუტი

ენობრივ მონაცემთა კომპიუტერული დამუშავების განყოფილება

განყოფილება შეიქმნა 2006 წლის ზაფხულში ორი სამეცნიერო რგოლის: დიალექტოლოგიური ატლასისა და კომპიუტერული ლინგვისტიკის ლაბორატორიების ბაზაზე. შესაბამისად, გამოიკვეთა მისი, როგორც ინსტიტუტის ერთ-ერთი მნიშვნელოვანი სტრუქტურული ერთეულის განვითარების მთავარი მიმართულებებიც: ლინგვისტურ მონაცემთა ბაზების შექმნა და კვლევის თეორიული საფუძვლების შემუშავება. განყოფილების პრიორიტეტი უახლოესი მომავლისთვის არის ქართული ენის კომპიუტერული დამუშავება, ინტერ- და მულტიდისციპლინარული კვლევებისათვის ენობრივი მასალის მომზადება და მისი ხელმისაწვდომობის უზრუნველყოფა, ტექსტების კორპუსების შექმნა და კორპუსული ლინგვისტიკის განვითარება. განყოფილების მიზანია გააერთიანოს და განავითაროს კომპიუტერული ლინგვისტიკის, სახელდობრ, ენობრივ მონაცემთა კომპიუტერული დამუშავების სფეროში არსებული ინტელექტუალური რესურსები. განყოფილება აგრძელებს ინსტიტუტში გასული საუკუნის 90-იან წლებში შემუშავებულ კურსს. შეიძლება ითქვას, რომ სწორედ ამ პერიოდში დაიწყო მზადება ენის ახალი ტექნოლოგიებით კვლევისათვის. ინსტიტუტის მაშინდელი დირექტორის ბესარიონ ჯორბენაძის უშუალო მონაწილეობითა და ხელმძღვანელობით შეიქმნა ფუნდამენტური ლექსიკონები, რომლებიც შემდგომში საფუძვლად დაედო ენის ფორმალური სისტემების შექმნას, მოდელირებას და მთელ რიგ კომპიუტერულ პროგრამებს. ეს ლექსიკონებია: ”ზმნური ფუძეების ლექსიკონი” (გ. გოგოლაშვილი, ც. კვანტალიანი, დ. შენგელია); ”სახელზმნური ფუძეების ლექსიკონი” (გ. გოგოლაშვილი, ც. კვანტალიანი, დ. შენგელია); ”ქართული ენის ფორმანტებისა და მოდალური ელემენტების ლექსიკონი” (ბ. ჯორბენაძე, მ. კობაიძე, მ. ბერიძე);

”ქართული ენის სახელური ძირების ლექსიკონი” (ბ. ჯორბენაძე, ნ. ლოლაძე, მ. კიკონიშვილი). დაწყებული იყო აგრეთვე მეგრულისა და სვანურის ფორმანტებისა და მოდალური ელემენტების ლექსიკონზე მუშაობა (ბ.ჯორბენაძე, მ.კობაიძე, მ.ბერიძე). ლექსიკონების მომზადების პარალელურად მიმდინარეობდა მონაცემთა ბაზების შექმნასა და ენის მოდელირების საკითხებზე მუშაობაც. ბატონი თედო უთურგაიძისა და მისი ჯგუფის (ლევან ჩხაიძის, მანანა თანდაშვილის, ქეთევან დათუკიშვილის, მაია მანჯგალიძის და სხვათა) მოღვაწეობამ საფუძველი დაუდო ინსტიტუტში ახალი მიმართულების ჩამოყალიბებასა და განვითარებას. 1989 წელს შეიქმნა კომპიუტერების ლაბორატორია (გამგე – ვლადიმერ კიკილაშვილი), რომლის ბაზაზეც 1995 წელს ჩამოყალიბდა კომპიუტერული ლინგვისტიკის ლაბორატორია, რომელსაც 1995-2002 წლებში ხელმძღვანელობდა მანანა თანდაშვილი, 2002-2006 წლებში კი ქეთევან დათუკიშვილი. ლაბორატორიაში მომზადდა და ჩატარდა კონფერენციები: ”ენის კონცეპტუალური და კომპიუტერული მოდელები” (1996, 1997, 1998). 2003 წლიდან კონფერენციები განახლდა სახელწოდებით: “ბუნებრივ ენათა დამუშავება (ქართული ენა და კომპიუტერული ტექნოლოგიები)” (2003, 2004, 2005, 2006, 2007, 2008).

2009 წლიდან კონფერენცია საერთაშორისო მნიშვნელობისა გახდა და იმართება წელიწადში ორჯერ. საერთაშორისო სტატუსით უკვე ოთხი კონფერენცია გაიმართა: 2009, 2011, 2013, 2015 (2015 წლიდან კონფერენციის სახელწოდება იქნება ”ენა და თანამედროვე ტექნოლოგიები”. კონფერენციის დაარსების დღიდან იბეჭდება კონფერენციის მასალების ორენოვანი კრებული. კონფერენციის სამუშაო ენებია: ქართული, ინგლისური, რუსული.

შეიძლება ითქვას, რომ ”კომპიუტერული ლინგვისტიკის ლაბორატორიის” სამეცნიერო წარსულიდან ენობრივი მონაცემების კომპიუტერული დამუშავების განყოფილებას მემკვიდრეობად მხოლოდ ეს კონფერენცია შემორჩა. სხვა პროდუქცია გადანაწილდა ინსტიტუტის სხვადასხვა განყოფილებაში.

ლინგვისტური ატლასის ლაბორატორია შეიქმნა 1991 წელს ქართველურ ენათა განყოფილების ბაზაზე და მის ძირითად ფუნქციად განისაზღვრა ქართველური ენების დიალექტების ტექსტური და ლექსიკური ბაზების მომზადება. ლაბორატორია გეგმავდა დიალექტური მასალის მოპოვებისა და დამუშავების ვრცელ და მასშტაბურ სამუშაოს. ქვეყანაში განვითარებულმა მოვლენებმა დიდი ხნით შეაფერხა დაგეგმილი საველე მუშაობა, თუმცა ლაბორატორია აგრძელებდა წინა წლების ექსპედიციებში დაგროვილი ინფორმაციის დამუშავებას და თეორიულ კვლევებს. შექმნის დღიდან (1991წ.) ლაბორატორიას ხელმძღვანელობდა მ. კობაიძე, 1995 წლიდანკი – გ. ცოცანიძე.

2004 წლიდან – ლაბორატორიის ხელმძღვანელია მ. ბერიძე. 1998 წლიდან 2006 წლამდე ლაბორატორია ასრულებდა დიალექტური ტექსტებისა და დიალექტური ლექსიკის მონაცემთა ბაზის მოსამზადებელ სამუშაოს, რომელიც ფინანსდებოდა მეცნიერებათა აკადემიის მიერ. ლაბორატორიაში მომზადდა გ. ცოცანიძის ”თუშური ლექსიკონი”; შესრულდა რამდენიმე პროექტი სხვადასხვა დონორის ფინანსური მხარდაჭერით; პირველად განხორციელდა ლინგვისტური მიზნებით მოპოვებული მასალის ინტერდისციპლინური მნიშვნელობით გააქტიურება და კვლევა:

გ. ცოცანიძე, ”თუშური ქრონიკები”, 2004წ. (თუშური ტექსტებით);

მ. ბერიძე, «პირდაპირი რეპორტაჟები წარსულიდან» – მესხეთი და მესხები 1918-1944წ) (მესხური ტექსტებით);

მ. ბერიძე , ლ. ბაკურაძე, “ეროვნული კულტურის უცნობი ფრაგმენტები – ფერეიდნული ტექსტები“ (2005–2006);

მ. ბერიძე, “XX საუკუნის ლინგვისტური პოტრტრეტი, ინგილოური სამყარო წინაპრების თვალით“ (2004).

დაიწყო მუშაობა დიალექტური ლექსიკის და კარტოგრაფირების ბაზის მოსამზადებლად. ლაბორატორიის თანამშრომლები: გ. ცოცანიძე, ნ. სურმავა, მ. ბერიძე, ლ. ბაკურაძე ჩართულები იყვნენ ფრანკფურტის გოეთეს ინსტიტუტის „ფოლკსვაგენ შტიფტუნგის“ მიერ დაფინანსებულ პროექტში „ენობრივი სიტუაცია საქართველოში“ (სამეცნიერო ხელმძღვანელი პროფ. იოსტ გიპერტი, კოორდინატორი პროფ. მანანა თანდაშვილი).

2006 წლიდან განყოფილებაში მუშავდება რუსთაველის ფონდის მიერ დაფინანსებული პროექტები:

2006 – 2008 ”საქართველოს ლინგვისტური პორტრეტი – ქართული დიალექტური ტექსტების კორპუსი (სამეცნიერო ხელმძღვანელი მ. ბერიძე).

2009 -2012 ”საქართველოს ლინგვისტური პორტრეტი – ქართული დიალექტური კორპუსი – II ეტაპი” (სამეცნიერო ხელმძღვანელი მ. ბერიძე).

2013 – 2015 ”საქართველოს ლინგვისტური პორტრეტი 3 – ქართული დიალექტური კორპუსის მორფოლოგიური ანოტირება და დიდი დიალექტური ლექსიკოგრაფიული ბაზის შექმნა”

2014-2017 ქართული საენათმეცნიერო მეტაენის კორპუსი (სამეცნიერო ხელმძღვანელი ზაალ კიკვიძე).

გარდა ამისა, განყოფილების თანამშრომლები ჩართულნი არიან სხვა პროექტებშიც.

განყოფილების თანამშრომელთა და ხელმძღვანელის უშუალო ინიციატივიათა და მონაწილეობით 2012 -2016 წლებში გაიმართა რამდენიმე სეზონური სკოლა კომპიუტერული ლინგვისტიკის მიმართულებით (ბათუმი, ბაკურიანი, თბილისი). სეზონური სკოლები ორგანიზებული იყო თსუ-ს, ბსუ-სა და ფრანკფურტის გოეთეს სახელობის უნივერსიტეტის მიერ. განყოფილება კვლავაც რჩება ამ მიმართულების სეზონური სკოლების ერთ-ერთ წამყვან ძალად.

ამჟამად განყოფილება მუშაობს ორ დიდ კორპუსზე _ ქართული დიალექტური კორპუსი და ქართული სამეცნიერო მეტაენის კორპუსი.

კორპუსები მისაწვდომია ინტერნეტსივრცეში შემდეგ მისამართებზე:

http://corpora.co/#/ _ ქართული დიალექტური კორპუსი

http://sml.corpora.co/#/ _ ქართული სამეცნიერო მეტაენის კორპუსი

განყოფილების სამუშაო პრიორიტეტი უახლოესი მომავლისთვის: 1.კომპიუტერული ლინგვისტიკა

კორპუსლინგვისტიკა

კორპუსული ლექსიკოგრაფია

კომპიუტერული დამუშავების განყოფილების ხელმძღვანელია ფილოლოგიის მეცნიერებათა კანდიდატი მარინა ბერიძე.

სამეცნიერო თანამდებობებზე არიან:

მარინა ბერიძე − მთავარი მეცნიერი თანამშრომელი, განყოფილების ხელმძღვანელი

ლიანა ლორთქიფანიძე (0.5) – მთავარი მეცნიერი თანამშრომელი

ზაალ კიკვიძე (0.5) – მთავარი მეცნიერი თანამშრომელი

ლია ბაკურაძე – უფროსი მეცნიერი თანამშრომელი

ციცინო კვანტალიანი – უფროსი მეცნიერი თანამშრომელი

რუსუდან ლანდია – მეცნიერი თანამშრომელი

მაია ბარიხაშვილი – მეცნიერი თანამშრომელი

დიანა ანფიმიადი – მეცნიერი თანამშრომელი

ელენე ნაპირელი – მეცნიერი თანამშრომელი

რუსუდან პაპიაშვილი − მეცნიერი თანამშრომელი