สาขาวิชาที่สำคัญที่สุดของภาษาศาสตร์คอมพิวเตอร์คือการพัฒนา ภาษาศาสตร์เชิงคำนวณเป็นวินัยทางภาษาประยุกต์

โนโวเซโลวา อิรินา

เหตุใดการแปลด้วยคอมพิวเตอร์ทั้งหมดจึงไม่สมบูรณ์แบบ อะไรเป็นตัวกำหนดคุณภาพของการแปล? ผู้เขียนมีความรู้เพียงพอที่จะนำไปใช้และเสริมที่มีอยู่หรือไม่ พจนานุกรมคอมพิวเตอร์- ผู้เขียนพยายามหาคำตอบสำหรับคำถามเหล่านี้ในงานของเธอ รายงานตามหัวข้อ - ในไฟล์แนบ product กิจกรรมโครงการ- บนพอร์ทัลโรงเรียน

ดาวน์โหลด:

ดูตัวอย่าง:

เปิด

ระหว่างประเทศ

วิจัย

การประชุม

นักเรียนมัธยมปลายและนักเรียน

"การศึกษา. ศาสตร์. วิชาชีพ"

หมวด “ภาษาต่างประเทศ”

« ภาษาศาสตร์เชิงคำนวณ»

ดำเนินการโดย Novoselova Irina

โรงยิมสถานศึกษาเทศบาลหมายเลข 39 “คลาสสิก”

คลาส 10 "B"

ผู้บังคับบัญชาด้านวิทยาศาสตร์:

Chigrinyova Tatyana Dmitrievna,

ครู ภาษาอังกฤษหมวดหมู่สูงสุด

โอซิโปวา สเวตลานา เลโอนิดอฟนา

ครูวิทยาการคอมพิวเตอร์ประเภทสูงสุด

โอตราดนี

2011

  1. คำศัพท์ภาษาอังกฤษในด้าน ICT

ดูบนเว็บไซต์

  1. การทดลองของฉัน

ภารกิจอย่างหนึ่งคือทำการทดลองซึ่งประกอบด้วยการเปรียบเทียบความสามารถของคอมพิวเตอร์ต่างๆ พจนานุกรมภาษาศาสตร์ตามการแปลโดยประมาณที่แม่นยำยิ่งขึ้นจากภาษาอังกฤษเป็นภาษารัสเซีย

ไซต์ต่อไปนี้ได้รับการทดสอบ:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

เพื่อความบริสุทธิ์ของการทดลอง ผมจึงเลือกประโยคที่มี องศาที่แตกต่างกันความยากลำบากในการแปลโวหาร วลีที่ป้อนมีดังนี้:

1. รายงานฉบับใหม่ระบุว่าวัยรุ่นในปัจจุบันเห็นแก่ตัวมากกว่าเมื่อ 20 ปีที่แล้ว

(รายงานใหม่ระบุว่า วัยรุ่นยุคใหม่เห็นแก่ตัวมากกว่าเมื่อ 20 ปีที่แล้ว)

2. เธอเชื่อวิดีโอเกม และอินเทอร์เน็ตเป็นสาเหตุที่ใหญ่ที่สุดของความเห็นแก่ตัวที่เพิ่มขึ้นนี้

(เธอเชื่อว่าวิดีโอเกมและอินเทอร์เน็ตเป็นส่วนใหญ่ เหตุผลสำคัญเพื่อความเห็นแก่ตัวที่เพิ่มขึ้นนี้)

3. พวกเขาต้องการที่จะดีกว่าคนอื่น

(พวกเขาต้องการจะดีกว่าที่เหลือ)

4. เธอพบว่าการเพิ่มขึ้นอย่างมากเริ่มต้นขึ้น จากปี 2000 ซึ่งเป็นช่วงที่วิดีโอเกมแนวรุนแรงได้รับความนิยมอย่างมาก

(เธอพบว่า. การเติบโตที่ดีซึ่งเริ่มขึ้นในปี พ.ศ. 2543 เมื่อ วิดีโอที่มีความรุนแรงเกมได้รับความนิยมอย่างมาก)

หลังจากแปลประโยคเหล่านี้บนเว็บไซต์นักแปลออนไลน์ ฉันได้ผลลัพธ์ดังต่อไปนี้:

  1. http://translate.eu/

งานหลักสูตร

ในสาขาวิชา "สารสนเทศ"

ในหัวข้อ: “ภาษาศาสตร์คอมพิวเตอร์”


การแนะนำ

1. สถานที่และบทบาทของภาษาศาสตร์คอมพิวเตอร์ในการวิจัยทางภาษาศาสตร์

2. อินเทอร์เฟซที่ทันสมัยสำหรับภาษาศาสตร์เชิงคำนวณ

บทสรุป

วรรณกรรม


การแนะนำ

ในชีวิต สังคมสมัยใหม่ บทบาทที่สำคัญเทคโนโลยีสารสนเทศอัตโนมัติมีบทบาท เมื่อเวลาผ่านไป ความสำคัญก็เพิ่มขึ้นอย่างต่อเนื่อง แต่การพัฒนา เทคโนโลยีสารสนเทศเกิดขึ้นไม่สม่ำเสมอมาก: ถ้า ระดับทันสมัย เทคโนโลยีคอมพิวเตอร์และวิธีการสื่อสารนั้นน่าทึ่งมาก ในด้านการประมวลผลข้อมูลเชิงความหมาย ความสำเร็จนั้นเรียบง่ายกว่ามาก ความสำเร็จเหล่านี้ประการแรกขึ้นอยู่กับความสำเร็จในการศึกษากระบวนการคิดของมนุษย์ การสื่อสารด้วยวาจาระหว่างผู้คนกับความสามารถในการจำลองกระบวนการเหล่านี้บนคอมพิวเตอร์

เมื่อไร เรากำลังพูดถึงเกี่ยวกับการสร้างเทคโนโลยีสารสนเทศที่มีแนวโน้มปัญหาของการประมวลผลข้อมูลที่เป็นข้อความโดยอัตโนมัติที่นำเสนอในภาษาธรรมชาติมาก่อน สิ่งนี้ถูกกำหนดโดยความจริงที่ว่าความคิดของบุคคลนั้นเชื่อมโยงอย่างใกล้ชิดกับภาษาของเขา นอกจากนี้ ภาษาธรรมชาติยังเป็นเครื่องมือในการคิดอีกด้วย เขายัง การรักษาแบบสากลการสื่อสารระหว่างผู้คน – วิธีการรับรู้ การสะสม การจัดเก็บ การประมวลผล และการส่งข้อมูล ปัญหาการใช้งาน ภาษาธรรมชาติศาสตร์แห่งภาษาศาสตร์คอมพิวเตอร์เกี่ยวข้องกับระบบประมวลผลข้อมูลอัตโนมัติ วิทยาศาสตร์นี้เกิดขึ้นค่อนข้างเร็ว ๆ นี้ - เมื่อถึงช่วงเปลี่ยนทศวรรษที่ห้าสิบและหกสิบของศตวรรษที่ผ่านมา กว่าครึ่งศตวรรษที่ผ่านมามีนัยสำคัญทางวิทยาศาสตร์และ ผลลัพธ์เชิงปฏิบัติ: ระบบการแปลข้อความด้วยเครื่องจากภาษาธรรมชาติหนึ่งไปยังอีกภาษาหนึ่ง, ระบบค้นหาข้อมูลในข้อความอัตโนมัติ, ระบบ การวิเคราะห์อัตโนมัติและการสังเคราะห์ คำพูดด้วยวาจาและอื่น ๆ อีกมากมาย งานนี้ทุ่มเทให้กับการสร้างอินเทอร์เฟซคอมพิวเตอร์ที่ดีที่สุดโดยใช้ภาษาศาสตร์คอมพิวเตอร์เมื่อดำเนินการ การวิจัยทางภาษา.


ใน โลกสมัยใหม่ภาษาศาสตร์เชิงคอมพิวเตอร์ถูกนำมาใช้มากขึ้นในการศึกษาภาษาศาสตร์ต่างๆ

ภาษาศาสตร์เชิงคำนวณเป็นสาขาความรู้ที่เกี่ยวข้องกับการแก้ปัญหาการประมวลผลข้อมูลโดยอัตโนมัติที่นำเสนอในภาษาธรรมชาติ เซ็นทรัล ปัญหาทางวิทยาศาสตร์ภาษาศาสตร์คอมพิวเตอร์เป็นปัญหาในการสร้างแบบจำลองกระบวนการทำความเข้าใจความหมายของข้อความ (การเปลี่ยนจากข้อความไปเป็นการแสดงความหมายอย่างเป็นทางการ) และปัญหาการสังเคราะห์คำพูด (การเปลี่ยนจากการแสดงความหมายอย่างเป็นทางการไปเป็นข้อความในภาษาธรรมชาติ) ปัญหาเหล่านี้เกิดขึ้นเมื่อทำการแก้ไขหลายประการ ปัญหาที่ประยุกต์และโดยเฉพาะอย่างยิ่งงานการตรวจจับและแก้ไขข้อผิดพลาดโดยอัตโนมัติเมื่อป้อนข้อความลงในคอมพิวเตอร์ การวิเคราะห์และการสังเคราะห์คำพูดอัตโนมัติ การแปลอัตโนมัติข้อความจากภาษาหนึ่งไปยังอีกภาษาหนึ่ง การสื่อสารกับคอมพิวเตอร์ในภาษาธรรมชาติ การจำแนกประเภทและการจัดทำดัชนีอัตโนมัติ เอกสารข้อความ, นามธรรมอัตโนมัติ, ค้นหาเอกสารในฐานข้อมูลข้อความแบบเต็ม

เครื่องมือทางภาษาที่สร้างขึ้นและใช้งานในภาษาศาสตร์เชิงคำนวณสามารถแบ่งออกเป็นสองส่วน: ส่วนประกาศและขั้นตอน ส่วนที่ประกาศประกอบด้วยพจนานุกรมหน่วยภาษาและคำพูด ข้อความและ หลากหลายชนิดตารางไวยากรณ์ไปยังส่วนขั้นตอน - วิธีการจัดการหน่วยของภาษาและคำพูด ข้อความและ ตารางไวยากรณ์- อินเทอร์เฟซคอมพิวเตอร์หมายถึงส่วนขั้นตอนของภาษาศาสตร์เชิงคำนวณ

ความสำเร็จในการแก้ปัญหาประยุกต์ของภาษาศาสตร์คอมพิวเตอร์นั้นขึ้นอยู่กับความสมบูรณ์และความถูกต้องของการเป็นตัวแทนของวิธีการประกาศในหน่วยความจำคอมพิวเตอร์และคุณภาพของวิธีขั้นตอน จนถึงปัจจุบันยังไม่บรรลุระดับที่ต้องการในการแก้ปัญหาเหล่านี้แม้ว่าจะมีการดำเนินการในด้านภาษาศาสตร์คอมพิวเตอร์ทั้งหมดก็ตาม ประเทศที่พัฒนาแล้วโลก (รัสเซีย, สหรัฐอเมริกา, อังกฤษ, ฝรั่งเศส, เยอรมนี, ญี่ปุ่น ฯลฯ )

อย่างไรก็ตามสามารถสังเกตได้ว่ามีความจริงจังทางวิทยาศาสตร์และ ความสำเร็จในทางปฏิบัติสาขาวิชาภาษาศาสตร์คอมพิวเตอร์ ดังนั้น ในหลายประเทศ (รัสเซีย สหรัฐอเมริกา ญี่ปุ่น ฯลฯ) จึงมีการสร้างระบบทดลองและอุตสาหกรรมสำหรับการแปลข้อความจากภาษาหนึ่งไปอีกภาษาหนึ่งด้วยเครื่อง จำนวน ระบบการทดลองการสื่อสารกับคอมพิวเตอร์ในภาษาธรรมชาติ งานกำลังดำเนินการเพื่อสร้างธนาคารข้อมูลคำศัพท์ อรรถาภิธาน พจนานุกรมเครื่องสองภาษาและหลายภาษา (รัสเซีย สหรัฐอเมริกา เยอรมนี ฝรั่งเศส ฯลฯ ) ระบบสำหรับการวิเคราะห์อัตโนมัติและการสังเคราะห์คำพูดด้วยวาจากำลังถูกสร้างขึ้น (รัสเซีย , สหรัฐอเมริกา, ญี่ปุ่น และอื่นๆ) อยู่ระหว่างการวิจัยในด้านการสร้างแบบจำลองภาษาธรรมชาติ

ปัญหาด้านระเบียบวิธีที่สำคัญของภาษาศาสตร์คอมพิวเตอร์ประยุกต์คือการประเมินความสัมพันธ์ที่จำเป็นระหว่างองค์ประกอบที่ประกาศและขั้นตอนของระบบประมวลผลข้อมูลข้อความอัตโนมัติอย่างถูกต้อง สิ่งที่ควรให้ความสำคัญ: ขั้นตอนการคำนวณอันทรงพลังซึ่งใช้ระบบพจนานุกรมที่ค่อนข้างเล็กพร้อมข้อมูลทางไวยากรณ์และความหมายที่สมบูรณ์ หรือองค์ประกอบการประกาศอันทรงพลังที่มีความเรียบง่าย อินเทอร์เฟซคอมพิวเตอร์- นักวิทยาศาสตร์ส่วนใหญ่เชื่อว่าวิธีที่สองจะดีกว่า มันจะนำไปสู่การบรรลุเป้าหมายในทางปฏิบัติได้เร็วขึ้น เนื่องจากจะมีทางตันน้อยลงและมีอุปสรรคยากๆ ที่จะเอาชนะ และที่นี่ คุณจะสามารถใช้คอมพิวเตอร์ในวงกว้างขึ้นเพื่อทำการวิจัยและพัฒนาโดยอัตโนมัติ

ความจำเป็นในการระดมความพยายามประการแรกในการพัฒนาองค์ประกอบที่ประกาศของระบบประมวลผลข้อมูลข้อความอัตโนมัติได้รับการยืนยันจากประสบการณ์ครึ่งศตวรรษในการพัฒนาภาษาศาสตร์คอมพิวเตอร์ ท้ายที่สุดแล้ว แม้ว่าวิทยาศาสตร์นี้จะประสบความสำเร็จอย่างปฏิเสธไม่ได้ แต่ความหลงใหลในขั้นตอนอัลกอริทึมก็ไม่ได้นำมาซึ่งความสำเร็จที่คาดหวัง มีความผิดหวังในความสามารถของวิธีการดำเนินการด้วยซ้ำ

จากที่กล่าวมาข้างต้นดูเหมือนว่าจะมีแนวโน้มที่จะพัฒนาเส้นทางการพัฒนาภาษาศาสตร์คอมพิวเตอร์เมื่อความพยายามหลักจะมุ่งเป้าไปที่การสร้างพจนานุกรมที่มีประสิทธิภาพของหน่วยภาษาและคำพูดศึกษาโครงสร้างทางความหมายและวากยสัมพันธ์และสร้างขั้นตอนพื้นฐานสำหรับทางสัณฐานวิทยา การวิเคราะห์เชิงอรรถ-วากยสัมพันธ์และแนวคิดและการสังเคราะห์ข้อความ ซึ่งจะทำให้เราตัดสินใจได้ในอนาคต หลากหลายปัญหาที่นำไปใช้

ประการแรกภาษาศาสตร์คอมพิวเตอร์ต้องเผชิญกับงานสนับสนุนทางภาษาสำหรับกระบวนการรวบรวม สะสม ประมวลผล และเรียกค้นข้อมูล สิ่งสำคัญที่สุดคือ:

1. ระบบอัตโนมัติของการรวบรวมและการประมวลผลภาษาของพจนานุกรมเครื่องจักร

2. ระบบอัตโนมัติของกระบวนการตรวจจับและแก้ไขข้อผิดพลาดเมื่อป้อนข้อความลงในคอมพิวเตอร์

3. การจัดทำดัชนีเอกสารและการร้องขอข้อมูลอัตโนมัติ

4. การจำแนกประเภทและการสรุปเอกสารโดยอัตโนมัติ

5. การสนับสนุนทางภาษาสำหรับกระบวนการดึงข้อมูลในฐานข้อมูลภาษาเดียวและหลายภาษา

6. การแปลข้อความด้วยเครื่องจากภาษาธรรมชาติหนึ่งไปยังอีกภาษาหนึ่ง

7. การสร้างตัวประมวลผลทางภาษาที่รับประกันการสื่อสารระหว่างผู้ใช้และระบบอัจฉริยะอัตโนมัติ ระบบสารสนเทศ(โดยเฉพาะกับ ระบบผู้เชี่ยวชาญ) ในภาษาธรรมชาติหรือในภาษาที่ใกล้เคียงกับธรรมชาติ

8. ดึงข้อมูลข้อเท็จจริงจากข้อความที่ไม่เป็นทางการ

ให้เราดูรายละเอียดเกี่ยวกับปัญหาที่เกี่ยวข้องกับหัวข้อการวิจัยมากที่สุด

ใน กิจกรรมภาคปฏิบัติ ศูนย์ข้อมูลไม่จำเป็นต้องแก้ไขปัญหาการตรวจจับอัตโนมัติและแก้ไขข้อผิดพลาดในข้อความเมื่อป้อนลงในคอมพิวเตอร์ นี้ งานที่ซับซ้อนสามารถแบ่งออกเป็นสามงานตามเงื่อนไข - งานการควบคุมข้อความแบบออร์โธกราฟิกวากยสัมพันธ์และความหมาย ประการแรกสามารถแก้ไขได้โดยใช้ขั้นตอนการวิเคราะห์ทางสัณฐานวิทยาซึ่งใช้พจนานุกรมเครื่องอ้างอิงที่มีประสิทธิภาพพอสมควรของก้านคำ ในกระบวนการควบคุมการสะกด คำในข้อความจะต้องได้รับการวิเคราะห์ทางสัณฐานวิทยา และหากระบุฐานด้วยฐานของพจนานุกรมอ้างอิง ก็จะถือว่าคำนั้นถูกต้อง หากไม่ได้ระบุบุคคลนั้นจะถูกนำเสนอพร้อมกับไมโครคอนเท็กซ์ให้บุคคลดู บุคคลตรวจพบและแก้ไขคำที่บิดเบี้ยวและคำที่เกี่ยวข้อง ระบบซอฟต์แวร์ทำการแก้ไขเหล่านี้กับข้อความที่แก้ไขแล้ว

หน้าที่ของการควบคุมข้อความทางวากยสัมพันธ์เพื่อตรวจจับข้อผิดพลาดเป็นสิ่งสำคัญ งานที่ยากขึ้นการควบคุมการสะกดคำ ประการแรก เนื่องจากรวมงานการควบคุมการสะกดเป็นองค์ประกอบบังคับ และประการที่สอง เนื่องจากปัญหา การแยกวิเคราะห์ข้อความที่ไม่เป็นทางการใน อย่างเต็มที่ยังไม่ได้ตัดสินใจ อย่างไรก็ตาม การควบคุมข้อความทางวากยสัมพันธ์บางส่วนค่อนข้างเป็นไปได้ ที่นี่คุณสามารถทำได้สองวิธี: รวบรวมพจนานุกรมเครื่องที่เป็นตัวแทนของโครงสร้างวากยสัมพันธ์อ้างอิงอย่างเป็นธรรมและเปรียบเทียบโครงสร้างวากยสัมพันธ์ของข้อความที่วิเคราะห์กับพวกเขา หรือพัฒนา ระบบที่ซับซ้อนกฎสำหรับการตรวจสอบความสอดคล้องทางไวยากรณ์ขององค์ประกอบข้อความ เส้นทางแรกดูเหมือนมีแนวโน้มมากขึ้นสำหรับเราแม้ว่าแน่นอนว่าจะไม่รวมความเป็นไปได้ในการใช้องค์ประกอบของเส้นทางที่สองก็ตาม โครงสร้างวากยสัมพันธ์ควรอธิบายข้อความในแง่ของคลาสไวยากรณ์ของคำ (แม่นยำยิ่งขึ้นในรูปแบบของลำดับของชุด ข้อมูลไวยากรณ์เป็นคำพูด)

งานควบคุมความหมายของข้อความเพื่อตรวจจับ ข้อผิดพลาดทางความหมายควรจัดเป็นงานปัญญาประดิษฐ์ สามารถแก้ไขได้อย่างสมบูรณ์บนพื้นฐานของการสร้างแบบจำลองกระบวนการคิดของมนุษย์เท่านั้น ในกรณีนี้ เห็นได้ชัดว่าจำเป็นต้องสร้างฐานความรู้สารานุกรมที่มีประสิทธิภาพและเครื่องมือซอฟต์แวร์สำหรับการจัดการความรู้ อย่างไรก็ตามสำหรับข้อจำกัด สาขาวิชาและสำหรับข้อมูลที่เป็นทางการ งานนี้สามารถแก้ไขได้อย่างสมบูรณ์ มันควรจะถูกวางและแก้ไขในฐานะปัญหาของการควบคุมข้อความทางความหมายและวากยสัมพันธ์

ภาษาศาสตร์คอมพิวเตอร์ (calque จากภาษาศาสตร์คอมพิวเตอร์ภาษาอังกฤษ) หนึ่งในสาขาวิชาของภาษาศาสตร์ประยุกต์ซึ่งโปรแกรมคอมพิวเตอร์เทคโนโลยีคอมพิวเตอร์สำหรับจัดระเบียบและประมวลผลข้อมูลได้รับการพัฒนาและใช้ในการศึกษาภาษาและสร้างแบบจำลองการทำงานของภาษาในสภาวะสถานการณ์และปัญหาบางประการ พื้นที่ ในทางกลับกันนี่คือขอบเขตการใช้งาน โมเดลคอมพิวเตอร์ภาษาในภาษาศาสตร์และสาขาวิชาที่เกี่ยวข้อง พิเศษแค่ไหน ทิศทางทางวิทยาศาสตร์ภาษาศาสตร์เชิงคำนวณได้เข้ามามีบทบาท การศึกษาของยุโรปในทศวรรษ 1960 เนื่องจากคำคุณศัพท์ภาษาอังกฤษเชิงคำนวณสามารถแปลได้ว่า "เชิงคำนวณ" คำว่า "ภาษาศาสตร์เชิงคำนวณ" จึงพบได้ในวรรณคดีเช่นกัน แต่ใน วิทยาศาสตร์แห่งชาติมันได้รับความหมายที่แคบลงโดยเข้าใกล้แนวคิดของ "ภาษาศาสตร์เชิงปริมาณ"

คำว่า "ภาษาศาสตร์เชิงปริมาณ" มักเรียกกันว่าภาษาศาสตร์เชิงคำนวณ ซึ่งเป็นลักษณะทิศทางแบบสหวิทยาการในการวิจัยประยุกต์ โดยใช้วิธีการวิเคราะห์เชิงปริมาณหรือทางสถิติเป็นเครื่องมือหลักในการศึกษาภาษาและคำพูด บางครั้งภาษาศาสตร์เชิงปริมาณ (หรือเชิงปริมาณ) จะตรงกันข้ามกับภาษาศาสตร์เชิงรวม ในระยะหลัง บทบาทที่โดดเด่นถูกครอบครองโดย “ไม่เชิงปริมาณ” เครื่องมือทางคณิตศาสตร์- ทฤษฎีเซต ตรรกะทางคณิตศาสตร์ทฤษฎีอัลกอริธึม ฯลฯ จากมุมมองทางทฤษฎีการใช้งาน วิธีการทางสถิติในภาษาศาสตร์ทำให้สามารถเสริมแบบจำลองโครงสร้างของภาษาด้วยองค์ประกอบความน่าจะเป็นได้ นั่นคือ การสร้างแบบจำลองความน่าจะเป็นเชิงโครงสร้างทางทฤษฎีที่มีศักยภาพในการอธิบายที่สำคัญ ใน พื้นที่ใช้งานก่อนอื่นเลย การแสดงภาษาศาสตร์เชิงปริมาณโดยใช้ชิ้นส่วนของแบบจำลองนี้ ซึ่งใช้สำหรับการตรวจสอบการทำงานของภาษา การถอดรหัสข้อความที่เข้ารหัส การอนุญาต/การระบุแหล่งที่มาของข้อความ ฯลฯ

คำว่า "ภาษาศาสตร์คอมพิวเตอร์" และปัญหาของพื้นที่นี้มักเกี่ยวข้องกับการสื่อสารแบบจำลอง และเหนือสิ่งอื่นใด เพื่อให้แน่ใจว่ามีปฏิสัมพันธ์ของมนุษย์กับคอมพิวเตอร์ในภาษาธรรมชาติหรือภาษาธรรมชาติที่จำกัด (เพื่อจุดประสงค์นี้ ระบบพิเศษการประมวลผลภาษาธรรมชาติ) ตลอดจนทฤษฎีและการปฏิบัติของระบบสืบค้นข้อมูล (IRS) การทำให้มั่นใจว่าการสื่อสารของมนุษย์กับคอมพิวเตอร์ในภาษาธรรมชาติบางครั้งเรียกว่า "การประมวลผลภาษาธรรมชาติ" (แปลจากภาษาอังกฤษของคำว่า Natural Language Processing) ภาษาศาสตร์คอมพิวเตอร์สาขานี้เกิดขึ้นในช่วงปลายทศวรรษ 1960 ในต่างประเทศและพัฒนาภายใต้กรอบของระเบียบวินัยทางวิทยาศาสตร์และเทคโนโลยีที่เรียกว่าปัญญาประดิษฐ์ (ทำงานโดย R. Schenk, M. Lebowitz, T. Winograd ฯลฯ ) ตามความหมาย วลี "การประมวลผลภาษาธรรมชาติ" ควรครอบคลุมทุกด้านที่คอมพิวเตอร์ใช้ในการประมวลผลข้อมูลภาษา อย่างไรก็ตาม ในทางปฏิบัติ มีความเข้าใจที่แคบลงเกี่ยวกับคำนี้ นั่นคือการพัฒนาวิธีการ เทคโนโลยี และระบบเฉพาะที่รับประกันการสื่อสารของมนุษย์กับคอมพิวเตอร์ในภาษาธรรมชาติหรือภาษาธรรมชาติที่จำกัด

ภาษาศาสตร์คอมพิวเตอร์อาจรวมถึงงานด้านการสร้างระบบไฮเปอร์เท็กซ์ด้วยในระดับหนึ่ง วิธีพิเศษการจัดระเบียบข้อความและวิธีพื้นฐาน รูปลักษณ์ใหม่ข้อความ ซึ่งแตกต่างในคุณสมบัติหลายประการกับข้อความธรรมดาที่เกิดขึ้นในประเพณีการพิมพ์ของกูเทนแบร์ก (ดูกูเทนแบร์ก)

ความสามารถของภาษาศาสตร์เชิงคำนวณยังรวมถึงการแปลอัตโนมัติด้วย

ภายในกรอบของภาษาศาสตร์คอมพิวเตอร์ทิศทางที่ค่อนข้างใหม่ได้เกิดขึ้นโดยมีการพัฒนาอย่างแข็งขันตั้งแต่ทศวรรษ 1980-90 - ภาษาศาสตร์คลังข้อมูลโดยที่ หลักการทั่วไปการสร้างคลังข้อมูลทางภาษา (โดยเฉพาะคลังข้อความ) โดยใช้สมัยใหม่ เทคโนโลยีคอมพิวเตอร์- Text Corpora คือคอลเลกชันของข้อความที่คัดสรรมาเป็นพิเศษจากหนังสือ นิตยสาร หนังสือพิมพ์ ฯลฯ ซึ่งถ่ายโอนไปยังสื่อคอมพิวเตอร์และมีไว้สำหรับการประมวลผลอัตโนมัติ หนึ่งในคลังข้อความแรกๆ ถูกสร้างขึ้นเพื่อ เวอร์ชันอเมริกันภาษาอังกฤษที่ Brown University (หรือที่เรียกว่า Brown Corps) ในปี 1962-63 ภายใต้การนำของ W. Francis ในรัสเซีย ตั้งแต่ต้นทศวรรษ 2000 สถาบันภาษารัสเซีย Vinogradov ของ Russian Academy of Sciences ได้พัฒนา National Corpus of the Russian Language ซึ่งประกอบด้วยตัวอย่างที่เป็นตัวแทนของข้อความภาษารัสเซียซึ่งมีปริมาณการใช้คำประมาณ 100 ล้านคำ นอกเหนือจากการสร้างคลังข้อมูลจริงแล้ว ภาษาศาสตร์คลังข้อมูลยังมีส่วนร่วมในการสร้างเครื่องมือคอมพิวเตอร์ ( โปรแกรมคอมพิวเตอร์) ออกแบบมาเพื่อดึงข้อมูลที่หลากหลายจากคลังข้อความ จากมุมมองของผู้ใช้ ข้อความ corpora อยู่ภายใต้ข้อกำหนดด้านความเป็นตัวแทน ความสมบูรณ์ และความประหยัด

ภาษาศาสตร์คอมพิวเตอร์กำลังพัฒนาอย่างแข็งขันทั้งในรัสเซียและต่างประเทศ กระแสของสิ่งพิมพ์ในพื้นที่นี้มีขนาดใหญ่มาก นอกเหนือจากการรวบรวมเนื้อหาเฉพาะเรื่องแล้ว วารสาร Computational Linguistics ยังได้รับการตีพิมพ์รายไตรมาสในสหรัฐอเมริกาตั้งแต่ปี 1984 งานด้านองค์กรและวิทยาศาสตร์จำนวนมากดำเนินการโดยสมาคมภาษาศาสตร์คอมพิวเตอร์ซึ่งมี โครงสร้างระดับภูมิภาคทั่วโลก (โดยเฉพาะสาขายุโรป) การประชุมนานาชาติของ COLINT จะจัดขึ้นทุก ๆ สองปี (ในปี พ.ศ. 2551 การประชุมจัดขึ้นที่เมืองแมนเชสเตอร์) ทิศทางหลักของภาษาศาสตร์คอมพิวเตอร์จะมีการหารือในการประชุมนานาชาติประจำปี "บทสนทนา" ซึ่งจัดโดยสถาบันวิจัยปัญญาประดิษฐ์แห่งรัสเซียคณะอักษรศาสตร์มหาวิทยาลัยแห่งรัฐมอสโกยานเดกซ์และองค์กรอื่น ๆ อีกจำนวนหนึ่ง ประเด็นที่เกี่ยวข้องก็มีการนำเสนออย่างกว้างขวางเช่นกัน การประชุมระดับนานาชาติโดย ปัญญาประดิษฐ์ระดับที่แตกต่างกัน

แปลจากภาษาอังกฤษ: Zvegintsev V. A. ภาษาศาสตร์เชิงทฤษฎีและประยุกต์ ม. 2511; Piotrovsky R.G., Bektaev K.B., Piotrovskaya A.A. ภาษาศาสตร์เชิงคณิตศาสตร์- ม. 2520; Gorodetsky B.Yu. ปัญหาปัจจุบันภาษาศาสตร์ประยุกต์ // ใหม่ในสาขาภาษาศาสตร์ต่างประเทศ. ม., 2526. ฉบับที่. 12; Kibrik A.E. ภาษาศาสตร์ประยุกต์ // Kibrik A.E. บทความทั่วไปและ ปัญหาที่นำไปใช้ภาษาศาสตร์. ม., 1992; Kennedy G. ความรู้เบื้องต้นเกี่ยวกับภาษาศาสตร์คลังข้อมูล ล., 1998; Bolshakov I.A. , Gelbukh A. ภาษาศาสตร์เชิงคำนวณ: แบบจำลองทรัพยากรแอปพลิเคชัน เมค., 2004; คลังข้อมูลแห่งชาติของภาษารัสเซีย: 2546-2548 ม. 2548; Baranov A. N. ภาษาศาสตร์ประยุกต์เบื้องต้น ฉบับที่ 3 ม. 2550; ภาษาศาสตร์คอมพิวเตอร์และเทคโนโลยีทางปัญญา ม., 2551. ฉบับที่. 7.

ที่ภาควิชาอักษรศาสตร์ มัธยมปลายเศรษฐกิจใหม่กำลังถูกเปิดตัว โปรแกรมปริญญาโททุ่มเทให้กับภาษาศาสตร์คอมพิวเตอร์: ยินดีต้อนรับผู้สมัครที่มีพื้นฐานด้านมนุษยธรรมและคณิตศาสตร์ การศึกษาขั้นพื้นฐานและทุกท่านที่สนใจแก้ปัญหาในสาขาวิชาวิทยาศาสตร์ที่มีแนวโน้มดีที่สุดสาขาหนึ่ง ผู้อำนวยการของบริษัท Anastasia Bonch-Osmolovskaya บอกกับนักทฤษฎีและผู้ปฏิบัติงานว่าภาษาศาสตร์เชิงคำนวณคืออะไร ทำไมหุ่นยนต์จึงไม่เข้ามาแทนที่มนุษย์ และสิ่งที่พวกเขาจะสอนในโปรแกรมปริญญาโท HSE ในด้านภาษาศาสตร์เชิงคำนวณคืออะไร

โปรแกรมนี้เกือบจะเป็นโปรแกรมเดียวในรัสเซีย คุณเรียนที่ไหน?

ฉันเรียนที่มหาวิทยาลัยแห่งรัฐมอสโกในภาควิชาภาษาศาสตร์เชิงทฤษฎีและประยุกต์ คณะอักษรศาสตร์- ฉันไม่ได้ไปที่นั่นทันที ตอนแรกฉันเข้าแผนกรัสเซีย แต่แล้วฉันก็สนใจภาษาศาสตร์อย่างจริงจัง และบรรยากาศที่ยังคงอยู่ในแผนกนี้ดึงดูดฉันจนทุกวันนี้ สิ่งที่สำคัญที่สุดที่มีอยู่ การติดต่อที่ดีระหว่างครูกับนักเรียนและความสนใจร่วมกัน

เมื่อฉันมีลูกและต้องการหาเลี้ยงชีพ ฉันเข้าศึกษาสาขาภาษาศาสตร์เชิงพาณิชย์ ในปี พ.ศ. 2548 ยังไม่ชัดเจนว่ากิจกรรมดังกล่าวเป็นอย่างไร ฉันทำงานในบริษัทภาษาต่างๆ: ฉันเริ่มต้นด้วยบริษัทเล็กๆ ที่เว็บไซต์ Public.ru - นี่คือไลบรารีสื่อประเภทหนึ่งที่ฉันเริ่มทำงานเกี่ยวกับเทคโนโลยีทางภาษา จากนั้นฉันก็ทำงานที่ Rosnanotech เป็นเวลาหนึ่งปีซึ่งมีไอเดียที่ต้องทำ พอร์ทัลการวิเคราะห์เพื่อให้ข้อมูลในนั้นได้รับการจัดโครงสร้างโดยอัตโนมัติ จากนั้นฉันก็เป็นหัวหน้าแผนกภาษาศาสตร์ที่ บริษัท Avicomp ซึ่งเป็นการผลิตที่จริงจังในด้านภาษาศาสตร์คอมพิวเตอร์และเทคโนโลยีความหมาย ในเวลาเดียวกัน ฉันสอนหลักสูตรภาษาศาสตร์คอมพิวเตอร์ที่ Moscow State University และพยายามทำให้ทันสมัยยิ่งขึ้น

แหล่งข้อมูลสองแห่งสำหรับนักภาษาศาสตร์: - ไซต์ที่สร้างขึ้นโดยนักภาษาศาสตร์เพื่อการวิจัยทางวิทยาศาสตร์และประยุกต์ที่เกี่ยวข้องกับภาษารัสเซีย นี่คือรูปแบบของภาษารัสเซียที่นำเสนอโดยใช้ข้อความจำนวนมากจากประเภทและช่วงเวลาที่แตกต่างกัน ข้อความมีการติดตั้งมาร์กอัปทางภาษาซึ่งคุณสามารถรับข้อมูลเกี่ยวกับความถี่ของปรากฏการณ์ทางภาษาบางอย่างได้ Wordnet เป็นฐานข้อมูลคำศัพท์ขนาดใหญ่ของภาษาอังกฤษ แนวคิดหลัก Wordnet - เพื่อเชื่อมต่อไม่ใช่คำ แต่เชื่อมโยงความหมายเข้ากับเครือข่ายขนาดใหญ่เดียว Wordnet สามารถดาวน์โหลดและใช้สำหรับโครงการของคุณเองได้

ภาษาศาสตร์เชิงคำนวณทำหน้าที่อะไร?

นี่เป็นสาขาสหวิทยาการมากที่สุด สิ่งที่สำคัญที่สุดคือการทำความเข้าใจว่าเกิดอะไรขึ้น โลกอิเล็กทรอนิกส์และใครจะช่วยคุณทำสิ่งที่เฉพาะเจาะจง

เราถูกรายล้อมไปด้วยอย่างมาก จำนวนมากข้อมูลดิจิทัล มีโครงการธุรกิจมากมาย ความสำเร็จขึ้นอยู่กับการประมวลผลข้อมูล โครงการเหล่านี้อาจเกี่ยวข้องกับสาขาการตลาด การเมือง เศรษฐศาสตร์ และอื่นๆ และเป็นสิ่งสำคัญมากที่จะต้องสามารถจัดการข้อมูลนี้ได้อย่างมีประสิทธิภาพ - สิ่งสำคัญไม่ใช่แค่ความเร็วของการประมวลผลข้อมูลเท่านั้น แต่ยังรวมถึงความง่ายในการรับข้อมูลที่คุณต้องการหลังจากกรองสัญญาณรบกวนแล้ว และสร้างข้อมูลที่สมบูรณ์ รูปภาพจากมัน

ก่อนหน้านี้ แนวคิดระดับโลกบางประการเกี่ยวข้องกับภาษาศาสตร์คอมพิวเตอร์ เช่น ผู้คนคิดว่าการแปลด้วยเครื่องจะเข้ามาแทนที่การแปลโดยมนุษย์ หุ่นยนต์จะทำงานแทนมนุษย์ แต่ตอนนี้ดูเหมือนเป็นยูโทเปียและมีการใช้เครื่องแปลภาษาในเครื่องมือค้นหา ค้นหาอย่างรวดเร็วในภาษาที่ไม่รู้จัก นั่นคือตอนนี้ภาษาศาสตร์ไม่ค่อยเกี่ยวข้องกับปัญหาเชิงนามธรรม - ส่วนใหญ่จะเป็นเรื่องเล็ก ๆ น้อย ๆ ที่สามารถแทรกลงในผลิตภัณฑ์ขนาดใหญ่และสร้างรายได้จากมัน

หนึ่งใน งานใหญ่ ภาษาศาสตร์สมัยใหม่- เว็บเชิงความหมาย เมื่อการค้นหาเกิดขึ้นไม่เพียงแต่โดยบังเอิญของคำเท่านั้น แต่ยังตามความหมายและไซต์ทั้งหมดจะถูกทำเครื่องหมายด้วยความหมาย สิ่งนี้อาจมีประโยชน์ เช่น สำหรับรายงานของตำรวจหรือการแพทย์ที่เขียนทุกวัน การวิเคราะห์ การเชื่อมต่อภายในให้มาก ข้อมูลที่จำเป็นและการอ่านและการนับด้วยตนเองนั้นใช้เวลานานอย่างไม่น่าเชื่อ

โดยสรุป เรามีข้อความนับพัน เราต้องจัดเรียงมันออกเป็นกลุ่ม นำเสนอแต่ละข้อความในรูปแบบของโครงสร้าง และรับตารางที่เราสามารถทำงานได้อยู่แล้ว สิ่งนี้เรียกว่าการประมวลผลข้อมูลที่ไม่มีโครงสร้าง ในทางกลับกัน ภาษาศาสตร์เชิงคำนวณเกี่ยวข้องกับการสร้างข้อความประดิษฐ์ มีบริษัทแห่งหนึ่งที่มีกลไกในการสร้างข้อความในหัวข้อที่น่าเบื่อสำหรับคนที่จะเขียน: การเปลี่ยนแปลงของราคาอสังหาริมทรัพย์ พยากรณ์อากาศ รายงานการแข่งขันฟุตบอล การสั่งซื้อข้อความเหล่านี้ให้กับบุคคลนั้นมีราคาแพงกว่ามากและ ข้อความคอมพิวเตอร์ในหัวข้อดังกล่าวเขียนด้วยภาษามนุษย์ที่สอดคล้องกัน

Yandex มีส่วนร่วมอย่างแข็งขันในการพัฒนาในด้านการค้นหาข้อมูลที่ไม่มีโครงสร้างในรัสเซีย Kaspersky Lab กำลังจ้างงาน กลุ่มวิจัยใครเรียนอยู่ การเรียนรู้ของเครื่อง- มีคนในตลาดที่พยายามคิดค้นสิ่งใหม่ ๆ ในด้านภาษาศาสตร์เชิงคำนวณหรือไม่?

**หนังสือเกี่ยวกับภาษาศาสตร์เชิงคำนวณ:**

แดเนียล จูราฟสกี้ การประมวลผลคำพูดและภาษา

Christopher Manning, Prabhakar Raghavan, Heinrich Schuetze, "ความรู้เบื้องต้นเกี่ยวกับการดึงข้อมูล"

Yakov Testelets “ความรู้เบื้องต้นเกี่ยวกับไวยากรณ์ทั่วไป”

การพัฒนาทางภาษาส่วนใหญ่เป็นกรรมสิทธิ์ บริษัทใหญ่แทบไม่มีอะไรสามารถพบได้ใน เปิดการเข้าถึง- สิ่งนี้ทำให้การพัฒนาอุตสาหกรรมช้าลง เราไม่มีตลาดภาษาฟรีหรือโซลูชั่นแบบแพ็คเกจ

นอกจากนั้นยังขาดอย่างครบถ้วน แหล่งข้อมูล- มีโครงการเช่น National Corpus of the Russian Language นี่คือหนึ่งในอาคารระดับชาติที่ดีที่สุดในโลกซึ่งมีการพัฒนาอย่างรวดเร็วและเปิดโอกาสอันเหลือเชื่อในด้านวิทยาศาสตร์และ การวิจัยประยุกต์- ความแตกต่างนั้นเกือบจะเหมือนกับในชีววิทยา - ก่อนการวิจัย DNA และหลังการวิจัย

แต่ไม่มีแหล่งข้อมูลมากมายในภาษารัสเซีย ดังนั้นจึงไม่มีความคล้ายคลึงกับแหล่งข้อมูลภาษาอังกฤษที่ยอดเยี่ยมเช่น Framenet - นี่คือเครือข่ายแนวคิดที่ทุกคน การเชื่อมต่อที่เป็นไปได้คำเฉพาะบางคำกับคำอื่น ตัวอย่างเช่นมีคำว่า "บิน" - ใครสามารถบินได้ที่ไหนคำนี้ใช้คำบุพบทคำใดที่รวมกับคำใดเป็นต้น แหล่งข้อมูลนี้ช่วยเชื่อมโยงภาษากับ ชีวิตจริงนั่นคือเพื่อติดตามว่ามันทำงานอย่างไร คำเฉพาะในระดับสัณฐานวิทยาและไวยากรณ์ สิ่งนี้มีประโยชน์มาก

ปัจจุบันบริษัท Avicomp กำลังพัฒนาปลั๊กอินสำหรับค้นหาบทความที่มีเนื้อหาคล้ายกัน นั่นคือหากคุณสนใจบทความคุณสามารถดูประวัติของโครงเรื่องได้อย่างรวดเร็ว: หัวข้อเกิดขึ้นเมื่อใด สิ่งที่เขียน และเมื่อใดคือจุดสูงสุดของความสนใจในปัญหานี้ ตัวอย่างเช่น ด้วยความช่วยเหลือของปลั๊กอินนี้จะเป็นไปได้ เริ่มตั้งแต่บทความเกี่ยวกับเหตุการณ์ในซีเรีย เพื่อดูอย่างรวดเร็วว่าในระหว่างนี้ ปีที่แล้วเหตุการณ์ที่เกิดขึ้นที่นั่น

กระบวนการเรียนรู้ในหลักสูตรปริญญาโทจะมีโครงสร้างอย่างไร?

การฝึกอบรมที่ HSE จัดขึ้นในโมดูลแยกกัน - เช่นเดียวกับใน มหาวิทยาลัยตะวันตก- นักเรียนจะถูกแบ่งออกเป็นทีมเล็ก ๆ มินิสตาร์ทอัพ นั่นคือเราควรจะได้หลายทีม โครงการที่เสร็จสิ้นแล้ว- เราต้องการได้ผลิตภัณฑ์จริง ซึ่งเราจะเปิดให้ผู้คนเข้าชมและปล่อยให้เป็นสาธารณสมบัติ

นอกจากผู้จัดการโดยตรงของโครงการของนักเรียนแล้ว เรายังต้องการหาภัณฑารักษ์จากพวกเขาด้วย นายจ้างที่มีศักยภาพ- จากยานเดกซ์เดียวกันซึ่งจะเล่นเกมนี้และให้คำแนะนำแก่นักเรียนด้วย

ฉันหวังว่าผู้คนจากมากที่สุด พื้นที่ที่แตกต่างกัน: โปรแกรมเมอร์ นักภาษาศาสตร์ นักสังคมวิทยา นักการตลาด เราจะมีหลักสูตรการปรับตัวหลายหลักสูตรในด้านภาษาศาสตร์ คณิตศาสตร์ และการเขียนโปรแกรม จากนั้นเราจะมีหลักสูตรภาษาศาสตร์แบบจริงจังสองหลักสูตรและจะเกี่ยวข้องกับหลักสูตรที่เกี่ยวข้องมากที่สุด ทฤษฎีทางภาษาเราต้องการให้ผู้สำเร็จการศึกษาของเราสามารถอ่านและเข้าใจบทความภาษาศาสตร์สมัยใหม่ได้ มันเหมือนกันกับคณิตศาสตร์ เราจะมีหลักสูตรที่เรียกว่า "พื้นฐานทางคณิตศาสตร์ของภาษาศาสตร์คอมพิวเตอร์" ซึ่งจะสรุปสาขาวิชาคณิตศาสตร์ที่เป็นพื้นฐานของภาษาศาสตร์คอมพิวเตอร์สมัยใหม่

คุณต้องผ่านจึงจะลงทะเบียนเรียนในหลักสูตรปริญญาโทได้ การสอบเข้าในด้านภาษาและผ่านการประกวดผลงาน

นอกจากวิชาหลักแล้ว ยังมีวิชาเลือกอีกหลายวิชา เราได้วางแผนไว้หลายรอบ โดยสองวิชาเน้นที่การศึกษาเชิงลึก แต่ละหัวข้อซึ่งรวมถึง ตัวอย่างเช่น การแปลภาษาด้วยเครื่องและภาษาศาสตร์คลังข้อมูล และอีกประการหนึ่งเกี่ยวข้องกับ พื้นที่ที่เกี่ยวข้อง: เช่น, โซเชียลมีเดีย, การเรียนรู้ของเครื่องหรือมนุษยศาสตร์ดิจิทัล - หลักสูตรที่เราหวังว่าจะสอนเป็นภาษาอังกฤษ