Колко знака има в китайския? Цифрата варира в зависимост от ситуацията. Интересни факти за китайския език Разстояния между китайските йероглифи

Продължавайки нашия разговор за сложното китайско писане, нека да видим защо английският е толкова прост. Представете си предизвикателството, пред което е изправен средният възрастен китаец, който решава да научи английски. Какво ще му трябва, за да овладее писането? Има само 26 букви (разбира се, малки и главни букви, както и ръкописен шрифт и няколко опции за правопис. А също и кавички, апострофи, тирета, скоби и т.н. - но самите китайци имат всичко това). Как да пишем тези букви? От ляво на дясно. Хоризонтално. С интервали между думите. Ако засега оставим правописа настрана, колко време отнема на един китаец да овладее английската писмена система? Ден-два.

А сега обратната ситуация: американски студент, решил да научи китайски. Какво ще му трябва? Няма азбука, въпреки че, разбира се, има повтарящи се елементи, които съставляват йероглифи. Колко такива елементи? По-добре не питай. Както при много други въпроси относно китайския език, няма ясен, успокояващ отговор. Зависи от това как дефинирате думата "елемент" (черта? ключ?) и други подробности. Достатъчно е да се каже, че има много от тях, много повече от 26. А какво ще кажете за комбинацията от тези елементи? Вляво от други елементи, вдясно от тях, отгоре, наоколо, вътре - почти всичко е възможно. И по време на движението си в пространството елементите се променят: сплескват се, разтягат се, компресират се, свиват се, изкривяват се - за да се поберат в отреденото им пространство. Може да се каже, че елементите на китайската писменост имат две измерения, докато азбучната писменост има само едно.

Дори и да не помним красотата на писането, колко време ще отнеме на един европеец или американец да овладеят китайското писане, така че когато видят нов знак, да знаят как поне да го напишат, така че резултатът на тяхната работа е поне подобна на прототипа? Отново, на този въпрос е трудно да се отговори. Смятам, че са необходими няколко месеца упорита работа, за да се усвоят основите. Ако човек е лош в рисуването, тогава ще отнеме година или повече. Междувременно техните китайски съперници, изучавайки английски, вече са преминали към ръкописни шрифтове. И все още имат време да прочетат Моби Дик или нещо друго.

Разбира се, азбуката улеснява живота. Китайците, които познавам и които са учили английски няколко години, могат да пишат на ръка по такъв начин, че почеркът им да е неразличим от този на средния американец. И в същото време само няколко американци са в състояние да напишат герой, който не прилича на тромавата работа на китайски третокласник. Дори и да нямаше нищо друго трудно за китайския, чистата необходимост от писане на знаци би го направила един от най-трудните езици в света.

Много участници в изпита смятат, че препинателните знаци и общият вид на текста могат да бъдат пренебрегнати, тъй като това, според тях, не влияе на резултатите. Все пак да напомним, че писмената част се проверява от човек със собствена субективна оценка, а не от компютър. Проучванията показват, че красивият външен вид на есето и правилното използване на препинателни знаци показват на проверяващия високото ви езиково ниво и могат да добавят от 2 до 10 точки.

Красивият външен вид е преди всичко правилното разделяне на параграфи и подчертаване на заглавия.
Ако решите да напишете заглавие, то трябва да е в средата на първия ред. Ако искате да се абонирате, се подписваме или в края на текста, или точно под заглавието.
Текстът трябва да бъде разделен на параграфи, с отстъп от две клетки. . Всяка нова мисъл = нов параграф!

Какви са изискванията ни към препинателните знаци??

Нека си припомним какви препинателни знаци има в китайския.

1) Точка, 句号 (。) предава пауза след края на фраза.

2) Запетаята, 逗号 (,) предава пауза във фразата, докато всичко е както имаме.

3) Пуснете запетая , 顿号 (、) се поставя при изброяване между еднородни членове на изречението.
Например,

  • 我喜欢吃西瓜、苹果、香蕉。- Обичам дини, ябълки, банани.

4) Точка и запетая 分号 (;) предава пауза между частите на сложно изречение.

5) Въпросителен знак 问号 (?) - пауза след края на въпросителното изречение.

6) Удивителен знак 感叹号 (!) - пауза след края на фраза, която изразява силни чувства; може да се използва и просто след думи, които не образуват изречение.

7) Двоеточие 冒号 (:) означава преход към следващия текст (например в писмо след обръщение към адресата).

8) Кавичките 引号 („……“ или „……“) обграждат цитат, специални имена или части, които трябва да бъдат специално подчертани.
Те също могат, както на руски, да имат фигуративно значение и да предават сарказъм или отрицание:

  • „Този ​​твой „най-добър приятел“ току-що открадна портфейла ти.

Кавичките с единичен елемент се използват, когато кавички трябва да се използват отново в цитат.

9) И отново кавичките, този път 书名号 (《……》).
Както подсказва името, такива кавички обграждат имената на книги, статии, песни, филми и др., споменати в текста. Ние се отвикваме от руската употреба на всякакъв вид кавички, както в опашката, така и в гривата, и отделяме 书名号 от 引号.
Между другото, 书名号 има и вариант от една скоба. Например, когато споменем 《статия》, която има заглавието в заглавието<книги>.

  • 我刚看完了一篇文章叫《莫言小说〈酒国〉中的后现代特征》。 - Току-що дочетох статията, озаглавена „Характеристики на постмодернизма в „Страната на виното“ на Мо Ян.“

10) Многоточие 省略号 (……) Точно така, състои се от шест точки и заема още толкова две клеткив текста!
Изразява, че някакъв пасаж е пропуснат от текста или нерешителност, нещо неясно и неясно.

11) Тире 破折号 (--).
Както знаем, на китайски няма тире (тоест нашето „3-4“ ще бъде написано като 三四个, а „китайско-руски“ - 汉俄). Но има думата „едно, 一“ и за да не се бърка с нея, тирето взема две клетки.
Тирето означава, че отдолу ще има обяснение на написаното по-горе(на руски в този случай ще поставим двоеточие!).

12) Е, скобите всъщност (……)означават коментар вътре в текста.

Просто поставянето на точка някъде в ъгъла е лош подход.
На китайски препинателните знаци заемат цяла клетка.
Елипса и тире заемат цели две клетки.
Всички препинателни знаци от един елемент (точки, запетаи, двоеточия и затварящи кавички и скоби) не могат да се появяват първи в реда, а началната кавичка или скоба не могат да се показват последни в реда.

Разбира се, има и други начини за използване на препинателни знаци, но те се срещат повече в литературни текстове, което означава, че няма да ви трябват на теста!

p.s. Ако приемате нива от 3 до 5, обърнете специално внимание на факта, че в задачата „съставете изречение от думи“ трябва да поставите препинателен знак (точка, удивителен или въпросителен знак) в края. В противен случай резултатът ви може да бъде намален.

16

Бих искал да накарам MySQL пълнотекстово търсене да работи с японски и китайски текст, както и всеки друг език. Проблемът е, че тези езици, а може би и други, обикновено нямат разстояние между думите. Търсенето не е полезно, когато трябва да въведете същото изречение като в текста.

Не мога просто да поставя интервал между всеки знак, защото английският също трябва да работи. Бих искал да разреша този проблем с PHP или MySQL.

Мога ли да конфигурирам MySQL да разпознава символи, които трябва да бъдат техни собствени индекси? Има ли PHP модул, който може да разпознае тези знаци, така че да мога просто да премахна интервалите около индекса?

Частично решение:

$string_with_spaces = preg_replace("/[".json_decode(""\u4e00"")."-".json_decode(""\uface"")."]/", " $0 ", $string_without_spaces);

Това прави класа на героите от поне някои от героите, които трябва да третирам конкретно. Вероятно трябва да спомена, че е приемливо да се пропуска индексиран текст.

Някой знае ли всички диапазони от знаци, които ще трябва да вмъкна в сондата?

Освен това трябва да има по-добър, преносим начин за представяне на тези знаци в PHP? Изходният код в Literal Unicode не е съвършен; Не разпознавам всички знаци; те може да не се показват на всички машини, които трябва да използвам.

3

Други съвременни езици, които не използват интервали между думите, са тайландски, лаоски, кхмерски (камбоджански) и бирмански (Мианмар). Във виетнамския има проблем, свързан с използването на интервали между всички срички, с изключение на чуждите думи. - hippietrail 18 дек 10 2010-12-18 12:48:10

  • 2 отговора
  • Сортиране:

    Дейност

15

Изисква се нарушение на думата за споменатите езици лингвистичен подход , например такъв, който използва речникзаедно с разбирането на осн възникващи правила.

Чувал съм за сравнително успешни приложения за търсене на пълен текст, които просто отделят всеки отделен знак като отделна дума на китайски, просто прилагайки същото „токенизиране“ на критериите за търсене, предоставени от крайните потребители. След това търсачката предоставя по-добро класиране за документи, които предоставят знаци от думи в същия ред като критериите за търсене. Не съм сигурен дали това може да се разшири до езици като японски, тъй като наборите от символи Хиракана и Катагана правят текста по-близък до европейските езици с кратка азбука.

РЕДАКТИРАНЕ:
Ресурси
Тази дума е за разбиване на проблеми, както и свързани с тях въпроси, така че нетривиаленче за това са написани цели книги. Вижте например CJKV обработка на информация (CJKV означава китайски, японски, корейски и виетнамски, можете също да използвате ключовата дума CJK, тъй като много текстове не обсъждат виетнамски). Вижте също Разбиването на думи на японски е трудно за един пейджър по тази тема.
Ясно е, че повечето от материалите, обхващащи тази тема, са написани на един от основните езици на родния език и следователно са ограничени до хора без относително владеене на тези езици. Поради тази причина и за да ви помогнем да тествате търсачката, след като започнете да прилагате логика за разделяне на думи, трябва да потърсите помощ от носител на езика или двама.

Разни идеи
Ваша идея идентифициране на характеристики, които систематично предполагат прекъсване на думата(да речем, кавички, скоби, подобни на тирета символи и подобни) са добри и това вероятно е една евристика, използвана от някои от професионалните разделяния на думи. Трябва обаче да потърсите уважаван източник за такъв списък, вместо да го съставяте от нулата въз основа на анекдотични констатации.
Свързана идея е да се разделят думите на Преходи от кана към канджи(но предполагам, че не е обратното), и може би в хирагана към катаканаили обратно преходи.
Без връзка с повредения правилен, индексът може [-или може да не- ;-)] се възползва от систематичното преобразуване на всеки, да речем, знак хирагана в съответен знак катакана. Просто неграмотна идея! Не знам достатъчно за японски, за да знам дали това ще помогне; интуитивно, това би било слабо свързано със систематичното преобразуване на букви с ударение и по този начин в съответстващо писмо без ударение, както се практикува в няколко европейски езици.

Може би идеята, която споменах по-рано за систематично индексиране на отделни символи (и класиране на резултатите от търсенето въз основа на тяхното приближение до думата за търсене), може да бъде леко модифицирана, например чрез поддържане на последователни кана символи заедно и след това някои други правила... и създаване на несъвършени, но доста практична търсачка.

Не се разочаровайте, ако това не е така... Както беше посочено, това далеч не е тривиално и може да ви спести време и пари в дългосрочен план, като направите пауза и прочетете книга или две. Друга причина да се опитате да научите повече за „теорията“ и най-добрите практики е, че в момента изглежда, че сте фокусирани върху думи на нарушение , но в близко бъдеще търсачката също може да се възползва от последващо съзнание ; наистина, тези два въпроса са поне лингвистично уместни и могат да бъдат полезни, когато се обработват в тандем.

Успех в това неприятно, но достойно начинание.

0

@Joe: Няма за какво. Изглежда, че имам интерес към лингвистиката и НЛП, но много, много малко познания, специфични за CJK езиците. Прочетете моята редакция, добавяйки някои ключови думи и онлайн връзки, които могат да помогнат на вашето търсене :-) - mjv 22 окт 09

Препинателните знаци са неразделна част от всеки език. Обикновената запетая може радикално да промени смисъла на изречението: просто си спомнете историята за „Екзекуцията не може да бъде помилвана“. А работата на преводачите и редакторите изисква те да владеят поне две пунктуационни системи.

Идеята за този пост се роди, когато обсъждахме превода на една статия. В изходния материал знакът за процент беше отделен с интервал от числото и това ми привлече вниманието - в руския текст в този случай не се използва интервал (въпреки че твърдението все още е спорно - експертите не са стигнали до консенсус по този въпрос). Тогава решихме, че трябва да поговорим за това. Специалисти от отдела за многоезична локализация интервюираха наши чуждестранни колеги и подготвиха материал, който сега споделяме с вас. Надяваме се, че ще ви бъде полезно.

В началото и в края
Нека видим как стоят нещата с поставянето на препинателни знаци в изречение: точки, запетаи, двоеточие, точка и запетая, въпросителни и удивителни знаци.

Надяваме се, че всички си спомнят за руския език - препинателните знаци, които отделят изречения един от друг, се поставят само в края, точка. Ако трябва да добавите израз (особено в лична кореспонденция), се използват комбинации от знаци - “!!!”, “?!” и т.н. На английски, немски, италиански, френско-канадски, арабски и бразилски португалски точките, елипсите и техните „другари“ следват същите правила.

Други правила на френски: двоеточие, точка и запетая, удивителни знаци и въпросителни знаци се предхождат от неразделящи се интервали.

Испанският е единственият език в нашата селекция, в който препинателните знаци рамкират изреченията: в началото на фраза въпросителни и удивителни знаци се дублират в „леко“ обърната форма - „¿“ и „¡“.

Китайците имат най-необичайния подход към препинателните знаци от европейска гледна точка. Тяхната точка изглежда като 。, запетаята изглежда като ,, удивителният знак изглежда като !, а въпросителният знак изглежда като ?. В едно изречение те се държат като руските си колеги, единствената разлика е, че китайците не използват интервали, тъй като всички препинателни знаци са двубайтови. Йероглифът, въведен на клавиатурата, е два пъти по-широк от всяка буква от латинската азбука. Следователно препинателните знаци обикновено заемат същото място като йероглифа. Тази функция е била срещана от тези, които са работили в стари IME, работещи с DOS, когато неправилно въведен йероглиф е бил премахнат чрез двукратно натискане на Backspace. Интервалите се използват главно за разделяне на думи и знаци от други езици, като например английски.

Сладки функции
На руски се използва или тире, или тире. Тирето е кратко и е необходимо за пренасяне и свързване на сложни думи. Тирето е значително по-дълго; служи за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др. Можете да си спомните всички тънкости на използването на тези знаци, като разгледате учебник по руски език.

Тиретата и тиретата съществуват при подобни условия в английски, немски, френски и бразилски португалски. Освен това в американския английски тирето е разделено от двете страни с интервали, но в британския английски обикновено не е:

Лекцията – която е третата на тази тема този месец – ще включва лектори от различни страни. (Американски английски)

В зоологическата градина имаше много котки - лъвове, пантери, тигри, ягуари и гепарди - което правеше избора на любима много труден. (Британски английски)


На испански, италиански и арабски тиретата и тиретата изглеждат еднакво: "-". Китайците изобщо не използват тирета - имат само тирета. Въпреки че до букви от латинската азбука може да има тирета, дълги тирета и средни тирета. Тирето е кратко и е необходимо за пренасяне и свързване на сложни думи. Тирето е значително по-дълго; той служи за разделяне на семантични части
Езици Тире Em тире (Alt 0151)
Руски
английски американски Да, за пренасяне и свързване на сложни думи Да, за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др.
Английски
британски
Да, за пренасяне и свързване на сложни думи Да, за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др. Не са разделени с интервали от двете страни.
Немски Да, за пренасяне и свързване на сложни думи Да, за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др.
Френски Да, за пренасяне и свързване на сложни думи Да, за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др.
френски канадски Да, за пренасяне и свързване на сложни думи Да, за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др.
испански Да, във всички случаи -
португалски
бразилски
Да, за пренасяне и свързване на сложни думи Да, за разделяне на смислови части: различни изречения, две части на едно изречение, в диалози и др.
Италиански Да, във всички случаи -
арабски Да, във всички случаи -
Китайски Само до букви от латинската азбука Да, във всички случаи
Сдвоен тип писмо

Кавичките съществуват на всички езици, но, подобно на националните носии, те изглеждат различно. В руския език има както традиционни „коледни елхи“, дошли от френски, така и немски „лапи“, които се използват във фраза в кавички и при писане на ръка. Испанският, бразилският португалски, италианският и арабският използват двойни кавички.

Англичаните използват „единични“ и „двойни“ кавички: първите за заглавия, вторите за цитиране. Точките и запетаите са в кавички. Във френския текст има „рибени кости“ с една разлика от руския: има непрекъснат интервал между началото на цитирания текст и отворените кавички, както и между края на фразата и затварящите кавички.

В китайския има три вида кавички, които служат за различни цели. Това са имената на книги, филми и други авторски произведения. За всички останали случаи китайците използват 「такъв」. Кавичките от европейската традиция (независимо дали са „коледни елхи“, „лапи“, „единични“ или „двойни“) могат да бъдат намерени само в преводи или във връзка с фрази от европейски езици. Те не са придобили популярност в традиционния китайски.

Кавичките съществуват на всички езици, но, подобно на националните носии, те изглеждат различно.

Езици «…» „…“ “…” ‘…’ 《…》 「…」
Руски Стандарт, точки и запетаи отвън Алтернативи във фраза в кавички и при писане на ръка Алтернативи при писане на ръка - - -
Английски
американски
- - Стандарт за заглавия - -
Английски
британски
- - Стандартно при цитиране, точки и запетаи вътре Стандарт за заглавия - -
Немски - Стандартен - - - -
Френски Стандартно, непрекъснато пространство преди отваряне и затваряне на котировки - - - - -
испански - - Стандартен - - -
португалски
бразилски
- - Стандартен - - -
Италиански - - Стандартен - - -
арабски - - Стандартен - - -
Китайски Само в преводи или във връзка с фрази от европейски езици Само в преводи или във връзка с фрази от европейски езици Само в преводи или във връзка с фрази от европейски езици Стандарт за заглавия на книги, филми и други авторски произведения Стандартно за други случаи
Символизъм
Процентите и ppm също не са особено стандартни. На немски, френски и испански тези знаци трябва да бъдат разделени с неразделящи се интервали. А на руски, английски, италиански, арабски и бразилски португалски пишете веднага след номера. Въпреки че с руснаците, както си спомняме, ситуацията е двусмислена.

Градусите и инчовете обикновено се поставят след числото без интервали.

Интересен факт: когато французите пишат големи числа, те разделят блоковете от три цифри с интервали - например: 987 654 321,12.

Китайците имат свои собствени символи за градуси (度) и проценти (百分比 и 百分之). Обаче обичайните ° и % се използват заедно с тях без интервали пред тях.

Установяване на диалог
Форматирането на диалог също варира от език на език. На руски поставяме тире em преди всеки ред. Говорещите бразилски португалски правят същото.

На английски се използват „двойни“ и „единични“ кавички, например:

„Ето един милион лири“, каза Марина, подавайки куфар на Саймън.

Марина продължи: „Говорих с Иван и той каза: „Саймън иска десет милиона, но това е твърде много.“


На немски диалозите също са форматирани с помощта на традиционни кавички - „лапи“. Французите поставят „рибени кости“, както и къси тирета, в случаите, когато авторът на ред се променя. Части от диалога са прекъснати с тирета и на испански.

Италианският и арабският използват двойни прави кавички за диалог.

Китайците обикновено поставят само 「кавички」 или техен английски еквивалент в своя диалог.

Голям или малък

На английски, френски, испански, бразилски португалски и италиански всичко е просто и познато на рускоговорящите - главни букви се използват в началото на изреченията, за съкращения и собствени имена.

Немският е много по-забавен. С главна буква се пишат съществителни имена, имена и титли, учтивата форма на обръщение (Sie) във всички падежни форми (Ihr, Ihre, Ihrer, Ihres, Ihrem, Ihren). Прилагателни, причастия и инфинитиви, които се използват в изречение като съществителни в комбинация с определен (das Gute) или неопределен (ein Lächeln) член, предлог (в Blau), местоимение (dein Stottern), числително (nichts Aufregendes) или прилагателно в склонена форма (lautes Sprechen). Просто всичко :-)

Арабската азбука не прави разлика между малки и главни букви, но повечето букви имат две, три или четири различни изписвания: за началото, средата и края на думата, а понякога и за една буква извън думата. Подобна ситуация се разви в китайския език - малко вероятно е да се разграничат малки или главни букви. И ако китайските автори трябва да подчертаят част от текста, те го подчертават или използват удебелен шрифт.

Бонус
Странно е, че много говорители на европейски езици, които анкетирахме, отбелязаха, че използват главни букви според същите правила, които съществуват на английски, но не в такива количества. Един от интервюираните колеги го формулира така:
ОПИТВАМЕ СЕ ДА НЕ ИЗПИСВАМЕ ТВЪРДЕ МНОГО.

Чудя се какво би означавало това? ;-)