Hvor mange tegn er der på kinesisk? Tallet varierer afhængigt af situationen. Interessante fakta om det kinesiske sprog Mellemrum mellem kinesiske tegn

For at fortsætte vores samtale om den komplekse kinesiske skrift, lad os se på, hvorfor engelsk er så simpelt. Forestil dig den udfordring, som den gennemsnitlige kinesiske voksen står over for, som beslutter sig for at lære engelsk. Hvad skal han bruge for at mestre at skrive? Der er kun 26 bogstaver (selvfølgelig små og store bogstaver, og håndskrevne skrifttyper, og flere stavemuligheder. Og også anførselstegn, apostrof, bindestreger, parentes osv. - men kineserne selv har alt dette). Hvordan skriver vi disse bogstaver? Fra venstre mod højre. Vandret. Med mellemrum mellem ordene. Hvis vi lader stavemåden ligge til side for nu, hvor lang tid tager det for en kineser at mestre engelsk skrivning? En dag eller to.

Og nu den modsatte situation: en amerikansk studerende, der besluttede at lære kinesisk. Hvad skal han bruge? Der er intet alfabet, selvom der selvfølgelig er gentagne elementer, der udgør hieroglyffer. Hvor mange sådanne elementer? Bedre ikke spørge. Som med mange andre spørgsmål om det kinesiske sprog, er der ikke noget klart, betryggende svar. Det afhænger af, hvordan du definerer ordet "element" (egenskab? nøgle?) og andre detaljer. Det er tilstrækkeligt at sige, at der er mange af dem, meget mere end 26. Og hvad med kombinationen af ​​disse elementer? Til venstre for andre elementer, til højre for dem, over, rundt, inde - næsten alt er muligt. Og under deres bevægelse i rummet ændrer elementer sig: de flader, strækker, komprimerer, trækker sig sammen, forvrænger - for at passe ind i det rum, der er tildelt dem. Man kan sige, at elementerne i kinesisk skrift har to dimensioner, mens den alfabetiske skrift kun har én.

Selvom vi ikke husker det smukke ved at skrive, hvor lang tid vil det tage for en europæer eller en amerikaner at mestre kinesisk skrift, så når de ser et nyt tegn, ved de i det mindste, hvordan man skriver det, så resultatet af deres arbejde ligner i det mindste prototypen? Igen er dette spørgsmål svært at besvare. Jeg vurderer, at der skal flere måneders hårdt arbejde til for at mestre det grundlæggende. Hvis en person er dårlig til at tegne, vil det tage et år eller mere. I mellemtiden er deres kinesiske rivaler, der lærer engelsk, allerede skiftet til håndskrevne skrifttyper. Og de har stadig tid til at læse Moby Dick eller noget andet.

Alfabetet gør selvfølgelig livet lettere. Kinesere, jeg kender, som har studeret engelsk i flere år, kan skrive med håndskrift på en sådan måde, at deres håndskrift ikke kan skelnes fra den gennemsnitlige amerikaner. Og samtidig er det kun få amerikanere, der er i stand til at skrive en karakter, der ikke ligner en kinesisk tredje klasses klodsede arbejde. Selv hvis der ikke var noget andet svært ved kinesisk, ville den store nødvendighed af at skrive tegn gøre det til et af de sværeste sprog i verden.

Mange eksamensdeltagere mener, at tegnsætningstegn og tekstens generelle udseende kan ignoreres, fordi det, siger de, ikke påvirker karaktererne. Lad os dog huske, at den skriftlige del kontrolleres af en person med sin egen subjektive vurdering, og ikke af en computer. Undersøgelser har vist, at et essays smukke udseende og den korrekte brug af tegnsætningstegn viser eksaminator dit høje sprogniveau og kan tilføje fra 2 til 10 point.

Et smukt udseende er først og fremmest den korrekte opdeling i afsnit og fremhævelse af overskrifter.
Hvis du vælger at skrive en titel, skal den stå midt på første linje. Hvis du ønsker at abonnere, underskriver vi enten sidst i teksten eller lige under titlen.
Teksten skal være opdelt i afsnit, indrykket af to celler. . Hver ny tanke = et nyt afsnit!

Hvad er vores krav til tegnsætningstegn??

Lad os huske, hvilke tegnsætningstegn der er på kinesisk.

1) Et punktum, 句号 (。) formidler en pause efter slutningen af ​​en sætning.

2) Kommaet, 逗号 (,) formidler en pause i sætningen, mens alt er, som vi har.

3) Slip komma , 顿号 (、) placeres ved opregning mellem homogene medlemmer af sætningen.
For eksempel,

  • 我喜欢吃西瓜、苹果、香蕉。- Jeg elsker vandmeloner, æbler, bananer.

4) Semikolon 分号 (;) formidler en pause mellem dele af en kompleks sætning.

5) Spørgsmålstegn 问号 (?) - en pause efter slutningen af ​​en spørgsmålssætning.

6) Udråbstegn 感叹号 (!) - en pause efter slutningen af ​​en sætning, der formidler stærke følelser; den kan også bruges blot efter ord, der ikke danner en sætning.

7) Kolon 冒号 (:) betyder en overgang til følgende tekst (f.eks. i et brev efter adressering til adressaten).

8) Anførselstegn 引号 (“……” eller “……”) omgiver et citat, særlige navne eller dele, der skal fremhæves særligt.
De kan også, som på russisk, have en billedlig betydning og formidle sarkasme eller benægtelse:

  • "Denne "bedste ven" har lige stjålet din pung.

Enkeltelementanførselstegn bruges, når anførselstegn skal bruges igen inden for et anførselstegn.

9) Og endnu en gang anførselstegnene, denne gang 书名号 (《……》).
Som navnet antyder, omgiver sådanne anførselstegn navnene på bøger, artikler, sange, film osv., der er nævnt i teksten. Vi vænner os fra den russiske brug af enhver form for anførselstegn, både i halen og i manken, og adskiller 书名号 fra 引号.
书名号 har i øvrigt også en variant fra én beslag. For eksempel, når vi nævner en "artikel", der har titlen i titlen<книги>.

  • 我刚看完了一篇文章叫《莫言小说〈酒国〉中的后现代特征》".

10) Ellipsis 省略号 (……) Det er rigtigt, det består af seks prikker og fylder lige så meget to celler i teksten!
Det udtrykker, at en passage er udeladt fra teksten, eller ubeslutsomhed, noget uklart og utydeligt.

11) Dash 破折号 (--).
Som vi ved, er der ingen bindestreg på kinesisk (det vil sige, vores "3-4" vil blive skrevet som 三四个 og "kinesisk-russisk" - 汉俄). Men der er ordet "en, 一", og for ikke at blive forvekslet med det, tager stregen to celler.
Bindestregen betyder, at der nedenfor vil være en forklaring på, hvad der står ovenfor(på russisk vil vi sætte et kolon i dette tilfælde!).

12) Nå, parenteserne betyder faktisk (……) en kommentar inde i teksten.

Bare det at sætte et punkt et sted i hjørnet er en dårlig tilgang.
På kinesisk fylder tegnsætningstegn en hel celle.
En ellipse og en tankestreg fylder to hele celler.
Alle tegnsætningstegn fra ét element (punktum, kommaer, koloner og afsluttende anførselstegn og parenteser) kan ikke vises først i linjen, og det indledende citat eller parentes kan ikke vises sidst i linjen.

Selvfølgelig er der andre måder at bruge tegnsætningstegn på, men de findes mere i litterære tekster, hvilket betyder, at du ikke får brug for dem på testen!

p.s. Hvis du tager niveau 3 til 5, skal du være særligt opmærksom på, at du i opgaven "lav en sætning ud af ord" skal sætte et tegnsætningstegn (punktum, udråbstegn eller spørgsmålstegn) til sidst. Ellers kan din score blive reduceret.

16

Jeg vil gerne få MySQL fuldtekstsøgning til at fungere med japansk og kinesisk tekst, såvel som ethvert andet sprog. Problemet er, at disse sprog, og måske andre, normalt ikke har mellemrum mellem ordene. Søgning er ikke nyttig, når du skal indtaste den samme sætning som i teksten.

Jeg kan ikke bare sætte et mellemrum mellem hvert tegn, fordi engelsk også skal fungere. Jeg vil gerne løse dette problem med PHP eller MySQL.

Kan jeg konfigurere MySQL til at genkende tegn, der skal være deres egne indekser? Er der et PHP-modul, der kan genkende disse tegn, så jeg bare kan smide mellemrummene rundt om indekset?

Delvis løsning:

$string_with_spaces = preg_replace("/[".json_decode(""\u4e00"")."-".json_decode(""\uface"")."]/", " $0 ", $string_without_spaces);

Dette gør karakterklassen ud af i det mindste nogle af de karakterer, jeg skal behandle specifikt. Jeg skal nok nævne, at det er acceptabelt at springe indekseret tekst over.

Er der nogen, der kender alle rækkerne af tegn, som jeg skal indsætte i sonden?

Også, der skal være en bedre, bærbar måde at repræsentere disse tegn i PHP? Kildekoden i Literal Unicode er ikke perfekt; Jeg genkender ikke alle karaktererne; de vises muligvis ikke på alle de maskiner, jeg skal bruge.

3

Andre moderne sprog, der ikke bruger mellemrum mellem ord, er thai, lao, khmer (Cambodjansk) og burmesisk (Myanmar). På vietnamesisk er der et relateret problem, at der bruges mellemrum mellem alle stavelser undtagen fremmedord. - hippietrail 18 dec 10 18-12-2010 12:48:10

  • 2 svar
  • Sortering:

    Aktivitet

15

Ordovertrædelse for de nævnte sprog kræver sproglig tilgang , for eksempel en, der bruger ordbog sammen med en forståelse af det grundlæggende regler, der opstår.

Jeg har hørt om relativt vellykkede fuldtekst-søgningsapplikationer, der simpelthen adskiller hvert enkelt tegn som et separat ord på kinesisk, blot anvender den samme "tokenisering" af søgekriterier, som slutbrugerne leverer. Søgemaskinen giver så bedre placeringer for dokumenter, der leverer ordtegn i samme rækkefølge som søgekriterierne. Jeg er ikke sikker på, om dette kan udvides til sprog som japansk, da Hirakana- og Katagana-tegnsættene gør teksten mere lig europæiske sprog med kort alfabet.

REDIGERE:
Ressourcer
Dette ord er at nedbryde problemer, såvel som relaterede problemer, så ikke-triviel at der er skrevet hele bøger om det. Se for eksempel CJKV Information Processing (CJKV står for kinesisk, japansk, koreansk og vietnamesisk, du kan også bruge søgeordet CJK, da mange tekster ikke diskuterer vietnamesisk). Se også Word Breaking på japansk er svært for en personsøger om dette emne.
Det er klart, at det meste af materialet, der dækker dette emne, er skrevet på et af hovedsprogene på modersmålet og derfor er begrænset til personer uden relative færdigheder i disse sprog. Af denne grund, og for at hjælpe dig med at teste søgemaskinen, bør du, når du begynder at implementere ordbrudslogik, søge hjælp fra en eller to som modersmål.

Forskellige ideer
Din idé identificere træk, der systematisk indebærer ordet brud(lad os sige citater, parenteser, bindestreglignende symboler og sådan) er gode, og det er nok en heuristik, der bruges af nogle af de professionelle ordbrud. Du bør dog opsøge en velrenommeret kilde til en sådan liste i stedet for at kompilere den fra bunden baseret på anekdotiske fund.
En relateret idé er at bryde ord ind i Kana-til-kanji-overgange(men jeg gætter på ikke omvendt), og måske ind hiragana-til-katakana eller omvendt overgange.
Uden at være relateret til den ødelagte korrekte, kan indekset [-eller måske ikke- ;-)] drage fordel af systematisk at konvertere hvert f.eks. hiragana-tegn til et tilsvarende katakana-tegn. Bare en uopdragen idé! Jeg ved ikke nok om japansk til at vide, om dette vil hjælpe; intuitivt ville dette være løst relateret til den systematiske konvertering af accentuerede bogstaver og dermed til tilsvarende uaccentueret skrift, som det praktiseres på flere europæiske sprog.

Måske den idé, jeg nævnte tidligere, om systematisk at indeksere individuelle tegn (og rangordne søgeresultater baseret på deres tilnærmelse til søgetermen) kunne modificeres en smule, for eksempel ved at holde på hinanden følgende kana-tegn sammen og derefter nogle andre regler... og skabe uperfekte, men ret praktisk søgemaskine.

Bliv ikke skuffet, hvis det ikke er... Som sagt er dette langt fra trivielt, og det kan spare dig tid og penge i det lange løb ved at holde pause og læse en bog eller to. En anden grund til at prøve at lære mere om "teori" og bedste praksis er, at du i øjeblikket ser ud til at være fokuseret på krænkelsesord , men i den nærmeste fremtid kan søgemaskinen også få glæde af konsekvensbevidsthed ; disse to spørgsmål er faktisk i det mindste sprogligt relevante og kan være nyttige, når de behandles i tandem.

Held og lykke til dig i denne ubehagelige, men værdige bestræbelse.

0

@Joe: Du er velkommen. Jeg ser ud til at have en interesse for lingvistik og NLP, men meget, meget lidt viden, der er specifik for CJK-sprog. Læs min redigering ved at tilføje nogle søgeord og onlinelinks, der kan hjælpe din søgning. Held og lykke :-) - mjv 22. okt 09

Tegnsætningstegn er en integreret del af ethvert sprog. Et almindeligt komma kan radikalt ændre betydningen af ​​en sætning: Husk blot historien om "Henrettelse kan ikke benådes." Og oversætternes og redaktørernes arbejde kræver, at de er flydende i mindst to tegnsætningssystemer.

Idéen til dette indlæg blev født, da vi diskuterede oversættelsen af ​​en artikel. I kildematerialet var procenttegnet adskilt af et mellemrum fra tallet, og dette fangede mit øje - i den russiske tekst i dette tilfælde bruges et mellemrum ikke (selvom udsagnet stadig er kontroversielt - eksperter er ikke kommet frem til en konsensus om dette spørgsmål). Så besluttede vi, at vi skulle tale om det. Specialister fra afdelingen for flersproget lokalisering har interviewet vores udenlandske kolleger og udarbejdet materiale, som vi nu deler med dig. Vi håber, du finder det nyttigt.

I begyndelsen og i slutningen
Lad os se, hvordan det står til med placeringen af ​​tegnsætningstegn i en sætning: punktum, komma, kolon, semikolon, spørgsmålstegn og udråbstegn.

Vi håber, at alle husker det russiske sprog - tegnsætningstegn, der adskiller sætninger fra hinanden, er kun placeret i slutningen, punktum. Hvis du har brug for at tilføje udtryk (især i personlig korrespondance), bruges kombinationer af tegn - "!!!", "?!" etc. På engelsk, tysk, italiensk, fransk-canadisk, arabisk og brasiliansk portugisisk følger prikker, ellipser og deres "kammerater" de samme regler.

Andre regler på fransk: kolon, semikolon, udråbstegn og spørgsmålstegn er indledt med ikke-afbrydende mellemrum.

Spansk er det eneste sprog i vores udvalg, hvor tegnsætningstegn markerer rammesætninger: I begyndelsen af ​​en sætning duplikeres spørgsmålstegn og udråbstegn i en "lidt" omvendt form - "¿" og "¡".

Kineserne har den mest usædvanlige tilgang til tegnsætningstegn set fra et europæisk synspunkt. Deres punktum ser ud som 。, et komma ligner ,, et udråbstegn ligner !, og et spørgsmålstegn ligner ?. I en sætning opfører de sig som deres russiske kolleger, den eneste forskel er, at kineserne ikke bruger mellemrum, da alle tegnsætningstegn er dobbeltbyte. Hieroglyfen skrevet på tastaturet er dobbelt så bred som ethvert bogstav i det latinske alfabet. Derfor optager tegnsætningstegn normalt samme plads som hieroglyfen. Denne funktion blev stødt på af dem, der arbejdede i gamle IME'er med DOS, da en forkert indtastet hieroglyf blev fjernet ved at trykke på Backspace to gange. Mellemrum bruges hovedsageligt til at adskille ord og tegn fra andre sprog, såsom engelsk.

Søde funktioner
På russisk bruges enten en bindestreg eller en bindestreg. Bindestregen er kort og er nødvendig for at overføre og forbinde sammensatte ord. Bindestregen er væsentlig længere; det tjener til at adskille semantiske dele: forskellige sætninger, to dele af en sætning, i dialoger osv. Du kan huske alle finesserne ved at bruge disse tegn ved at se på en lærebog i russisk sprog.

Bindestreger og bindestreger findes under lignende forhold på engelsk, tysk, fransk og brasiliansk portugisisk. Desuden er stregen på amerikansk engelsk adskilt på begge sider af mellemrum, men på britisk engelsk er det normalt ikke:

Foredraget – som er det tredje om dette emne i denne måned – vil omfatte talere fra forskellige lande. (Amerikansk engelsk)

Zoo havde rigtig mange katte - løver, pantere, tigre, jaguarer og geparder - hvilket gjorde det meget svært at vælge en favorit. (Britisk engelsk)


På spansk, italiensk og arabisk ser bindestreger og bindestreger ens ud: "-". Kineserne bruger slet ikke bindestreger – de har kun bindestreger. Selvom der ved siden af ​​bogstaver fra det latinske alfabet kan være bindestreger, lange bindestreger og mellemste bindestreger. Bindestregen er kort og er nødvendig for at overføre og forbinde sammensatte ord. Bindestregen er væsentlig længere; det tjener til at adskille semantiske dele
Sprog Bindestreg Em bindestreg (Alt 0151)
Russisk
engelsk amerikansk Ja, til orddeling og sammenføjning af sammensatte ord Ja, for at adskille semantiske dele: forskellige sætninger, to dele af en sætning, i dialoger osv.
engelsk
britisk
Ja, til orddeling og sammenføjning af sammensatte ord Ja, for at adskille semantiske dele: forskellige sætninger, to dele af en sætning, i dialoger osv. Ikke adskilt af mellemrum på begge sider.
tysk Ja, til orddeling og sammenføjning af sammensatte ord Ja, for at adskille semantiske dele: forskellige sætninger, to dele af en sætning, i dialoger osv.
fransk Ja, til orddeling og sammenføjning af sammensatte ord Ja, for at adskille semantiske dele: forskellige sætninger, to dele af en sætning, i dialoger osv.
fransk canadisk Ja, til orddeling og sammenføjning af sammensatte ord Ja, for at adskille semantiske dele: forskellige sætninger, to dele af en sætning, i dialoger osv.
spansk Ja, i alle tilfælde -
portugisisk
brasiliansk
Ja, til orddeling og sammenføjning af sammensatte ord Ja, for at adskille semantiske dele: forskellige sætninger, to dele af en sætning, i dialoger osv.
italiensk Ja, i alle tilfælde -
arabisk Ja, i alle tilfælde -
kinesisk Kun ved siden af ​​bogstaver fra det latinske alfabet Ja, i alle tilfælde
Parret bogstavtype

Anførselstegn findes på alle sprog, men ligesom nationaldragter ser de anderledes ud. På det russiske sprog er der både traditionelle "juletræer", som kom fra fransk, og tyske "poter", som bruges i en sætning inden for anførselstegn og når man skriver i hånden. Spansk, brasiliansk portugisisk, italiensk og arabisk bruger dobbelte anførselstegn.

Englænderne bruger 'enkelt' og 'dobbelt' anførselstegn: det første for overskrifter, det andet for at citere. Punkter og kommaer er inden for anførselstegn. I den franske tekst er der "sildeben", med én forskel fra russisk: der er et kontinuerligt mellemrum mellem begyndelsen af ​​den citerede tekst og det åbne anførselstegn samt mellem slutningen af ​​sætningen og det afsluttende anførselstegn.

Der er tre typer anførselstegn i det kinesiske sprog, som tjener forskellige formål. Disse er navnene på bøger, film og andre forfatterskabsværker. I alle andre tilfælde bruger kineserne 「sådan」. Anførselstegn fra den europæiske tradition (hvad enten det er "juletræer", "poter", "enkelt" eller "dobbelt") kan kun findes i oversættelser eller i forbindelse med sætninger fra europæiske sprog. De har ikke vundet popularitet i traditionel kinesisk.

Anførselstegn findes på alle sprog, men ligesom nationaldragter ser de anderledes ud.

Sprog «…» „…“ “…” ‘…’ 《…》 「…」
Russisk Standard, punktum og kommaer udenfor Alternativer i en sætning inden for anførselstegn og når du skriver i hånden Alternativer ved håndskrivning - - -
engelsk
amerikansk
- - Standard for overskrifter - -
engelsk
britisk
- - Standard ved citering, punktum og kommaer indeni Standard for overskrifter - -
tysk - Standard - - - -
fransk Standard, ubrudt plads før åbning og lukning af tilbud - - - - -
spansk - - Standard - - -
portugisisk
brasiliansk
- - Standard - - -
italiensk - - Standard - - -
arabisk - - Standard - - -
kinesisk Kun i oversættelser eller i forbindelse med sætninger fra europæiske sprog Kun i oversættelser eller i forbindelse med sætninger fra europæiske sprog Kun i oversættelser eller i forbindelse med sætninger fra europæiske sprog Standard for titler på bøger, film og andre forfatterskabsværker Standard for andre sager
Symbolik
Procenter og ppm er heller ikke specielt standard. På tysk, fransk og spansk skal disse tegn adskilles med mellemrum. Og på russisk, engelsk, italiensk, arabisk og brasiliansk portugisisk, skriv umiddelbart efter nummeret. Selvom med russerne, som vi husker, er situationen tvetydig.

Grader og tommer er normalt placeret efter tallet uden mellemrum.

Fun fact: når franskmændene skriver store tal, adskiller de blokke med tre cifre med mellemrum - for eksempel: 987.654.321,12.

Kineserne har deres egne tegn for grader (度) og procenter (百分比 og 百分之). De sædvanlige ° og % bruges dog sammen med dem uden mellemrum foran dem.

Etablering af en dialog
Dialogformateringen varierer også fra sprog til sprog. På russisk sætter vi en em-streg foran hver linje. Talere af brasiliansk portugisisk gør det samme.

På engelsk bruges "double" og "single" anførselstegn, for eksempel:

"Her er en million pund," sagde Marina og rakte Simon en kuffert.

Marina fortsatte: 'Jeg talte med Ivan, og han sagde: "Simon beder om ti millioner, men det er for meget."


På tysk er dialoger også formateret med traditionelle anførselstegn - "poter". Franskmændene sætter "sildeben" såvel som korte streger i tilfælde, hvor forfatteren til en linje ændres. Dele af dialogen er også præget af en streger på spansk.

Italiensk og arabisk bruger dobbelte lige anførselstegn til dialog.

Kineserne sætter normalt kun 「anførselstegn」 eller deres engelske ækvivalent i deres dialog.

Stor eller lille

På engelsk, fransk, spansk, portugisisk, brasiliansk og italiensk er alt enkelt og velkendt for russisktalende - store bogstaver bruges i begyndelsen af ​​sætninger, til forkortelser og egennavne.

Tysk er meget sjovere. Navneord, navne og titler, den høflige tiltaleform (Sie) i alle kasusformer (Ihr, Ihre, Ihrer, Ihres, Ihrem, Ihren) skrives med stort bogstav. Adjektiver, participier og infinitiver, der bruges i en sætning som navneord i kombination med en bestemt (das Gute) eller ubestemt (ein Lächeln) artikel, præposition (i Blau), pronomen (dein Stottern), tal (nichts Aufregendes) eller adjektiv i bøjet form (lautes Sprechen). Bare alt :-)

Det arabiske alfabet skelner ikke mellem små og store bogstaver, men de fleste bogstaver har to, tre eller fire forskellige stavemåder: for begyndelsen, midten og slutningen af ​​et ord, og nogle gange for et enkelt bogstav uden for ordet. En lignende situation har udviklet sig i det kinesiske sprog - det er usandsynligt, at det vil være muligt at skelne mellem små eller store bogstaver. Og hvis kinesiske forfattere skal fremhæve en del af teksten, understreger de det eller bruger fed skrift.

Bonus
Det er sjovt, at mange talere af europæiske sprog, vi har interviewet, bemærkede, at de bruger store bogstaver efter de samme regler, som findes på engelsk, men ikke i sådanne mængder. En af de interviewede kolleger formulerede det sådan:
VI FORSØGER IKKE AT KAPITALISERE FOR MEGET.

Jeg spekulerer på, hvad det ville betyde? ;-)