You are here: PSPad forum > České diskuzní fórum > Rozpoznanie iného kódovania

Rozpoznanie iného kódovania

#1 Rozpoznanie iného kódovania

Posted by: AD7 | Date: 2024-06-07 21:07 | IP: IP Logged

Zdravím,
keď urobím na web stránke copy a v PSPad-e paste, tak občas tam zostane iné kódovanie, v editore však pri kurzore na pozícii takýchto znakov nepoznám, že sú nejak "zmrvené" t.j. akýsi iný font.

Malý testovací súbor .TXT:
www.upload.ee

image

Options: Reply | Quote | Up ^


#2 Re: Rozpoznanie iného kódovania

Posted by: vbr | Date: 2024-06-11 00:54 | IP: IP Logged

Zdravím,
zdá se, že kódování je tady v pořádku (utf-8), vypadá to na "neviditelné" znaky, s některými si editor asi úplně neporadí, v ukázkovém textu to jsou mimo běžnou latinku a mezery aj:

­ :: dec: 173 :: hex: 0xad - SOFT HYPHEN
# ­ SOFT HYPHEN (Other, Format) (Latin-1 Supplement [128-255] [0x80-0xff])

⁠ :: dec: 8288 :: hex: 0x2060 - WORD JOINER
# ⁠ WORD JOINER (Other, Format) (General Punctuation [8192-8303] [0x2000-0x206f])

pozice v textu:
Ashampoo Windows ...
:: dec: 32 :: hex: 0x20 - SPACE
1 :: dec: 49 :: hex: 0x31 - DIGIT ONE
1 :: dec: 49 :: hex: 0x31 - DIGIT ONE
:: dec: 32 :: hex: 0x20 - SPACE
A :: dec: 65 :: hex: 0x41 - LATIN CAPITAL LETTER A
d :: dec: 100 :: hex: 0x64 - LATIN SMALL LETTER D
:: dec: 32 :: hex: 0x20 - SPACE
d :: dec: 100 :: hex: 0x64 - LATIN SMALL LETTER D
­ :: dec: 173 :: hex: 0xad - SOFT HYPHEN
B :: dec: 66 :: hex: 0x42 - LATIN CAPITAL LETTER B
l :: dec: 108 :: hex: 0x6c - LATIN SMALL LETTER L
B :: dec: 66 :: hex: 0x42 - LATIN CAPITAL LETTER B
l :: dec: 108 :: hex: 0x6c - LATIN SMALL LETTER L
o :: dec: 111 :: hex: 0x6f - LATIN SMALL LETTER O
c :: dec: 99 :: hex: 0x63 - LATIN SMALL LETTER C
k :: dec: 107 :: hex: 0x6b - LATIN SMALL LETTER K
⁠ :: dec: 8288 :: hex: 0x2060 - WORD JOINER
:: dec: 32 :: hex: 0x20 - SPACE
v :: dec: 118 :: hex: 0x76 - LATIN SMALL LETTER V
1 :: dec: 49 :: hex: 0x31 - DIGIT ONE
. :: dec: 46 :: hex: 0x2e - FULL STOP
0 :: dec: 48 :: hex: 0x30 - DIGIT ZERO
. :: dec: 46 :: hex: 0x2e - FULL STOP
0 :: dec: 48 :: hex: 0x30 - DIGIT ZERO
:: dec: 32 :: hex: 0x20 - SPACE
B :: dec: 66 :: hex: 0x42 - LATIN CAPITAL LETTER B
l :: dec: 108 :: hex: 0x6c - LATIN SMALL LETTER L
o :: dec: 111 :: hex: 0x6f - LATIN SMALL LETTER O

zdravím,
vbr

Options: Reply | Quote | Up ^


#3 Re: Rozpoznanie iného kódovania

Posted by: AD7 | Date: 2024-06-12 18:42 | IP: IP Logged

Díky za objasnenie,
stretávam sa s tým tak 1-2x týždenne. Čo sa s tým dá robiť?

Je nejaký jednoduchý spôsob ako sa tých skrytých znakov zbaviť?

Options: Reply | Quote | Up ^


#4 Re: Rozpoznanie iného kódovania

Posted by: vbr | Date: 2024-06-13 16:38 | IP: IP Logged

Zdravím,
nevím, jestli je na to nějaký obecně použitelný postup, který by nebyl destruktivní pro žádoucí text, ale pokud je identifikován problematický znak, dá se v PSPadu najít a nahradit
použitím hexadecimálního kódu znaku v regulérním výrazu;
pro tento konkrétní dec: 8288 :: hex: 0x2060 - WORD JOINER
je to:
\x{2060}

(dá se asi nahradit za prázdný řetězec, nebo nějaký náhradní - podle potřeby).

Jestli jde o skupinu souborů ze stejného zdroje s tímto problémem, je možné, že půjde jen o tenhle jeden znak a pomůže přednahrazení před další editací.

Asi by mělo jít i uložit uživatelský konvertor s řadu takových náhrad regulérními výrazy pro zjištěné nežádoucí znaky.

"Násilná" možnost zrušení "exotických" znaků je převedení do kódování, které je nepodporují - třeba prostým přeuložením ve windows 1250 se "word joiner" nahradil za ? (ztratily by se tak ale i všechny ostatní nepodporované znaky, které mohou být žádoucí).

Zdravím,
vbr

Options: Reply | Quote | Up ^


#5 Re: Rozpoznanie iného kódovania

Posted by: AD7 | Date: 2024-06-13 20:25 | IP: IP Logged

Díky za nasmerovanie.

Options: Reply | Quote | Up ^






Editor PSPad - freeware editor, © 2001 - 2024 Jan Fiala, Hosted by Webhosting TOJEONO.CZ, design by WebDesign PAY & SOFT, code Petr Dvořák, Privacy policy and GDPR