You are here: PSPad forum > České diskuzní fórum > Rozpoznanie iného kódovania
Posted by: AD7 | Date: 2024-06-07 21:07 | IP: IP Logged
Zdravím,
keď urobím na web stránke copy a v PSPad-e paste, tak občas tam zostane iné kódovanie, v editore však pri kurzore na pozícii takýchto znakov nepoznám, že sú nejak "zmrvené" t.j. akýsi iný font.
Malý testovací súbor .TXT:
www.upload.ee
Posted by: vbr | Date: 2024-06-11 00:54 | IP: IP Logged
Zdravím,
zdá se, že kódování je tady v pořádku (utf-8), vypadá to na "neviditelné" znaky, s některými si editor asi úplně neporadí, v ukázkovém textu to jsou mimo běžnou latinku a mezery aj:
:: dec: 173 :: hex: 0xad - SOFT HYPHEN
# SOFT HYPHEN (Other, Format) (Latin-1 Supplement [128-255] [0x80-0xff])
:: dec: 8288 :: hex: 0x2060 - WORD JOINER
# WORD JOINER (Other, Format) (General Punctuation [8192-8303] [0x2000-0x206f])
pozice v textu:
Ashampoo Windows ...
:: dec: 32 :: hex: 0x20 - SPACE
1 :: dec: 49 :: hex: 0x31 - DIGIT ONE
1 :: dec: 49 :: hex: 0x31 - DIGIT ONE
:: dec: 32 :: hex: 0x20 - SPACE
A :: dec: 65 :: hex: 0x41 - LATIN CAPITAL LETTER A
d :: dec: 100 :: hex: 0x64 - LATIN SMALL LETTER D
:: dec: 32 :: hex: 0x20 - SPACE
d :: dec: 100 :: hex: 0x64 - LATIN SMALL LETTER D
:: dec: 173 :: hex: 0xad - SOFT HYPHEN
B :: dec: 66 :: hex: 0x42 - LATIN CAPITAL LETTER B
l :: dec: 108 :: hex: 0x6c - LATIN SMALL LETTER L
B :: dec: 66 :: hex: 0x42 - LATIN CAPITAL LETTER B
l :: dec: 108 :: hex: 0x6c - LATIN SMALL LETTER L
o :: dec: 111 :: hex: 0x6f - LATIN SMALL LETTER O
c :: dec: 99 :: hex: 0x63 - LATIN SMALL LETTER C
k :: dec: 107 :: hex: 0x6b - LATIN SMALL LETTER K
:: dec: 8288 :: hex: 0x2060 - WORD JOINER
:: dec: 32 :: hex: 0x20 - SPACE
v :: dec: 118 :: hex: 0x76 - LATIN SMALL LETTER V
1 :: dec: 49 :: hex: 0x31 - DIGIT ONE
. :: dec: 46 :: hex: 0x2e - FULL STOP
0 :: dec: 48 :: hex: 0x30 - DIGIT ZERO
. :: dec: 46 :: hex: 0x2e - FULL STOP
0 :: dec: 48 :: hex: 0x30 - DIGIT ZERO
:: dec: 32 :: hex: 0x20 - SPACE
B :: dec: 66 :: hex: 0x42 - LATIN CAPITAL LETTER B
l :: dec: 108 :: hex: 0x6c - LATIN SMALL LETTER L
o :: dec: 111 :: hex: 0x6f - LATIN SMALL LETTER O
zdravím,
vbr
Posted by: AD7 | Date: 2024-06-12 18:42 | IP: IP Logged
Díky za objasnenie,
stretávam sa s tým tak 1-2x týždenne. Čo sa s tým dá robiť?
Je nejaký jednoduchý spôsob ako sa tých skrytých znakov zbaviť?
Posted by: vbr | Date: 2024-06-13 16:38 | IP: IP Logged
Zdravím,
nevím, jestli je na to nějaký obecně použitelný postup, který by nebyl destruktivní pro žádoucí text, ale pokud je identifikován problematický znak, dá se v PSPadu najít a nahradit
použitím hexadecimálního kódu znaku v regulérním výrazu;
pro tento konkrétní dec: 8288 :: hex: 0x2060 - WORD JOINER
je to:
\x{2060}
(dá se asi nahradit za prázdný řetězec, nebo nějaký náhradní - podle potřeby).
Jestli jde o skupinu souborů ze stejného zdroje s tímto problémem, je možné, že půjde jen o tenhle jeden znak a pomůže přednahrazení před další editací.
Asi by mělo jít i uložit uživatelský konvertor s řadu takových náhrad regulérními výrazy pro zjištěné nežádoucí znaky.
"Násilná" možnost zrušení "exotických" znaků je převedení do kódování, které je nepodporují - třeba prostým přeuložením ve windows 1250 se "word joiner" nahradil za ? (ztratily by se tak ale i všechny ostatní nepodporované znaky, které mohou být žádoucí).
Zdravím,
vbr
Posted by: AD7 | Date: 2024-06-13 20:25 | IP: IP Logged
Díky za nasmerovanie.
Editor PSPad - freeware editor, © 2001 - 2024 Jan Fiala, Hosted by Webhosting TOJEONO.CZ, design by WebDesign PAY & SOFT, code Petr Dvořák, Privacy policy and GDPR