Jump to content
Muxe Inc Forums

Garl

Members
  • Content count

    757
  • Joined

  • Last visited

Posts posted by Garl


  1. а с этой стороны сейчас посмотрим. и да это был хак конкретно во вьювере конкретно в режиме текста.

    upd:

    сделано скрытие курсора перед запуском диалога ( по идее как было раньше)


  2. ага спасибо. сделал проверку не на "или" а на "и" что более корректно.

    в ночнушке.

    так же реализован поиск по юникодовым строкам (пока во вьювере в хекс режиме)


  3. >А почему эта опция по умолчанию отключена? 
    при сносе инишки она будет включена

    >Её ещё и не видно при открытии окна настроек. 
    поправлено, но изюминка же именно в настройках.

    >Вьюер по прежнему при автодетекте кодировки берет список кодировок из редактора вместо своих.

    fixed

    >Плюс есть глюк: если кодировка KOI отключена, то кодировка WIN не детектится

    fixed. но при последующем детекте  вьювер уже будет брать кодировку из редактора и наоборот. ( и надо ковырять передачу кодировок через кнопку F11)

    >Примеры файлов с UTF8 в аттаче.

    fixed  (определяем до трёх UTF  символов в первых 10 строках. должно хаватить?)

     


  4. в ночнушке : новый детектер UTF8

    1 ) по BOM

    2) по трём символам больше одного байта в первых двух строках файла (вот тут можно подумать и проверять еще)

    на тестовых примерах сработка 100%


  5. 3 hours ago, Guest WAJIM said:

    А сколько байт от начала файла проверяется для определения кодировки? От размера файла зависит?

    весь файл (нажмите Alt-F1  в редакторе при сброшеном выделении)

    но при 100% найденном BOM дальше детект кодировок не учитывается. 

    1 hour ago, Guest DRON said:

    И что будет с поиском в файлах при включенной "Во всех кодировках": автоопределение или по старинке?

    строка будет переводиться в ascii  и далее по старому сценарию.

    но до поиска пока руки не доходят. тут ещё кучу мелочей допиливать надо.


  6. ASCII - как есть

    ANSI - [+] по частоте упоминания символов  'а','е','и','о','у' в своей кодировке

    KOI  - [+] по частоте упоминания символов  'а','е','и','о','у' в своей кодировке

    UTF7 - [ - ] если текст только с английскими буквами - перебором со 100% попаданием определить не получится. нужен алгоритм декодирования

    UTF8  - [+] BOM  - без BOM можно попробовать определять по первым байтам, но если в тексте сперва идут английские буквы - ничего не выйдет

    UTF16BE - [+] BOM , без BOM не определяем

    UTF16LE - [+] BOM , без BOM не определяем

     


  7. 23 hours ago, Guest DRON said:

    Это же наоборот самое простое: UTF-7 на то и "семь", что старший бит всегда 0,

    берём документацию на английском языке и смотрим: там все буквы со старшим нулевым битом.

    так что не совсем катит. надо учиться детектить по контрольной сумме первых байт первой строки

     

     


  8. из-за отсутствия нормальной реализации utf16 есть шанс не включать его поддержку в сборки.

    или нужен человек который сможет реализовать поддержку на ассемблере .

    upd:

    детект по BOM сделал, но глючит определение строк... 


  9. Опция детекта кодировки сама просится, соответственно детектить будем из того что разрешено.

    нормальный алгоритм детекта кодировок есть откуда взять\подсмотреть?

     


  10. 5 hours ago, Guest WAJIM said:

    Автодетект кодировки DOS/WIN сломался, постоянно DOS определяет.

    а в настройках редкатора\просмотрщика дополнительные кодовые страницы включены?


  11. с многобайтовыми концами строк - да засада.

    нормально работают только кодовые страницы 65001 и 65000, остальные надо допиливать.

     

    если кто подскажет алгоритм определения по текущему(одному)  символу кодовой страницы - буду благодарен

×