go backarticles

Articles of SQLschool.gr Team

Remove non printable chars from a string

Antonios Chatzipavlis

Overview

Η καταχώρηση δεδομένων σε μία εφαρμογή πάντα πρέπει να περιλαμβάνει κανόνες για να εξασφαλιστεί η ποιότητα των δεδομένων και η σωστή μελλοντική επεξεργασία τους.

Οι χρήστες πάντα βρίσκουν τρόπους για να κάνουν την ζωή τους καλύτερη κατά την εισαγωγή δεδομένων. Η άποψη μου είναι ότι καλά κάνουν.

Ένας χρήστης μπορεί να εισάγει δεδομένα εκτός από την πληκτρολόγηση, με copy & paste, με import κ.α.

Ιδιαίτερη προσοχή θέλουν δύο περιπτώσεις. Η πρώτη είναι το copy-paste πχ από word/excel και η δεύτερη περίπτωση να υπάρχει δυνατότητα πληκτρολόγησης κειμένου μέσα στην εφαρμογή όπου μπορεί να πατήσει enter για αλλαγή γραμμής.

Σε αυτές τις περιπτώσεις συνήθως καταχωρούνται και οι χαρακτήρες που δεν φαίνονται όπως το CR/LF και άλλοι.

Τέτοιοι χαρακτήρες είναι γνωστοί σαν non printable characters και είναι γνωστοί από το ASCII table. Αυτοί οι χαρακτήρες είναι από το 0 - 31 (βλέπε την παρακάτω εικόνα).


Ascii table
image

The problem

Συνήθως δεν υπάρχει πρόβλημα στην εφαρμογή γιατί έχει προβλεφθεί σε αυτή αυτό (τουλάχιστον στις περισσότερες).

Το πρόβλημα όμως είναι όταν τα δεδομένα αυτά πρέπει να χρησιμοποιηθούν σε DW, Analytics κλπ. Σε αυτές τις περιπτώσεις πρέπει να γίνει data cleansing που να βγάζει τους χαρακτήρες αυτούς καθώς αν δεν γίνει προκύπτουν προβλήματα εκτέλεσης σε SSIS,ADF αλλά και στην ανάγνωση τους από εργαλεία όπως Power BI, Excel Power Pivot κλπ.

Φυσικά μπορεί να χρησμοποιηθεί και για άλλους σκοπούς που χρειάζονται την συγκεκριμένη λειτουργικότητα.

My Solution

Επειδή δεν υπάρχει κάτι συγκεκριμένο το οποίο να παρέχει την συγκεκριμένη λειτουργικότητα ο καθένας έχει φτιάξει την δικιά του. Η προσωπική μου εκδοχή είναι η παρακάτω που έχει δοκιμαστεί σκληρά όλα αυτά τα χρόνια και αποδίδει αρκετά ικανοποιητικά.

Έχω δύο εκδοχές για non-Unicode και για Unicode string.

Και στις δύο περιπτώσεις επειδή η χρήση loop ανά χαρακτήρα είναι αργή έχω κάνει χρήση της REPLACE των χαρακτήρων αυτών σε space χαρακτήρα.

SQL Script

CREATE OR ALTER FUNCTION dbo.RemoveNonPrintChars ( @str VARCHAR(MAX) )
RETURNS VARCHAR(MAX) AS
BEGIN
    
    SELECT @str=REPLACE(@str,C,' ')
    FROM
    (
        SELECT TOP(32) CHAR(CN) AS C 
        FROM 
        (
            SELECT ROW_NUMBER() OVER (ORDER BY N1.N) - 1 AS CN  
            FROM (VALUES(1),(1),(1),(1),(1),(1)) AS N1(N)
            CROSS JOIN (VALUES(1),(1),(1),(1),(1),(1)) AS N2(N)
        ) AS C
    ) AS R

    RETURN @str
END
GO

CREATE OR ALTER FUNCTION dbo.RemoveNonPrintCharsUnicode ( @str NVARCHAR(MAX) )
RETURNS NVARCHAR(MAX) AS
BEGIN
    
    SELECT @str=REPLACE(@str,C,' ')
    FROM
    (
        SELECT TOP(32) CHAR(CN) AS C 
        FROM 
        (
            SELECT ROW_NUMBER() OVER (ORDER BY N1.N) - 1 AS CN  
            FROM (VALUES(1),(1),(1),(1),(1),(1)) AS N1(N)
            CROSS JOIN (VALUES(1),(1),(1),(1),(1),(1)) AS N2(N)
        ) AS C
    ) AS R

    RETURN @str
END
GO

Antonios Chatzipavlis


Antonios Chatzipavlis

Antonios Chatzipavlis

Antonios is a Data Solutions Consultant and Trainer. He has been working in IT since 1988. In his career, he has worked as senior developer, IT Manager, Solutions Architect and IT Consultant. Since 1995 he has been devoted on new technologies and software development tools, mainly by Microsoft, either by training company staff and colleagues or assisting them in design, development and implementation as a consultant or chief developer. He has focused in Databases and Data Science since 1995. He specialized in Microsoft SQL Server since version 6.0 in areas like SQL Server Internals, Database Design and Development, Business Intelligence and in 2010 he has started working with Azure Data Platform, NoSQL databases, Big Data Technologies and Machine Learning. He is an active member of many IT communities in Greece, answering colleagues' questions and writing articles in his web site. He is the owner of SQLschool.gr which is a community portal with a lot of information about Microsoft SQL Server. He has been a Microsoft Certified Trainer (MCT) since 2000. Microsoft honored him as MVP on Data Platform due to his activities in SQL Server since 2010. He holds a large number of Microsoft Certifications and Microsoft SQL Server Certifications since version 6.5.


Leave your comment

COMMENT

FULL NAME

EMAIL ADDRESS

We use Gravatar

WEB SITE



captcha


 

Newsletter

If you want to receive updates from us subscribe below with your email.
Follow us in
PASS chapter logo

The Official PASS Local Group for Greece

About us Contact us Terms of Use Privacy Sing in Register
sql school greece logo
© 2010-2020 All rights reserved

This site uses cookies for operational and analytics purposes only. By continuing to browse this site, you agree to their use.