PythonでUnicodeエスケープシーケンスをUnicodeキャラクタに変換する

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

\u30d5\u30a1\u30a4\u30eb\u30d5\u30a1\u30a4\u30eb

こんな文字列を見かけることありませんか?これは、Unicodeのエスケープシーケンス形式です。¥uによってUnicodeエスケープを認識し、その後に続くASCII文字4文字の16進数がUnicodeの1文字を表しています。

Unicodeキャラクタを表示する

パッとみて何が書いてあるか分かりませんので、簡単に確認する方法をご紹介します。Pythonコマンドです。

print uのあとにUnicodeエスケープシーケンスを記述すればUnicodeキャラクタになって返ってきます。

$ python
Python 2.7.1 (r271:86832, Jun 25 2011, 05:09:01) 
[GCC 4.2.1 (Based on Apple Inc. build 5658) (LLVM build 2335.15.00)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> print u'\u30d5\u30a1\u30a4\u30eb\u30b5\u30a4\u30ba\u304c\u5927\u304d\u3044' 
ファイルサイズが大きい

「ファイルサイズが大きい」と読める文字が表示されました。

まとめ

文字の表現方法を理解しよう!