LangChainのPyPDFLoaderでAdvanced encoding /XX not implemented yetが出たときの対処法

公開日:

2024-05-31

LangChainのPyPDFLoaderを利用した際に、Advanced encoding /XX not implemented yetと表示されて困ったので備忘録を残します。

原因

PyPDFLoaderがいくつかの日本語のフォントに対応していないことが原因のようです。

他のPDFLoaderを利用しましょう。

私の場合はPDFMinerLoader()を利用すると読めるようになりました。

こちらは裏でpdfminer.sixを利用しているため日本語が読めるようです。

Support for Chinese, Japanese and Korean (CJK) languages as well as vertical writing.

PDFMinerLoader()の場合デフォルトだとmetadataのページ番号が付きません。

ページ番号を利用したい方は、extract_image=Trueにするとつけることができるみたいです。