安装依赖-leptonica库
- 下载源码
git clone https://github.com/DanBloomberg/leptonica.git
- configure
sudo apt install automake
bash autogen.sh
./configure
- 编译安装
make
sudo make install
- 这样就安装好了leptonica库
谷歌tesseract-ocr编译安装
- 下载源码
git clone https://github.com/tesseract-ocr/tesseract.git tesseract-ocr
- 安装依赖
sudo apt-get install g++ autoconf automake libtool autoconf-archive pkg-config libpng12-dev libjpeg8-dev libtiff5-dev zlib1g-dev libleptonica-dev -y
- 安装训练所需要的库(只是调用可以不用安装)
sudo apt-get install libicu-dev libpango1.0-dev libcairo2-dev
- configure
bash autogen.sh
./configure
- 编译安装
make
sudo make install
# 可选项,不训练可以选择不执行下面两条
make training
sudo make training-install
sudo ldconfig
安装对应的字体库并添加对应的环境变量
下载好的语言包 放在
/usr/local/share/tessdata
目录里面。- 语言包地址:https://github.com/tesseract-ocr/tessdata_best。里面有各种语言包,都是训练好的语言包。
- 简体中文下载:chi_sim.traineddata , chi_sim_vert.traineddata
- 英文包:eng.traineddata。
- 设置环境变量
vim ~/.bashrc
# 在.bashrc的文件末尾加入以下内容
export TESSDATA_PREFIX=/usr/local/share/tessdata
source ~/.bashrc
- 查看字体库
tesseract --list-langs
- 使用tesseract-ocr测试
# 识别/home/app/1.png这张图片,内容输出到output.txt 里面,用chi_sim 中文来识别(不用加.traineddata,会默认加)
tesseract /home/app/1.png output -l chi_sim
# 查看识别结果
cat output.txt
评论