ubuntu编译安装谷歌tesseract-ocr

jupiter
2020-09-18 / 0 评论 / 618 阅读 / 正在检测是否收录...
温馨提示:
本文最后更新于2021年12月07日,已超过868天没有更新,若内容或图片失效,请留言反馈。

安装依赖-leptonica库

  • 下载源码
git clone https://github.com/DanBloomberg/leptonica.git
  • configure
sudo apt install automake
bash autogen.sh
./configure
  • 编译安装
make
sudo make install
  • 这样就安装好了leptonica库

谷歌tesseract-ocr编译安装

  • 下载源码
git clone https://github.com/tesseract-ocr/tesseract.git  tesseract-ocr
  • 安装依赖
sudo apt-get install g++ autoconf automake libtool autoconf-archive pkg-config libpng12-dev libjpeg8-dev libtiff5-dev zlib1g-dev  libleptonica-dev -y
  • 安装训练所需要的库(只是调用可以不用安装)
sudo apt-get install libicu-dev libpango1.0-dev  libcairo2-dev
  • configure
bash autogen.sh
./configure
  • 编译安装
make
sudo make install

# 可选项,不训练可以选择不执行下面两条
make training
sudo make training-install


sudo ldconfig
  • 安装对应的字体库并添加对应的环境变量

    • 下载好的语言包 放在/usr/local/share/tessdata目录里面。

    • 设置环境变量
vim ~/.bashrc

# 在.bashrc的文件末尾加入以下内容
export TESSDATA_PREFIX=/usr/local/share/tessdata

source ~/.bashrc
  • 查看字体库
tesseract --list-langs
  • 使用tesseract-ocr测试
# 识别/home/app/1.png这张图片,内容输出到output.txt 里面,用chi_sim 中文来识别(不用加.traineddata,会默认加)
tesseract /home/app/1.png output -l chi_sim

# 查看识别结果
cat output.txt
0

评论

博主关闭了当前页面的评论