Sample Attachment Proposal Essay

Published: 2019-10-10 12:35:15
911 words
4 pages
printer Print
essay essay

Category: Algorithm

Type of paper: Essay

This essay has been submitted by a student. This is not an example of the work written by our professional essay writers.

Hey! We can write a custom essay for you.

All possible types of assignments. Written by academics

GET MY ESSAY
I am also highly indebted to my supervisors Faisal Shafait and Ilya  Mezhirov, who seemed to have solutions to all my problems. Author The report presents the three tasks completed during summer internship at IUPR  which are listed below: 1. Detection   of   headlines   in   document   images   with   black   run­lengths   and  OCRopus performance evaluation in detecting headlines 2. Re­engineering the zone­classification module 3. Evaluation of different segmentation algorithms performance All these tasks have been completed successfully and results were according to  expectations.

The detection  of  headlines achieved a low error rate of 2. 85% as  against   6. 52   of   previously   used   methods. During   evaluation   of   segmentation  algorithms XY­cut was found to gain a lot by noise cleanup, which is an interesting  result as it strengthen the claim of XY­cut segmentation algorithm as a suitable  method   for   OCRopus. The   re­engineering   and   porting   of   zone­classification  module   to   OCRopus   makes   it   possible   for   OCRopus   to   have   a   text/image  segmentation if it is required in future. Author Abstract OCRopus : Introduction

Though the field of optical character recognition(OCR) is considered to be widely  explored, the development of an efficient system for use in real world situations  still remains a challenge for developers. OCRopus is a state­of­the­art document  analysis and OCR system, featuring pluggable layout analysis, pluggable character  recognition, statistical natural language modeling, multi­lingual capabilities and is  being developed at IUPR. This being a very big project, I was assigned the tasks of  developing tools for layout­analysis and evaluation. The Goals: Following goals were set as I proceeded in my work: 1.

Conversion of ground­truth­data in MARG database from XML format  to hOCR micro­format[1]. 2. Development of a rule­based headline detection method using the median  black run­length of the lines. 3. Development   of   segmentation­classification   module   and   evaluation   of  performance of different segmentation algorithms as against noise. 1. XML to hOCR: hOCR   is   a   format   for   representing   OCR   output,   including   layout   information,  character   confidences,   bounding   boxes,   and   style   information. It   embeds   this  information   invisibly   in   standard   HTML.

By   building   on   standard   HTML,   it  automatically   inherits   well­defined   support   for   most   scripts,   languages,   and  common   layout   options. Furthermore,   unlike   previous   OCR   formats,   the recognized text and OCR­related information co­exist in the same file and survives  editing and manipulation. hOCR markup is independent of the presentation. Due to all above qualities of hOCR format, it is highly desirable to have ground  truth in this format. I was assigned the task of converting the MARG database  ground truth into hOCR format.

For  this purpose I have written following script. Script Name : xml­to­hocr Language Used: Python Command­line­argument form: xml­to­hocr FILE. XML FILE. XML : The file in XML format to be converted into hOCR micro format. Note:   The   script   does   not   take   care   of   latex   characters   yet. It   would   be   an  improvement to incorporate this feature. 2. Headline detection Based on black run­length and its     integration  into OCRopus: Detection of headlines in document images is one issue that is mostly overlooked  but yet is highly desirable to properly format the output of OCR.

OCRopus had till  now used a rule based method which used space between lines as the criteria for  detection of headlines. Though this method worked for many images, it also failed  many times. It was an obvious observation that black run­lengths of headlines are  more than the black run­length of the normal line, and we tried to build upon this concept. We used median black run length of a line as the deciding criteria. The  median was used instead of mean because mean run length could have easily been  affected by the noise merging with text and would have produce errors.

The whole approach is simple as discussed below: 1. Calculate the median black run­length for the each line on page. 2. Compare this run length for each line with the lines below and above it. 3. If   black   run­length   for  a   line  has   been  found  K1(a   parameter)   times   the  median  run­length   of line below it, and K2(another parameter) times the  median run­length of the line above it,set it as a headline. The value of parameters K1 and K2 was to be found experimentally. After many  times evaluating the performance of the program, the value of K1 and K2 has been  set to 1. 5 and 1. 1 respectively.

We used histogram based method to find the median run­length. A histogram of  the number of occurrences versus run­length was calculated, once we have such a  histogram we normalize it with the largest value of occurrence. Then we calculated  the cumulative distribution function for this normalized histogram. The point when  cumulative distribution function reches a value of 0. 5, corresponds to the median  runlength. The   program   for  detection   of   headlines   was   written  in  C++   and  used   standard  OCRopus classes. The program has been successfully integrated into OCRopus and Evaluation:

We   also   designed   a   tool   which   evaluates   the   performance   of   the   OCRopus   in  detecting   headlines. As   according   to   OCRopus   standards,   this   tool   has   been  developed to work with files in hOCR micro­format. This tool comprises of two  programs: 1. The first program takes the OCRopus output and the corresponding ground  truth file in hOCR format and   outputs the total no of false positives and false negatives which occurred in detection. It also outputs the total no of  true   headlines   which  are   present   in  the   ground­truth. The   command   line  form of this programs is:

Warning! This essay is not original. Get 100% unique essay within 45 seconds!

GET UNIQUE ESSAY

We can write your paper just for 11.99$

i want to copy...

This essay has been submitted by a student and contain not unique content

People also read